忍者ブログ

[PR]

×

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

PSMCの前処理

毎度おなじみ、僕です。
このブログが生きていることに驚いています。

1個体のゲノムから個体群動態を推定するPSMCという方法。
https://github.com/lh3/psmc

今ではいろんな発展系もありますが、やっぱり理論的にも使い方的にもシンプルでわかりやすい(相対的に)原作を使いたくなるときもあります。

日本語解説はこちらが詳しいです。
https://sites.google.com/site/hiromimatsumae/過去の情報/集団遺伝学


が、新しいsamtools系だとこの通りにはいかず、古いバージョンを併用する必要が出てきて面倒です。

特に公式のこの部分。
"""
samtools mpileup -C50 -uf ref.fa aln.bam | bcftools view -c - | vcfutils.pl vcf2fq -d 10 -D 100 | gzip > diploid.fq.gz
"""

これの新しいバージョンに対応したコマンドは以下です。
"""
bcftools mpileup -C50 -Ou -f ref.fa aln.bam | bcftools call -c - | vcfutils.pl vcf2fq -d 10 -D 100 | gzip > diploid.fq.gz
"""
bcftoolsで代用できました。

お試しあれ。

PR

フローサイトメトリー用語解説

フローサイトメトリーによるゲノムサイズや倍数性の推定に関する専門用語
Estimation of nuclear DNA content in plants using flow cytometry
Jaroslav Dolezel, Johann Greilhuber & Jan Suda
Nature protocol (2007)

haplophase 単相世代(染色体数 n) 蘚苔類によくある。
diplophase 複相世代(染色体数 2n)維管束植物によくある。

haplophaseの個体の複製してない核のDNA含有量は"1C"。染色体数nのハプロイドゲノムのDNA量にあたる。
DNA複製後haplophaseの核のDNA含有量は"2C"。diplophase個体の複製していない核と同じ。
endopolyploidy核内倍数性は普通Cのレベルで表す。

基本染色体数がxのmonoploidのゲノムサイズはCx-valueで表す。
6倍体植物パンコムギの体細胞は2n=6x=42で、2C-valueは6Cx-valueと等しい。

haploid, diploidなど染色体数についてのワードは、DNA含有量を示すのに使うべきではない。
また、フローサイトメトリーで得られる倍数性データは染色体カウントで得られるものとは区別すべきだ。
核DNA含有量から倍数性/異数性に言及するなら、"DNA 倍数性"、"DNA 異数性"とすべきだ。

菌類の分類

今日は菌の分類について、以下の論文のアブストだけ読んだのでメモ。

Fungal evolution: diversity, taxonomy and phylogeny of the Fungi
Biol. Rev. (2019)

菌類のゲノムを使った系統解析から、以下の9つの門に再定義しました。日本語はwikipediaを参照しています。

Opisthosporidia
Chytridiomycota ツボカビ門
Neocallimastigomycota ネオカリマスティクス門
Blastocladiomycota コウマクノウキン門
Zoopagomycota
Mucoromycota ケカビ亜門
Glomeromycota グロムス門
Ascomycota 子嚢菌門
Basidiomycota 担子菌門

日本語のないものが新しく分けられた分類群でしょうか。
論文には各門の特徴や代表的な種について書いてあるので気が向いたら追記します。

Holoploidについて

Holoploidってなんじゃらほい.ってことで,古いけど以下の論文からHoloploidについて紹介します.

The Origin, Evolution and Proposed Stabilization of the Terms ‘Genome Size’ and ‘C-Value’ to Describe Nuclear DNA Contents
Johann Greilhuber et. al. 2005


"ゲノムサイズ"というときに,全染色体のDNAの塩基数を指すことと,1倍体(monoploid)でのDNAの塩基数を指す事があって定まっていない.
前者はC-valueと呼ばれることもあります.

・"ゲノムサイズ"は1倍体に対して使いましょう.
・1個体のもつ全染色体のDNAの塩基数を指す場合は,holoploidという新語を作って"Holoploid genome size"としましょう.
・monoploidに対してはCx-value,Holoploidに対してはC-valueとして,ゲノムサイズの定量データにはC-levelをつけて,1C,1Cx,2Cなどとしましょう.

以上.

倍数性の変わりやすい植物では一層混乱しやすそう.
2018年現在,ゲノムサイズの定義はこの通りです.HoloploidやC-valueは初めて聞きました.
ましてや,Holoploid genome sizeの概念を必要と感じたことがなかった.
他の分野だと使ってるのかな.

vcfの詳細

samtoolsでSNPコールしてbcftoolsでハプロイドをフィルタリングしたときのINFOとFORMATの詳細

INDEL indel多型
IDV indelを支持する最大リード数
IMF indelを支持する最大割合
DP 生リードdepth
VDB RNA-seqでのフィルターしたスプライシングサイトのアーティファクトの変数距離バイアス(大きいほど良い)
RPB リード部位バイアスのマン/ホイットニーのU検定(大きいほど良い)
MQB マッピングクオリティバイアスのマン/ホイットニーのU検定(大きいほど良い)
BQB ベースクオリティバイアスのマン/ホイットニーのU検定(大きいほど良い)
MQSB マッピングクオリティvsストランドバイアスのマン/ホイットニーのU検定(大きいほど良い)
SGB segregationベースの測定
MQ0F MQ0リードの割合(小さいほどよい)

ICB 近交係数二項検定(大きいほどよい)
HOB HOMs数の数のバイアス(小さいほどよい)
AC 各ALTアリルの遺伝子型のアリルカウント
AN コールされた遺伝子型のアリルの総数
DP4 ref-forward, ref-reverse, alt-forward, alt-reverse 塩基の高クオリティの数
MQ 平均マッピングクオリティ


FORMAT
PL Phredスケールの遺伝子型尤度のリスト
GT 遺伝子型

カレンダー

04 2024/05 06
S M T W T F S
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31

フリーエリア

最新コメント

プロフィール

HN:
No Name Ninja
性別:
非公開

バーコード

ブログ内検索

P R