高速な相同性検索ソフト,blat.
ゲノムを扱うときには重宝します.
最近気になったこと.
blatで取得した情報を元に配列を取ってくるとき.
僕はblatの出力形式pslのT startからT endまでを取得する自作ソースを使っている.
実際には貰い物を元に少しアレンジしたもの.
取得した配列をアライメントすると,必ず先頭に1塩基余っている.
なんで?完全に無駄じゃん?
自作ソースが悪いのかと思って穴が空くほど見たし,試したが,間違ってない.
モニターに穴が空くわけないんだけど.
で,今度はblatに問題があるんじゃないかと調べた結果,
なんと,T startが開始位置-1を表示しているようだ.まだ始まってないじゃん.
T startの次からが相同な配列ということか.
それを踏まえて自作ソースを改変し,解決した.
startの概念が覆った日でした.
####################################
以下,試してみたことの詳細.
・仮想ゲノムファイルとして,以下のfastaファイルを作る.
>test1
TAAAAAAAAACAAAAAAAAAGAAAAAAAAATTAAAAAAAACCAAAAAAAAGGAAAAAAAATTTAAAAAAACCCAAAAAAAGGGAAAAAAATTTTAAAAAACCCCAAAAAAGGGGAAAAAATTTTTAAAAACCCCCAAAAAGGGGGAAAAATTTTTTAAAACCCCCCAAAAGGGGGGAAAA
少なくとも10塩基あればどの位置かわかるような仮想ゲノム.
・仮想クエリファイルとして,以下のfastaファイルを作る.
>hoge
TAAAAAAAAACAAAAAAAAAGAAAAAAAAAT
これらを用いて,
blat genom.fasta query.fasta test.blat
で単純にpslファイル取得.
もちろん,1番目から31番目の計31塩基を取得したはず.
0番目を考えれば,0番目から30番目かもしれない.
pslファイルを見てみると
なんと,T startは0,T endは31に!!
ちなみに,本体の中身を確認するほどの気力はない.
お試しあれ.
PR