忍者ブログ

[PR]

×

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

blatに騙された.

高速な相同性検索ソフト,blat.
ゲノムを扱うときには重宝します.

最近気になったこと.
blatで取得した情報を元に配列を取ってくるとき.
僕はblatの出力形式pslのT startからT endまでを取得する自作ソースを使っている.
実際には貰い物を元に少しアレンジしたもの.
取得した配列をアライメントすると,必ず先頭に1塩基余っている.

なんで?完全に無駄じゃん?
自作ソースが悪いのかと思って穴が空くほど見たし,試したが,間違ってない.
モニターに穴が空くわけないんだけど.

で,今度はblatに問題があるんじゃないかと調べた結果,
なんと,T startが開始位置-1を表示しているようだ.まだ始まってないじゃん.
T startの次からが相同な配列ということか.
それを踏まえて自作ソースを改変し,解決した.

startの概念が覆った日でした.

####################################
以下,試してみたことの詳細.
・仮想ゲノムファイルとして,以下のfastaファイルを作る.
>test1
TAAAAAAAAACAAAAAAAAAGAAAAAAAAATTAAAAAAAACCAAAAAAAAGGAAAAAAAATTTAAAAAAACCCAAAAAAAGGGAAAAAAATTTTAAAAAACCCCAAAAAAGGGGAAAAAATTTTTAAAAACCCCCAAAAAGGGGGAAAAATTTTTTAAAACCCCCCAAAAGGGGGGAAAA

少なくとも10塩基あればどの位置かわかるような仮想ゲノム.

・仮想クエリファイルとして,以下のfastaファイルを作る.
>hoge
TAAAAAAAAACAAAAAAAAAGAAAAAAAAAT

これらを用いて,
blat genom.fasta query.fasta test.blat
で単純にpslファイル取得.
もちろん,1番目から31番目の計31塩基を取得したはず.
0番目を考えれば,0番目から30番目かもしれない.

pslファイルを見てみると
なんと,T startは0,T endは31に!!

ちなみに,本体の中身を確認するほどの気力はない.
お試しあれ.
PR

コメント

お名前
タイトル
文字色
メールアドレス
URL
コメント
パスワード Vodafone絵文字 i-mode絵文字 Ezweb絵文字

カレンダー

11 2024/12 01
S M T W T F S
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31

フリーエリア

最新コメント

プロフィール

HN:
No Name Ninja
性別:
非公開

バーコード

ブログ内検索

P R