ex201 - nibb-gitc/gitc2021mar-rnaseq GitHub Wiki
ex201
この練習問題ではRNA-Seqのアライメントファイル(BAM)を、実際にIGVに読み込ませてviewingする。 Case study 2およびIGVの解説のところでも用いた、アラビドプシス(Arabidopsis thaliana)のRNA-seqデータがある。 ライブラリは2D sample (2days dark conditionで生育させた黄色芽生え)と2D2L sample (その後さらに2days light conditionで生育させた緑化芽生え)でそれぞれsampling duplicateを3つについて、Arabidopsis tair10をリファレンスとしてアライメントしたsorted bamファイルを用意してある。
課題
- IGVでの描画にはbamファイルのindexが必要である。bias5上のsamtoolsを使ってindexを作成せよ。
- bamファイルと完成したindexを手元にダウンロードせよ (scp -r)
- 2D_rep1, 2D_rep2, 2D_rep3, 2D2L_rep1, 2D2L_rep2, 2D2L_rep3のbamファイルをIGVに取り込み描画せよ。
- リファレンスとしてデフォルトで登録されているA.thaliana tair10を選択。
- (PCメモリー等のスペックによりメモリー不足、時間がかかる場合は一部サンプルのみで可)
- アラビドプシスのsplice viriant geneとして知られているAT1G02840 geneのlocusを拡大し、sashimi_protを表示させ、splice variantを確認せよ。
Data
Input reads
(ファイルは、~/gitc/data/KY/IGV/ex201 にある)
- condition Dark, rep#1: 2D_rep1.sorted.bam
- condition Dark, rep#2: 2D_rep2.sorted.bam
- condition Dark, rep#3: 2D_rep3.sorted.bam
- condition Light, rep#1: 2D2L_rep1.sorted.bam
- condition Light, rep#2: 2D2L_rep2.sorted.bam
- condition Light, rep#3: 2D2L_rep3.sorted.bam
Software
- samtools (bias5)
- IGV (local computer)
sorted.bamファイルのindex作成
bias5:~/gitc/data/KY/IGV/ex201
$ samtools index 2D_rep1.sorted.bam
$ samtools index 2D_rep2.sorted.bam
$ samtools index 2D_rep3.sorted.bam
$ samtools index 2D2L_rep1.sorted.bam
$ samtools index 2D2L_rep2.sorted.bam
$ samtools index 2D2L_rep3.sorted.bam
作成したindexをex201ディレクトリごと手元のマシンにコピー
On LOCAL (少し時間がかかります)
scp -r [email protected]:~/gitc/data/KY/IGV/ex201 .
IGVでの描画
-
PCにIGVをインストールして起動を確認。
-
左上のrefrence指定ボックス右の下矢印をクリックし、More > A.thaliana(TAIR10)を選択
- File > Load from File ... で作製した.sort.bamを読み込む 適当にズームアップする。
View > PreferencesのalignmetsタブのVisibility range threshold(kb)を上げると広いlocusの描画が可能。
PCのメモリー量や処理速度に応じて増やすと良い
また例えばwindows版の場合、起動時のbatファイル(igv.bat)でjavaのヒープメモリー最大値を設定できる(-Xmx 16gとすれば16g割り当て)。メモリー不足の警告が出てメモリーの余裕があるなら、ここを増やす。
Sashimi-Plot
Sashimi-Plotを描画してみる。
https://software.broadinstitute.org/software/igv/Sashimi
Sashimi-Plotはゲノム座標とgtf情報に沿ったアライメントデータから、複数のサンプルのスプライスジャンクションを視覚化できる。 サンプルごとのスプライスバリアントの可視化に適する。
ここではsplice variantが知られている、splicing factor SRP34(AT1G02840)のgene locusのSashimi-Plotを見てみる。
1.tool barのsearch boxにAT1G02840と入力してリターンすると、そのローカスが表示される。
2.junction trackを右クリックし、ポップアップからSashimi-Plotを選択する。
エキソン連結数などが表示された結果が得られることを確認。
今回のデータはデータ量不足で結果が不明瞭だが、gtf情報にないエキソンが存在していることを伺わせる結果となっているだろう。