ex201 - nibb-gitc/gitc2025mar-rnaseq GitHub Wiki

ex201

この練習問題ではRNA-Seqのアライメントファイル(BAM)を、実際にIGVに読み込ませてviewingする。 IGVの解説のところでも用いた、アラビドプシス(Arabidopsis thaliana)のRNA-seqデータがある。 ライブラリは2D sample (2days dark conditionで生育させた黄色芽生え)と2D2L sample (その後さらに2days light conditionで生育させた緑化芽生え)でそれぞれsampling duplicateを3つについて、Arabidopsis tair10をリファレンスとしてアライメントしたsorted bamファイルとindexファイルを用意してある。

課題

  1. 2D_rep1, 2D_rep2, 2D_rep3, 2D2L_rep1, 2D2L_rep2, 2D2L_rep3のbamファイルをIGVに取り込み描画せよ。
    • リファレンスとしてデフォルトで登録されているA.thaliana tair10を選択。
    • (PCメモリー等のスペックによりメモリー不足、時間がかかる場合は一部サンプルのみで可)
  2. アラビドプシスのsplice viriant geneとして知られているAT1G02840 geneのlocusを拡大し、sashimi_protを表示させ、splice variantを確認せよ。

Data

Input reads

(ファイルは、~/gitc/data/KY/IGV/ex201 にある
ファイルパスは適宜読み替えること)

  • condition Dark, rep#1: 2D_rep1.sorted.bam
  • condition Dark, rep#2: 2D_rep2.sorted.bam
  • condition Dark, rep#3: 2D_rep3.sorted.bam
  • condition Light, rep#1: 2D2L_rep1.sorted.bam
  • condition Light, rep#2: 2D2L_rep2.sorted.bam
  • condition Light, rep#3: 2D2L_rep3.sorted.bam

Software

  • samtools (ccfep or local computer)
  • IGV (local computer)

sorted.bamファイルのindex作成

~/gitc/data/KY/IGV/ex201

IGVでの描画 (IGVのversionによって描画が若干異なる)

  1. PCにIGVをインストールして起動を確認。

  2. 左上のrefrence指定ボックス右の下矢印をクリックし、More > A.thaliana(TAIR10)を選択

  1. File > Load from File ... で作製した.sort.bamを読み込む 適当にズームアップする。

 View > PreferencesのalignmetsタブのVisibility range threshold(kb)を上げると広いlocusの描画が可能。

PCのメモリー量や処理速度に応じて増やすと良い

また例えばwindows版の場合、起動時のbatファイル(igv.bat)でjavaのヒープメモリー最大値を設定できる(-Xmx 16gとすれば16g割り当て)。メモリー不足の警告が出てメモリーの余裕があるなら、ここを増やす。

Sashimi-Plot

Sashimi-Plotを描画してみる。

https://igv.org/doc/desktop/#UserGuide/tracks/alignments/rna_seq/#sashimi-plots

Sashimi-Plotはゲノム座標とgtf情報に沿ったアライメントデータから、複数のサンプルのスプライスジャンクションを視覚化できる。 サンプルごとのスプライスバリアントの可視化に適する。

ここではsplice variantが知られている、splicing factor SRP34(AT1G02840)のgene locusのSashimi-Plotを見てみる。

1.tool barのsearch boxにAT1G02840と入力してリターンすると、そのローカスが表示される。

2.junction trackを右クリックし、ポップアップからSashimi-Plotを選択する。

WSB000008

エキソン連結数などが表示された結果が得られることを確認。

今回のデータはデータ量不足で結果が不明瞭だが、gtf情報にないエキソンが存在していることを伺わせる結果となっているだろう。