ex202 - nibb-gitc/gitc2024jul-rnaseq GitHub Wiki

ex202: IGVによる可視化(SARS-CoV-2)

新型コロナウイルス SARS-CoV-2 を題材に、IGVでのゲノムデータの可視化手法を学ぶ。

  • ex202-1: SARS-CoV-2ゲノムのリファレンスを構築する。GFFのアノテーション情報を探索する。
  • ex202-2: 日本人から検出されたSARS-CoV-2のゲノムシーケンスをリファレンスとアライメントした結果を表示し、変異箇所を確認する。
  • ex202-3: mRNAワクチンのターゲット領域を示すBEDファイルをIGV上に表示する。
  • ex202-4: オミクロン株のマッピング結果を可視化する。(2022 Mar updated)

ex202-0: Preparation

ローカル環境にIGVをインストール。起動する。(以下は、ver. 2.14.0で動作確認した)

ex202-1: Reference genomeの構築

公的データベースには膨大な数の新型コロナウイルスのゲノムが登録されているが、NCBI RefSeqにリファレンスとして登録されているのは、Wuhan-Hu-1株のゲノムである。Wuhan-Hu-1株の、ゲノムシーケンスデータ(FASTA)と遺伝子アノテーション(GFF)をNCBIからダウンロードして、IGV用のゲノムリファレンスを構築する。

SARS-CoV-2 (Wuhan-Hu-1) strain genome data の基本情報

  • accession#: NC_045512.2
  • description: Severe acute respiratory syndrome coronavirus 2 isolate Wuhan-Hu-1, complete genome

Links

ファイルの準備。NCBIサイトからダウンロードする。

gzip形式で圧縮されているので、いずれも解凍する(ファイルをダブルクリック、もしくはgunzipコマンド)。解凍されたファイル名は、GCF_009858895.2_ASM985889v3_genomic.fna, GCF_009858895.2_ASM985889v3_genomic.gff となるはず。

以下、IGVの操作

  • メニューより > Genomes > Load Genome from File...
  • ファイル選択ウィンドウから、
    • GCF_009858895.2_ASM985889v3_genomic.fna を選択

これでゲノム読み込み完了。次にアノテーションファイル(GFF)を読み込む。

  • メニューより > File > Load from File...
  • ファイル選択ウィンドウから、
    • GCF_009858895.2_ASM985889v3_genomic.gff  を選択

〜〜〜

IGV v2.10.3以前のバージョンは操作方法が大きく異なる。前回のトレーニングコースの記録を参照いただきたい。

https://github.com/nibb-gitc/gitc2022mar-rnaseq/wiki/ex202

〜〜〜

Gene track にアノテーションが表示される。複数のトラックが重なって見にくいので、

  • Geneトラックのどこかで右クリック> Expanded

スパイクタンパク質をクローズアップしてみよう。このタンパク質はSという名前の遺伝子にコードされている。IGV上部の検索ウィンドウにSと入力。リターンを押すと、自動的にS遺伝子周辺に移動、クローズアップ。

ex202-2: 他の株のアライメントを可視化する

この課題では、日本人から検出された新型コロナウイルスのゲノムシーケンスをリファレンスとアライメントした結果を表示し、変異箇所を確認することを目標とする。

SARSCoV2_JP9.fasta は東京都健康安全研究センターによって分析された、日本人の新型コロナウイルスのゲノム配列9つ分のシーケンスデータである。これらをリファレンスゲノム(NC_045512.2_SRAS-CoV-2_Wuhan-Hu-1)とアライメントした結果が、SAMフォーマットで保存されている。ファイル名は以下の通り。

  • SARSCoV2_JP9.vs.Wuhan.sam

lessコマンドなどで中身を確認しよう。

このデータをIGVで表示したい。そのためには、SAMフォーマットをBAMに変換し、ソートし、さらにインデックスを作成する必要がある。samtoolsを使ってこの作業を行うこと。

$ samtools view -b SARSCoV2_JP9.vs.Wuhan.sam > SARSCoV2_JP9.vs.Wuhan.bam
$ samtools sort SARSCoV2_JP9.vs.Wuhan.bam >SARSCoV2_JP9.vs.Wuhan.sorted.bam
$ samtools index SARSCoV2_JP9.vs.Wuhan.sorted.bam

その結果、

  • SARSCoV2_JP9.vs.Wuhan.sorted.bam, SARSCoV2_JP9.vs.Wuhan.sorted.bam.bai が得られるはずである。

ここからIGVでの作業。

ex202-1(Reference genomeの構築)が完了し、リファレンスゲノムが読み込まれている状態であることを確認する。

  • メニューより > File > Load from File...
  • ファイル選択画面にて、
    • SARSCoV2_JP9.vs.Wuhan.sorted.bam を指定する。

以下のようにアライメントのトラックが追加されるはず。

注目ポイント

  • S遺伝子に変異が多そうである。
  • 9つの系統の内訳は、B.1.617.2(Deltaæ ª)、B.1.1.7(Alpha株)、B.1.1.214(日本特有の株)がそれぞれ3つずつである。変異パターンから3つにグルーピングできるだろうか?

ex202-3: mRNAワクチンのターゲット領域を示すBEDファイルをIGV上に表示する。

現在日本で広く接種されているワクチンは、ファイザーとモデルナ製のmRNAワクチンである。両社とも公式にはワクチンに含まれるmRNAの配列を公開していないが、第三者の研究者がワクチン残留物よりシーケンスを読み公開している(以下参考資料参照)。これらの配列をもとに、どの遺伝子のどの部分をターゲットにしているかがわかるはずである。筆者の方で、blast検索を行った結果をBEDフォーマットに変換したファイルを作成した。

  • mRNA_vaccine.map.tblastx.tophit.bed

lessなどでBEDファイルの中身を確認しよう。

BEDファイルをIGVに読み込んで可視化しよう。

  • メニューより > File > Load from File...
  • ファイル選択画面にて、
    • mRNA_vaccine.map.tblastx.tophit.bed を指定する。

S遺伝子(スパイクタンパク質)のほぼ全長をターゲットしていること。ファイザーとモデルナは全く同じ部位をターゲットにしていることがわかる。

ただし、このBEDファイルのデータからだけではわからないが、mRNAの配列は10%程度異なる。

ex202-4: オミクロン株のマッピング結果を可視化する。(2022 Mar updated)

オミクロン株のマッピング結果を可視化してみよう。

data (in ~/gitc/data/COVID/)

  • BA.1.1.vs.Wuhan.sam
  • BA.2.vs.Wuhan.sam

これらは、日本で検出されたオミクロン株(BA.1.1; B.1.1.529の別名)と、俗にステルスオミクロンと呼ばれるBA.2株のゲノム配列をNCBIから取得し(アクセッション番号はsamファイル参照)、minimap2を使って、リファレンスWuhan株にマップして得られたSAMファイルである。これらを上記ex202-2と同様に、sort/bam変換/indexing処理し、IGVで読み込んでみよう。

オミクロン株がex202-2で解析したdelta, alpha株に比べて変異が多いことが一目瞭然であろう。

https://github.com/nibb-gitc/gitc2022sep-rnaseq/blob/main/wiki/images/IGV_220828a.png

参考資料

Revision history

2023-2-28

  • 動作確認 (NCBIからのファイルダウンロード、IGV: ver 2.14.0)

2022-8-28

  • minor updates. (IGV: ver 2.14.0)

2022-3-2

  • オミクロン株の課題追加。ex202-4

2021-9-15

  • IGV ver 2.11.0の前後でCreate genomeの挙動が異なる点に対応。

2021-9-12

  • Initial release.