ex202 - nibb-gitc/gitc2021sep-rnaseq GitHub Wiki

ex202: IGVによる可視化(SARS-CoV-2)

新型コロナウイルス SARS-CoV-2 を題材に、IGVでのゲノムデータの可視化手法を学ぶ。

  • ex202-1: SARS-CoV-2ゲノムのリファレンスを構築する。GFFのアノテーション情報を探索する。
  • ex202-2: 日本人から検出されたSARS-CoV-2のゲノムシーケンスをリファレンスとアライメントした結果を表示し、変異箇所を確認する。
  • ex202-3: mRNAワクチンのターゲット領域を示すBEDファイルをIGV上に表示する。

ex202-0: Preparation

ローカル環境にIGVをインストール。起動する。(以下は、ver. 2.10.3で動作確認した; ver. 2.11以降は挙動が異なる点がある。本文中に注記あり。)

ex202-1: Reference genomeの構築

公的データベースには膨大な数の新型コロナウイルスのゲノムが登録されているが、NCBI RefSeqにリファレンスとして登録されているのは、Wuhan-Hu-1株のゲノムである。Wuhan-Hu-1株の、ゲノムシーケンスデータ(FASTA)と遺伝子アノテーション(GFF)をNCBIからダウンロードして、IGV用のゲノムリファレンスを構築する。

SARS-CoV-2 (Wuhan-Hu-1) strain genome data の基本情報

  • accession#: NC_045512.2
  • description: Severe acute respiratory syndrome coronavirus 2 isolate Wuhan-Hu-1, complete genome

Links

ファイルの準備。~/gitc/data/COVID/ 以下にある。

以下IGVの操作(v2.10.3以前のバージョン)

  • メニューより > Genomes > Create .genomes...
  • 入力画面にて
    • Unique identifier: 任意 (例)SARS-CoV-2
    • Descriptive name: 任意 (例)SARS-CoV-2
    • FASTA file: Browseボタンでファイル選択画面に移動し、「NC_045512.2_SRAS-CoV-2_Wuhan-Hu-1.genome.fasta」を指定する。
    • Gene file:Browseボタンでファイル選択画面に移動し、「NC_045512.2_SRAS-CoV-2_Wuhan-Hu-1.genome.gff」を指定する。
  • OK ボタンを押す。.genomeファイルの保存先を尋ねられる。任意の場所とファイル名を指定し保存。

Gene track にアノテーションが表示される。複数のトラックが重なって見にくいので、

  • Geneトラックのどこかで右クリック> Expand

スパイクタンパク質をクローズアップしてみよう。このタンパク質はSという名前の遺伝子にコードされている。IGV上部の検索ウィンドウにSと入力。リターンを押すと、自動的にS遺伝子周辺に移動、クローズアップ。

〜〜〜

IGVの操作(v2.11.0以降のバージョン)

v2.11.0以降のバージョンでは、Create genome... がメニューからなくなった。(新しいゲノムデータベースの管理手法が導入されたため。)FASTAから配列のみのゲノムデータベースを構築し、GFFは別トラックとしてロードすることにする。

  • メニューより > Genomes > Load Genome from File...
  • ファイル選択ウィンドウから、
    • NC_045512.2_SRAS-CoV-2_Wuhan-Hu-1.genome.fasta を選択

これでゲノム読み込み完了。次にアノテーションファイル(GFF)を読み込む。

  • メニューより > File > Load from File...
  • ファイル選択ウィンドウから、
    • NC_045512.2_SRAS-CoV-2_Wuhan-Hu-1.genome.gff  を選択

〜〜〜

ex202-2: 他の株のアライメントを可視化する

この課題では、日本人から検出された新型コロナウイルスのゲノムシーケンスをリファレンスとアライメントした結果を表示し、変異箇所を確認することを目標とする。

SARSCoV2_JP9.fasta は東京都健康安全研究センターによって分析された、日本人の新型コロナウイルスのゲノム配列9つ分のシーケンスデータである。これらをリファレンスゲノム(NC_045512.2_SRAS-CoV-2_Wuhan-Hu-1)とアライメントした結果が、SAMフォーマットで保存されている。ファイル名は以下の通り。

  • SARSCoV2_JP9.vs.Wuhan.sam

lessコマンドなどで中身を確認しよう。

このデータをIGVで表示したい。そのためには、SAMフォーマットをBAMに変換し、ソートし、さらにインデックスを作成する必要がある。samtoolsを使ってこの作業を行うこと。

$ samtools view -b SARSCoV2_JP9.vs.Wuhan.sam > SARSCoV2_JP9.vs.Wuhan.bam
$ samtools sort SARSCoV2_JP9.vs.Wuhan.bam >SARSCoV2_JP9.vs.Wuhan.sorted.bam
$ samtools index SARSCoV2_JP9.vs.Wuhan.sorted.bam

その結果、

  • SARSCoV2_JP9.vs.Wuhan.sorted.bam, SARSCoV2_JP9.vs.Wuhan.sorted.bam.bai が得られるはずである。

ここからIGVでの作業。

ex202-1(Reference genomeの構築)が完了し、リファレンスゲノムが読み込まれている状態であることを確認する。

  • メニューより > File > Load from File...
  • ファイル選択画面にて、
    • SARSCoV2_JP9.vs.Wuhan.sorted.bam を指定する。

以下のようにアライメントのトラックが追加されるはず。

注目ポイント

  • S遺伝子に変異が多そうである。
  • 9つの系統の内訳は、B.1.617.2(Delta株)、B.1.1.7(Alpha株)、B.1.1.214(日本特有の株)がそれぞれ3つずつである。変異パターンから3つにクラスタリングできるだろうか?

ex202-3: mRNAワクチンのターゲット領域を示すBEDファイルをIGV上に表示する。

現在日本で広く接種されているワクチンは、ファイザーとモデルナ製のmRNAワクチンである。両社とも公式にはワクチンに含まれるmRNAの配列を公開していないが、第三者の研究者がワクチン残留物よりシーケンスを読み公開している(以下参考資料参照)。これらの配列をもとに、どの遺伝子のどの部分をターゲットにしているかがわかるはずである。筆者の方で、blast検索を行った結果をBEDフォーマットに変換したファイルを作成した。

  • mRNA_vaccine.map.tblastx.tophit.bed

lessなどでBEDファイルの中身を確認しよう。

BEDファイルをIGVに読み込んで可視化しよう。

  • メニューより > File > Load from File...
  • ファイル選択画面にて、
    • mRNA_vaccine.map.tblastx.tophit.bed を指定する。

S遺伝子(スパイクタンパク質)のほぼ全長をターゲットしていること。ファイザーとモデルナは全く同じ部位をターゲットにしていることがわかる。

ただし、このBEDファイルのデータからだけではわからないが、mRNAの配列は10%程度異なる。

参考資料

Revision history

2021-9-15

  • IGV ver 2.11.0の前後でCreate genomeの挙動が異なる点に対応。

2021-9-12

  • Initial release.