ex702 - nibb-gitc/gitc2021mar-rnaseq GitHub Wiki

ex702: BUSCO tutorial

BUSCOを使った遺伝子セットのカバー率評価を練習する。

ex702-1

ヘイケボタルのゲノムプロジェクトによりゲノムを決定し (Fallon et al., 2018)、遺伝子予測を行った。その結果14284のprotein coding genes が予測された。Alat_OGS1.0.pep.fasta が予測されたprotein coding genes のアミノ酸配列である。この遺伝子セットの網羅性をBUSCOで評価する。

Fallon, T. R. et al. Firefly genomes illuminate parallel origins of bioluminescence in beetles. Elife 7, e36495 (2018).

Set up

本練習問題は、bias5のLinux環境で解析する。

Software

本解析に必要なソフトウェアは以下の通り。bias5にインストール済みである。

  • BUSCO

Data

  • ~/gitc/data/SS/Alat_OGS1.0.pep.fasta

準備

bias5サーバへ ssh ログインする。

(example)

(course01の部分は各自配布されたアカウントに置き換える)。

ex702 ディレクトリを新しく作成しその下で解析を行おう。

$mkdir ex702
$cd ex702

今回のトレーニングコースのbias5では、buscoは、minicondaという仕組みを使って実行する。そのために以下のようなおまじないが必要。

$ conda activate

busco コマンドが正常に動くか確認。

$ busco -h

ヘルプ画面が表示されればOK。

Input sequence file の準備

評価対象の遺伝子セットファイル「Alat_OGS1.0.pep.fasta」を作業ディレクトリにコピーする

$ cp ~/gitc/data/SS/Alat_OGS1.0.pep.fasta ./

Run BUSCO

BUSCOの重要なパラメーターは以下の2つ。

  • mode: genome, transcriptome, proteins の中から選ぶ。今回は解析対象が翻訳済みのタンパク質配列なので、proteinsを選択する。
  • lineage: 網羅性を調べるのにリファレンスにする遺伝子データセット。今回は真核生物に広く保存されるコア遺伝子(255遺伝子)を使う。eukaryota_odb10を選択する。なお、使用可能なデータベースは busco --list-datasetsで調べられる。
busco -i Alat_OGS1.0.pep.fasta -m proteins -o busco_out -l eukaryota_odb10

Result => -o の引数に与えた busco_out 以下に結果が出力される。

Inspect results

アセンブル結果、"busco_out/short_summary.specific.eukaryota_odb10.busco_out.txt" を検証しよう。

# BUSCO version is: 5.0.0
# The lineage dataset is: eukaryota_odb10 (Creation date: 2020-09-10, number of species: 70, number of BUSCOs: 255)
# Summarized benchmarking in BUSCO notation for file /mnt/efs/shared/projects/210306-GITC_prep/Alat_OGS1.0.pep.fasta
# BUSCO was run in mode: proteins

        ***** Results: *****

        C:91.4%[S:91.0%,D:0.4%],F:3.1%,M:5.5%,n:255
        233     Complete BUSCOs (C)
        232     Complete and single-copy BUSCOs (S)
        1       Complete and duplicated BUSCOs (D)
        8       Fragmented BUSCOs (F)
        14      Missing BUSCOs (M)
        255     Total BUSCO groups searched

BUSCOの結果を解釈しよう。Complete BUSCOが91.4% fragmented も合わせると、91.4 + 3.1 = 94.5% の遺伝子は予測できているので、この予測遺伝子セットの網羅性は上々と言える。また、Completeの中のSingleとDuplicatedの内訳を見ると、ほとんど全てがsingleであるので、ゲノムアセンブリや遺伝子予測に冗長性の問題はほとんどないと言える。総合してこの遺伝子予測は良好であったと判断できる。

ex702-2 発展問題

ex702-1 と同じヘイケボタルの予測タンパク質配列データを使う。ホタルは昆虫である。昆虫のBUSCOを使ってより解像度の高い解析をしてみよう。

busco --list-datasets で調べると

...
     - metazoa_odb10
         - arthropoda_odb10
             - arachnida_odb10
             - insecta_odb10
                 - endopterygota_odb10
                     - diptera_odb10
                     - hymenoptera_odb10
                     - lepidoptera_odb10
                 - hemiptera_odb10
...

insecta_odb10 が使えそうだ。

busco -i Alat_OGS1.0.pep.fasta -m proteins -o busco_out2 -l [ここを変える]

ex702-3 発展問題

ex702-1,2 ではタンパク質配列データをQueryにproteinsモードで解析した。次に、Queryを予測遺伝子のcDNA塩基配列に変更して、transcriptome mode で解析してみよう。

data

  • ~/gitc/data/SS/Alat_OGS1.0.cds.fasta
busco -i Alat_OGS1.0.pep.fasta -m [ここを変える] -o busco_out3 -l [ここを変える]
⚠️ **GitHub.com Fallback** ⚠️