ex702 - nibb-gitc/gitc2024jul-rnaseq GitHub Wiki

ex702: BUSCO tutorial

BUSCOを使った遺伝子セットのカバー率評価を練習する。

ex702-1

ヘイケボタルのゲノムプロジェクトによりゲノムを決定し (Fallon et al., 2018)、遺伝子予測を行った。その結果14284のprotein coding genes が予測された。Alat_OGS1.0.pep.fasta が予測されたprotein coding genes のアミノ酸配列である。この遺伝子セットの網羅性をBUSCOで評価する。

Fallon, T. R. et al. Firefly genomes illuminate parallel origins of bioluminescence in beetles. Elife 7, e36495 (2018).

Set up

本練習問題は、biasサーバのLinux環境で解析する。

Software

本解析に必要なソフトウェアは以下の通り。bias5にインストール済みである。

  • BUSCO

Data

  • ~/gitc/data/SS/Alat_OGS1.0.pep.fasta

準備

biasサーバへ ssh ログインする。

ex702 ディレクトリを新しく作成しその下で解析を行おう。

$mkdir ex702
$cd ex702

busco コマンドが正常に動くか確認。

$ busco -h

ヘルプ画面が表示されればOK。

バージョンの確認

$ busco --version
BUSCO 5.4.3

Input sequence file の準備

評価対象の遺伝子セットファイル「Alat_OGS1.0.pep.fasta」を作業ディレクトリにコピーする

$ cp ~/gitc/data/SS/Alat_OGS1.0.pep.fasta ./

Run BUSCO

BUSCOの重要なパラメーターは以下の2つ。

  • mode: genome, transcriptome, proteins の中から選ぶ。今回は解析対象が翻訳済みのタンパク質配列なので、proteinsを選択する。
  • lineage: 網羅性を調べるのにリファレンスにする遺伝子データセット。今回は真核生物に広く保存されるコア遺伝子(255遺伝子)を使う。eukaryota_odb10を選択する。なお、使用可能なデータベースは busco --list-datasetsで調べられる。
busco -i Alat_OGS1.0.pep.fasta -m proteins -o busco_out -l eukaryota_odb10

Result => -o の引数に与えた busco_out 以下に結果が出力される。

Inspect results

解析結果、"busco_out/short_summary.specific.eukaryota_odb10.busco_out.txt" を検証しよう。

$ cat busco_out/short_summary.specific.eukaryota_odb10.busco_out.txt
...
	***** Results: *****

	C:91.4%[S:91.0%,D:0.4%],F:3.1%,M:5.5%,n:255
	233	Complete BUSCOs (C)
	232	Complete and single-copy BUSCOs (S)
	1	Complete and duplicated BUSCOs (D)
	8	Fragmented BUSCOs (F)
	14	Missing BUSCOs (M)
	255	Total BUSCO groups searched
...

BUSCOの結果を解釈しよう。Complete BUSCOが91.4% fragmented も合わせると、91.4 + 3.1 = 94.5% の遺伝子は予測できているので、この予測遺伝子セットの網羅性は上々と言える。また、Completeの中のSingleとDuplicatedの内訳を見ると、ほとんど全てがsingleであるので、ゲノムアセンブリや遺伝子予測に冗長性の問題はほとんどないと言える。総合してこの遺伝子予測は良好であったと判断できる。

ex702-2 発展問題

ex702-1 と同じヘイケボタルの予測タンパク質配列データを使う。ホタルは昆虫である。昆虫のBUSCOを使ってより解像度の高い解析をしてみよう。

busco --list-datasets で調べると

...
     - metazoa_odb10
         - arthropoda_odb10
             - arachnida_odb10
             - insecta_odb10
                 - endopterygota_odb10
                     - diptera_odb10
                     - hymenoptera_odb10
                     - lepidoptera_odb10
                 - hemiptera_odb10
...

insecta_odb10 が使えそうだ。

busco -i Alat_OGS1.0.pep.fasta -m proteins -o busco_out2 -l [ここを変える]

ex702-3 発展問題

ex702-1,2 ではタンパク質配列データをQueryにproteinsモードで解析した。次に、Queryを予測遺伝子のcDNA塩基配列に変更して、transcriptome mode で解析してみよう。

data

  • ~/gitc/data/SS/Alat_OGS1.0.cds.fasta
busco -i Alat_OGS1.0.pep.fasta -m [ここを変える] -o busco_out3 -l [ここを変える]

Revision History

2023-2-25

  • bias5上、busco v5.4.3で動作確認。

2022-8-28

  • ver 5.4.3 で動作確認

2021-9-11

  • ver 5.2.2 に対応。Minor modifications.

2021-3-XX