ex702 - nibb-gitc/gitc2025mar-rnaseq GitHub Wiki
ex702: BUSCO tutorial
- 受講生: 本練習問題は、RCCSのLinux環境で解析する。
- 聴講生: 解析用ソフトウェアを自身のPCにインストールする方法 を参考に、自身の端末にBUSCOを導入するか自己判断で利用すること。
BUSCOを使った遺伝子セットのカバー率評価を練習する。
ex702-1
ヘイケボタルのゲノムプロジェクトによりゲノムを決定し (Fallon et al., 2018)、遺伝子予測を行った。その結果14284のprotein coding genes が予測された。Alat_OGS1.0.pep.fasta が予測されたprotein coding genes のアミノ酸配列である。この遺伝子セットの網羅性をBUSCOで評価する。
Fallon, T. R. et al. Firefly genomes illuminate parallel origins of bioluminescence in beetles. Elife 7, e36495 (2018).
Set up
Software
本解析に必要なソフトウェアは以下の通り。RCCSにインストール済みである。
注)RCCSの環境でBUSCOを実行するには、apptainerのコンテナ(/apl/bio/container/BUSCO/busco580.sif)を使う。そのためには、buscoを実行するコマンドの前に、
apptainer exec -B ${HOME} /apl/bio/container/BUSCO/busco580.sif
をつけて実行する必要がある。例は、以下の busco -h の実行例を参照。
- BUSCO
Data
- ~/gitc/data/SS/Alat_OGS1.0.pep.fasta
準備
RCCSサーバへ ssh ログインする。
ex702 ディレクトリを新しく作成しその下で解析を行おう。
$mkdir ex702
$cd ex702
busco コマンドが正常に動くか確認。
$ busco -h
ヘルプ画面が表示されればOK。
注)RCCS環境ではapptainerコンテナを利用するために、以下のように実行する。以降すべてのbuscoコマンド実行において同様。
apptainer exec -B ${HOME} /apl/bio/container/BUSCO/busco580.sif busco -h
毎回、apptainer ... を入力が面倒な場合は、alias機能を使うと便利。
alias busco='apptainer exec -B ${HOME} /apl/bio/container/BUSCO/busco580.sif busco'
バージョンの確認
$ busco --version
BUSCO 5.4.3
Input sequence file の準備
評価対象の遺伝子セットファイル「Alat_OGS1.0.pep.fasta」を作業ディレクトリにコピーする
$ cp ~/gitc/data/SS/Alat_OGS1.0.pep.fasta ./
Run BUSCO
BUSCOの重要なパラメーターは以下の2つ。
- mode: genome, transcriptome, proteins の中から選ぶ。今回は解析対象が翻訳済みのタンパク質配列なので、proteinsを選択する。
- lineage: 網羅性を調べるのにリファレンスにする遺伝子データセット。今回は真核生物に広く保存されるコア遺伝子(255遺伝子)を使う。eukaryota_odb10を選択する。なお、使用可能なデータベースは
busco --list-datasets
で調べられる。
busco -i Alat_OGS1.0.pep.fasta -m proteins -o busco_out -l eukaryota_odb10
Result => -o の引数に与えた busco_out 以下に結果が出力される。
Inspect results
解析結果、"busco_out/short_summary.specific.eukaryota_odb10.busco_out.txt" を検証しよう。
$ cat busco_out/short_summary.specific.eukaryota_odb10.busco_out.txt
...
***** Results: *****
C:91.4%[S:91.0%,D:0.4%],F:3.1%,M:5.5%,n:255
233 Complete BUSCOs (C)
232 Complete and single-copy BUSCOs (S)
1 Complete and duplicated BUSCOs (D)
8 Fragmented BUSCOs (F)
14 Missing BUSCOs (M)
255 Total BUSCO groups searched
...
BUSCOの結果を解釈しよう。Complete BUSCOが91.4% fragmented も合わせると、91.4 + 3.1 = 94.5% の遺伝子は予測できているので、この予測遺伝子セットの網羅性は上々と言える。また、Completeの中のSingleとDuplicatedの内訳を見ると、ほとんど全てがsingleであるので、ゲノムアセンブリや遺伝子予測に冗長性の問題はほとんどないと言える。総合してこの遺伝子予測は良好であったと判断できる。
ex702-2 発展問題
ex702-1 と同じヘイケボタルの予測タンパク質配列データを使う。ホタルは昆虫である。昆虫のBUSCOを使ってより解像度の高い解析をしてみよう。
busco --list-datasets で調べると
...
- metazoa_odb10
- arthropoda_odb10
- arachnida_odb10
- insecta_odb10
- endopterygota_odb10
- diptera_odb10
- hymenoptera_odb10
- lepidoptera_odb10
- hemiptera_odb10
...
insecta_odb10 が使えそうだ。
busco -i Alat_OGS1.0.pep.fasta -m proteins -o busco_out2 -l [ここを変える]
ex702-3 発展問題
ex702-1,2 ではタンパク質配列データをQueryにproteinsモードで解析した。次に、Queryを予測遺伝子のcDNA塩基配列に変更して、transcriptome mode で解析してみよう。
data
- ~/gitc/data/SS/Alat_OGS1.0.cds.fasta
busco -i Alat_OGS1.0.pep.fasta -m [ここを変える] -o busco_out3 -l [ここを変える]
Revision History
2025-3-6
- RCCS環境(apptainerによるbusco実行)の説明追加。
2023-2-25
- bias5上、busco v5.4.3で動作確認。
2022-8-28
- ver 5.4.3 で動作確認
2021-9-11
- ver 5.2.2 に対応。Minor modifications.