ex702 - nibb-gitc/gitc2021mar-rnaseq GitHub Wiki
BUSCOを使った遺伝子セットのカバー率評価を練習する。
ヘイケボタルのゲノムプロジェクトによりゲノムを決定し (Fallon et al., 2018)、遺伝子予測を行った。その結果14284のprotein coding genes が予測された。Alat_OGS1.0.pep.fasta が予測されたprotein coding genes のアミノ酸配列である。この遺伝子セットの網羅性をBUSCOで評価する。
Fallon, T. R. et al. Firefly genomes illuminate parallel origins of bioluminescence in beetles. Elife 7, e36495 (2018).
本練習問題は、bias5のLinux環境で解析する。
本解析に必要なソフトウェアは以下の通り。bias5にインストール済みである。
- BUSCO
- ~/gitc/data/SS/Alat_OGS1.0.pep.fasta
bias5サーバへ ssh ログインする。
(example)
$ ssh [email protected]
(course01の部分は各自配布されたアカウントに置き換える)。
ex702 ディレクトリを新しく作成しその下で解析を行おう。
$mkdir ex702
$cd ex702
今回のトレーニングコースのbias5では、buscoは、minicondaという仕組みを使って実行する。そのために以下のようなおまじないが必要。
$ conda activate
busco コマンドが正常に動くか確認。
$ busco -h
ヘルプ画面が表示されればOK。
評価対象の遺伝子セットファイル「Alat_OGS1.0.pep.fasta」を作業ディレクトリにコピーする
$ cp ~/gitc/data/SS/Alat_OGS1.0.pep.fasta ./
BUSCOの重要なパラメーターは以下の2つ。
- mode: genome, transcriptome, proteins の中から選ぶ。今回は解析対象が翻訳済みのタンパク質配列なので、proteinsを選択する。
- lineage: 網羅性を調べるのにリファレンスにする遺伝子データセット。今回は真核生物に広く保存されるコア遺伝子(255遺伝子)を使う。eukaryota_odb10を選択する。なお、使用可能なデータベースは
busco --list-datasets
で調べられる。
busco -i Alat_OGS1.0.pep.fasta -m proteins -o busco_out -l eukaryota_odb10
Result => -o の引数に与えた busco_out 以下に結果が出力される。
アセンブル結果、"busco_out/short_summary.specific.eukaryota_odb10.busco_out.txt" を検証しよう。
# BUSCO version is: 5.0.0
# The lineage dataset is: eukaryota_odb10 (Creation date: 2020-09-10, number of species: 70, number of BUSCOs: 255)
# Summarized benchmarking in BUSCO notation for file /mnt/efs/shared/projects/210306-GITC_prep/Alat_OGS1.0.pep.fasta
# BUSCO was run in mode: proteins
***** Results: *****
C:91.4%[S:91.0%,D:0.4%],F:3.1%,M:5.5%,n:255
233 Complete BUSCOs (C)
232 Complete and single-copy BUSCOs (S)
1 Complete and duplicated BUSCOs (D)
8 Fragmented BUSCOs (F)
14 Missing BUSCOs (M)
255 Total BUSCO groups searched
BUSCOの結果を解釈しよう。Complete BUSCOが91.4% fragmented も合わせると、91.4 + 3.1 = 94.5% の遺伝子は予測できているので、この予測遺伝子セットの網羅性は上々と言える。また、Completeの中のSingleとDuplicatedの内訳を見ると、ほとんど全てがsingleであるので、ゲノムアセンブリや遺伝子予測に冗長性の問題はほとんどないと言える。総合してこの遺伝子予測は良好であったと判断できる。
ex702-1 と同じヘイケボタルの予測タンパク質配列データを使う。ホタルは昆虫である。昆虫のBUSCOを使ってより解像度の高い解析をしてみよう。
busco --list-datasets で調べると
...
- metazoa_odb10
- arthropoda_odb10
- arachnida_odb10
- insecta_odb10
- endopterygota_odb10
- diptera_odb10
- hymenoptera_odb10
- lepidoptera_odb10
- hemiptera_odb10
...
insecta_odb10 が使えそうだ。
busco -i Alat_OGS1.0.pep.fasta -m proteins -o busco_out2 -l [ここを変える]
ex702-1,2 ではタンパク質配列データをQueryにproteinsモードで解析した。次に、Queryを予測遺伝子のcDNA塩基配列に変更して、transcriptome mode で解析してみよう。
data
- ~/gitc/data/SS/Alat_OGS1.0.cds.fasta
busco -i Alat_OGS1.0.pep.fasta -m [ここを変える] -o busco_out3 -l [ここを変える]