ex703 - nibb-gitc/gitc2025mar-rnaseq GitHub Wiki
ex703: BUSCO
- 受講生: 本練習問題は、RCCSのLinux環境で解析する。
- 聴講生: 解析用ソフトウェアを自身のPCにインストールする方法 を参考に、自身の端末にTrinity, BUSCOを導入するか自己判断で利用すること。
BUSCOでTrinityのアセンブルの出来を評価する。
クロオオアリ Camponotus japonicus のRNA-seqデータから、Trinityを使ってde novo genome アセンブルを行った (Hojo et al., 2015)。以下 Resultsより当該箇所の引用。
A comprehensive catalogue of genes expressed in C. japonicus antennae was built using RNA-seq. We constructed antenna-specific and whole-body RNAseq libraries using mRNA isolated from three ant castes, males, alate queens, and workers. Sequencing using Illumina HiSeq2000 platform yielded 358.9 million 101-bp paired-end sequence reads. Cleaned reads from these libraries were assembled together using Trinity, an RNA-seq de-novo assembler, resulting in 156,446 contigs that grouped into 68,319 isoform clusters (i.e., unigenes).
この演習では、Trinityによるde novo assembly結果からさらに冗長性を取り除いたunigene配列(68,319 contigs)を対象に遺伝子セットの網羅性をBUSCOで評価する。
Hojo, M. K. et al. Antennal RNA-sequencing analysis reveals evolutionary aspects of chemosensory proteins in the carpenter ant, Camponotus japonicus. Scientific reports 5, 13541 (2015).
Set up
本練習問題は、RCCSのLinux環境で解析する。
Software
本解析に必要なソフトウェアは以下の通り。RCCSにインストール済みである。
RCCS環境で busco コマンドを実行するには、apptainerコンテナを使う。使い方は ex702 を参照してください。
- BUSCO
Data
- ~/gitc/data/SS/Trinity_CamJa.nr.fa
準備
RCCSサーバへ ssh ログインする。
ex703 ディレクトリを新しく作成しその下で解析を行おう。
$mkdir ex703
$cd ex703
Input sequence file の準備
評価対象の遺伝子セットファイル「Trinity_CamJa.nr.fa」を作業ディレクトリにコピーする
$ cp ~/gitc/data/SS/Trinity_CamJa.nr.fa ./
Run BUSCO
今回のBUSCOの実行条件
- query: Trinity_CamJa.nr.fa
- mode: transcriptome
- lineage: metazoa
busco -i Trinity_CamJa.nr.fa -m transcriptome -o busco_out -l metazoa_odb10
注)少々時間かかります。CPU コアに余裕がある場合は、--cpu オプションで複数CPUコアを使うように指定してもよい。
Inspect results
解析結果、"busco_out/short_summary." で始まるファイル を確認。
# BUSCO version is: 5.4.3
# The lineage dataset is: metazoa_odb10 (Creation date: 2021-02-17, number of genomes: 65, number of BUSCOs: 954)
# Summarized benchmarking in BUSCO notation for file /mnt/gpfsA/home/courset1/prep_shigenobu/ex703/Trinity_CamJa.nr.fa
# BUSCO was run in mode: euk_tran
***** Results: *****
C:92.4%[S:90.5%,D:1.9%],F:1.2%,M:6.4%,n:954
881 Complete BUSCOs (C)
863 Complete and single-copy BUSCOs (S)
18 Complete and duplicated BUSCOs (D)
11 Fragmented BUSCOs (F)
62 Missing BUSCOs (M)
954 Total BUSCO groups searched
ex703-2
上と同じTrinity de novo assemblyの結果を異なる手法で冗長性を取り除いた、Trinity_CamJa.nr2.fa ファイルがある。上と同じ解析を行い、比較し、どちらの遺伝子セットが優れているかを議論する。
Run BUSCO
今回のBUSCOの実行条件
- query: Trinity_CamJa.nr2.fa
- mode: transcriptome
- lineage: metazoa
busco -i [FILE] -m transcriptome -o busco_out2 -l metazoa_odb10
[busco_out2/short_summary.specific.metazoa_odb10.busco_out_Trinity_CamJa.nr2.fa_metazoa.txt]
# BUSCO version is: 5.4.3
# The lineage dataset is: metazoa_odb10 (Creation date: 2021-02-17, number of genomes: 65, number of BUSCOs: 954)
# Summarized benchmarking in BUSCO notation for file /mnt/gpfsA/home/courset1/prep_shigenobu/ex703/Trinity_CamJa.nr2.fa
# BUSCO was run in mode: euk_tran
***** Results: *****
C:96.6%[S:93.6%,D:3.0%],F:2.4%,M:1.0%,n:954
922 Complete BUSCOs (C)
893 Complete and single-copy BUSCOs (S)
29 Complete and duplicated BUSCOs (D)
23 Fragmented BUSCOs (F)
9 Missing BUSCOs (M)
954 Total BUSCO groups searched
Q. Trinity_CamJa.nr.fa と Trinity_CamJa.nr2.fa はどちらが遺伝子コレクションとして優れているだろうか。BUSCOの結果に基づいて議論せよ。また、遺伝子コレクションとしての質を評価するのに、BUSCO以外にもどのような指標を参照すると良いだろうか。
Revision History
2025-3-6
- RCCS環境(apptainerによるbusco実行)の説明追加。
2024-7-31
- 動作確認 on bias5 (BUSCO ver. 5.4.3)
- minor text update
2023-2-25
- 動作確認 on bias5 (BUSCO ver. 5.4.3)
- 本文ver.5.4.3の結果にアップデート
2022-8-29
- 動作確認(BUSCO ver. 5.4.3)
2022-3-1
- Minor updates on text.
2021-9-11
- ver. 5.2.2に対応。minor modifications.