ex703 - nibb-gitc/gitc2021mar-rnaseq GitHub Wiki
ex703: BUSCO
BUSCOでTrinityのアセンブルの出来を評価する。
クロオオアリ Camponotus japonicus のRNA-seqデータから、Trinityを使ってde novo genome アセンブルを行った (Hojo et al., 2015)。以下 Resultsより当該箇所の引用。
A comprehensive catalogue of genes expressed in C. japonicus antennae was built using RNA-seq. We constructed antenna-specific and whole-body RNAseq libraries using mRNA isolated from three ant castes, males, alate queens, and workers. Sequencing using Illumina HiSeq2000 platform yielded 358.9 million 101-bp paired-end sequence reads. Cleaned reads from these libraries were assembled together using Trinity, an RNA-seq de-novo assembler, resulting in 156,446 contigs that grouped into 68,319 isoform clusters (i.e., unigenes).
この演習では、Trinityによるde novo assembly結果からさらに冗長性を取り除いたunigene配列(68,319 contigs)を対象に遺伝子セットの網羅性をBUSCOで評価する。
Hojo, M. K. et al. Antennal RNA-sequencing analysis reveals evolutionary aspects of chemosensory proteins in the carpenter ant, Camponotus japonicus. Scientific reports 5, 13541 (2015).
Set up
本練習問題は、bias5のLinux環境で解析する。
Software
本解析に必要なソフトウェアは以下の通り。bias5にインストール済みである。
- BUSCO
Data
- ~/gitc/data/SS/Trinity_CamJa.nr.fa
準備
bias5サーバへ ssh ログインする。
(example)
$ ssh [email protected]
(course01の部分は各自配布されたアカウントに置き換える)。
ex703 ディレクトリを新しく作成しその下で解析を行おう。
$mkdir ex703
$cd ex703
今回のトレーニングコースのbias5では、buscoは、minicondaという仕組みを使って実行する。そのために以下のようなおまじないが必要。
$ conda activate
Input sequence file の準備
評価対象の遺伝子セットファイル「Trinity_CamJa.nr.fa」を作業ディレクトリにコピーする
$ cp ../data/SS/Trinity_CamJa.nr.fa ./
Run BUSCO
今回のBUSCOの実行条件
- query: Trinity_CamJa.nr.fa
- mode: transcriptome
- lineage: metazoa
busco -i Trinity_CamJa.nr.fa -m transcriptome -o busco_out -l metazoa_odb10
Inspect results
アセンブル結果、"busco_out/short_summary.specific.eukaryota_odb10.busco_out.txt" を確認。
# BUSCO version is: 5.0.0
# The lineage dataset is: metazoa_odb10 (Creation date: 2021-02-17, number of species: 65, number of BUSCOs: 954)
# Summarized benchmarking in BUSCO notation for file /mnt/efs/shared/projects/210306-GITC_prep/Trinity_CamJa.nr.fa
# BUSCO was run in mode: transcriptome
***** Results: *****
C:92.4%[S:90.7%,D:1.7%],F:1.2%,M:6.4%,n:954
881 Complete BUSCOs (C)
865 Complete and single-copy BUSCOs (S)
16 Complete and duplicated BUSCOs (D)
11 Fragmented BUSCOs (F)
62 Missing BUSCOs (M)
954 Total BUSCO groups searched
ex703-2
上と同じTrinity de novo assemblyの結果を異なる手法で冗長性を取り除いた、Trinity_CamJa.nr.fa ファイルがある。上と同じ解析を行い、比較し、どちらの遺伝子セットが優れているかを議論する。
Run BUSCO
今回のBUSCOの実行条件
- query: Trinity_CamJa.nr2.fa
- mode: transcriptome
- lineage: metazoa
busco -i [FILE] -m transcriptome -o busco_out2 -l metazoa_odb10
[busco_out2/short_summary.specific.metazoa_odb10.busco_out_Trinity_CamJa.nr2.fa_metazoa.txt]
# BUSCO version is: 5.0.0
# The lineage dataset is: metazoa_odb10 (Creation date: 2021-02-17, number of species: 65, number of BUSCOs: 954)
# Summarized benchmarking in BUSCO notation for file /mnt/efs/shared/projects/210306-GITC_prep/Trinity_CamJa.nr2.fa
# BUSCO was run in mode: transcriptome
***** Results: *****
C:96.6%[S:93.6%,D:3.0%],F:2.4%,M:1.0%,n:954
922 Complete BUSCOs (C)
893 Complete and single-copy BUSCOs (S)
29 Complete and duplicated BUSCOs (D)
23 Fragmented BUSCOs (F)
9 Missing BUSCOs (M)
954 Total BUSCO groups searched