ex703 - nibb-gitc/gitc2021mar-rnaseq GitHub Wiki

ex703: BUSCO

BUSCOでTrinityのアセンブルの出来を評価する。

クロオオアリ Camponotus japonicus のRNA-seqデータから、Trinityを使ってde novo genome アセンブルを行った (Hojo et al., 2015)。以下 Resultsより当該箇所の引用。

A comprehensive catalogue of genes expressed in C. japonicus antennae was built using RNA-seq. We constructed antenna-specific and whole-body RNAseq libraries using mRNA isolated from three ant castes, males, alate queens, and workers. Sequencing using Illumina HiSeq2000 platform yielded 358.9 million 101-bp paired-end sequence reads. Cleaned reads from these libraries were assembled together using Trinity, an RNA-seq de-novo assembler, resulting in 156,446 contigs that grouped into 68,319 isoform clusters (i.e., unigenes).

この演習では、Trinityによるde novo assembly結果からさらに冗長性を取り除いたunigene配列(68,319 contigs)を対象に遺伝子セットの網羅性をBUSCOで評価する。

Hojo, M. K. et al. Antennal RNA-sequencing analysis reveals evolutionary aspects of chemosensory proteins in the carpenter ant, Camponotus japonicus. Scientific reports 5, 13541 (2015).

Set up

本練習問題は、bias5のLinux環境で解析する。

Software

本解析に必要なソフトウェアは以下の通り。bias5にインストール済みである。

  • BUSCO

Data

  • ~/gitc/data/SS/Trinity_CamJa.nr.fa

準備

bias5サーバへ ssh ログインする。

(example)

$ ssh [email protected]

(course01の部分は各自配布されたアカウントに置き換える)。

ex703 ディレクトリを新しく作成しその下で解析を行おう。

$mkdir ex703
$cd ex703

今回のトレーニングコースのbias5では、buscoは、minicondaという仕組みを使って実行する。そのために以下のようなおまじないが必要。

$ conda activate

Input sequence file の準備

評価対象の遺伝子セットファイル「Trinity_CamJa.nr.fa」を作業ディレクトリにコピーする

$ cp ../data/SS/Trinity_CamJa.nr.fa ./

Run BUSCO

今回のBUSCOの実行条件

  • query: Trinity_CamJa.nr.fa
  • mode: transcriptome
  • lineage: metazoa
busco -i Trinity_CamJa.nr.fa -m transcriptome -o busco_out -l metazoa_odb10

Inspect results

アセンブル結果、"busco_out/short_summary.specific.eukaryota_odb10.busco_out.txt" を確認。

# BUSCO version is: 5.0.0
# The lineage dataset is: metazoa_odb10 (Creation date: 2021-02-17, number of species: 65, number of BUSCOs: 954)
# Summarized benchmarking in BUSCO notation for file /mnt/efs/shared/projects/210306-GITC_prep/Trinity_CamJa.nr.fa
# BUSCO was run in mode: transcriptome

        ***** Results: *****

        C:92.4%[S:90.7%,D:1.7%],F:1.2%,M:6.4%,n:954
        881     Complete BUSCOs (C)
        865     Complete and single-copy BUSCOs (S)
        16      Complete and duplicated BUSCOs (D)
        11      Fragmented BUSCOs (F)
        62      Missing BUSCOs (M)
        954     Total BUSCO groups searched

ex703-2

上と同じTrinity de novo assemblyの結果を異なる手法で冗長性を取り除いた、Trinity_CamJa.nr.fa ファイルがある。上と同じ解析を行い、比較し、どちらの遺伝子セットが優れているかを議論する。

Run BUSCO

今回のBUSCOの実行条件

  • query: Trinity_CamJa.nr2.fa
  • mode: transcriptome
  • lineage: metazoa
busco -i [FILE] -m transcriptome -o busco_out2 -l metazoa_odb10

[busco_out2/short_summary.specific.metazoa_odb10.busco_out_Trinity_CamJa.nr2.fa_metazoa.txt]

# BUSCO version is: 5.0.0
# The lineage dataset is: metazoa_odb10 (Creation date: 2021-02-17, number of species: 65, number of BUSCOs: 954)
# Summarized benchmarking in BUSCO notation for file /mnt/efs/shared/projects/210306-GITC_prep/Trinity_CamJa.nr2.fa
# BUSCO was run in mode: transcriptome

	***** Results: *****

	C:96.6%[S:93.6%,D:3.0%],F:2.4%,M:1.0%,n:954
	922	Complete BUSCOs (C)
	893	Complete and single-copy BUSCOs (S)
	29	Complete and duplicated BUSCOs (D)
	23	Fragmented BUSCOs (F)
	9	Missing BUSCOs (M)
	954	Total BUSCO groups searched