ex703 - nibb-gitc/gitc2025mar-rnaseq GitHub Wiki

ex703: BUSCO

BUSCOでTrinityのアセンブルの出来を評価する。

クロオオアリ Camponotus japonicus のRNA-seqデータから、Trinityを使ってde novo genome アセンブルを行った (Hojo et al., 2015)。以下 Resultsより当該箇所の引用。

A comprehensive catalogue of genes expressed in C. japonicus antennae was built using RNA-seq. We constructed antenna-specific and whole-body RNAseq libraries using mRNA isolated from three ant castes, males, alate queens, and workers. Sequencing using Illumina HiSeq2000 platform yielded 358.9 million 101-bp paired-end sequence reads. Cleaned reads from these libraries were assembled together using Trinity, an RNA-seq de-novo assembler, resulting in 156,446 contigs that grouped into 68,319 isoform clusters (i.e., unigenes).

この演習では、Trinityによるde novo assembly結果からさらに冗長性を取り除いたunigene配列(68,319 contigs)を対象に遺伝子セットの網羅性をBUSCOで評価する。

Hojo, M. K. et al. Antennal RNA-sequencing analysis reveals evolutionary aspects of chemosensory proteins in the carpenter ant, Camponotus japonicus. Scientific reports 5, 13541 (2015).

Set up

本練習問題は、RCCSのLinux環境で解析する。

Software

本解析に必要なソフトウェアは以下の通り。RCCSにインストール済みである。

RCCS環境で busco コマンドを実行するには、apptainerコンテナを使う。使い方は ex702 を参照してください。

  • BUSCO

Data

  • ~/gitc/data/SS/Trinity_CamJa.nr.fa

準備

RCCSサーバへ ssh ログインする。

ex703 ディレクトリを新しく作成しその下で解析を行おう。

$mkdir ex703
$cd ex703

Input sequence file の準備

評価対象の遺伝子セットファイル「Trinity_CamJa.nr.fa」を作業ディレクトリにコピーする

$ cp ~/gitc/data/SS/Trinity_CamJa.nr.fa ./

Run BUSCO

今回のBUSCOの実行条件

  • query: Trinity_CamJa.nr.fa
  • mode: transcriptome
  • lineage: metazoa
busco -i Trinity_CamJa.nr.fa -m transcriptome -o busco_out -l metazoa_odb10

注)少々時間かかります。CPU コアに余裕がある場合は、--cpu オプションで複数CPUコアを使うように指定してもよい。

Inspect results

解析結果、"busco_out/short_summary." で始まるファイル を確認。

# BUSCO version is: 5.4.3
# The lineage dataset is: metazoa_odb10 (Creation date: 2021-02-17, number of genomes: 65, number of BUSCOs: 954)
# Summarized benchmarking in BUSCO notation for file /mnt/gpfsA/home/courset1/prep_shigenobu/ex703/Trinity_CamJa.nr.fa
# BUSCO was run in mode: euk_tran

        ***** Results: *****

        C:92.4%[S:90.5%,D:1.9%],F:1.2%,M:6.4%,n:954
        881     Complete BUSCOs (C)
        863     Complete and single-copy BUSCOs (S)
        18      Complete and duplicated BUSCOs (D)
        11      Fragmented BUSCOs (F)
        62      Missing BUSCOs (M)
        954     Total BUSCO groups searched

ex703-2

上と同じTrinity de novo assemblyの結果を異なる手法で冗長性を取り除いた、Trinity_CamJa.nr2.fa ファイルがある。上と同じ解析を行い、比較し、どちらの遺伝子セットが優れているかを議論する。

Run BUSCO

今回のBUSCOの実行条件

  • query: Trinity_CamJa.nr2.fa
  • mode: transcriptome
  • lineage: metazoa
busco -i [FILE] -m transcriptome -o busco_out2 -l metazoa_odb10

[busco_out2/short_summary.specific.metazoa_odb10.busco_out_Trinity_CamJa.nr2.fa_metazoa.txt]

# BUSCO version is: 5.4.3
# The lineage dataset is: metazoa_odb10 (Creation date: 2021-02-17, number of genomes: 65, number of BUSCOs: 954)
# Summarized benchmarking in BUSCO notation for file /mnt/gpfsA/home/courset1/prep_shigenobu/ex703/Trinity_CamJa.nr2.fa
# BUSCO was run in mode: euk_tran

        ***** Results: *****

        C:96.6%[S:93.6%,D:3.0%],F:2.4%,M:1.0%,n:954
        922     Complete BUSCOs (C)
        893     Complete and single-copy BUSCOs (S)
        29      Complete and duplicated BUSCOs (D)
        23      Fragmented BUSCOs (F)
        9       Missing BUSCOs (M)
        954     Total BUSCO groups searched

Q. Trinity_CamJa.nr.fa と Trinity_CamJa.nr2.fa はどちらが遺伝子コレクションとして優れているだろうか。BUSCOの結果に基づいて議論せよ。また、遺伝子コレクションとしての質を評価するのに、BUSCO以外にもどのような指標を参照すると良いだろうか。

Revision History

2025-3-6

  • RCCS環境(apptainerによるbusco実行)の説明追加。

2024-7-31

  • 動作確認 on bias5 (BUSCO ver. 5.4.3)
  • minor text update

2023-2-25

  • 動作確認 on bias5 (BUSCO ver. 5.4.3)
  • 本文ver.5.4.3の結果にアップデート

2022-8-29

  • 動作確認(BUSCO ver. 5.4.3)

2022-3-1

  • Minor updates on text.

2021-9-11

  • ver. 5.2.2に対応。minor modifications.

2021-3-XX