ex9 - nibb-gitc/gitc2018july-rnaseq GitHub Wiki

ex9: de novo RNA-seq assembly using Trinity

Trinity でRNA-seq readsをde novo assembling. 実戦演習1 case1 でも使っているシーケンスデータを使って演習する。L1_R1.fastq と D1_R1.fastq のRNA-seq reads をde novo アセンブルする。データの中身の説明については実戦演習2 case1 のwiki pageを参照の事。

TrinityはLinux上でのみ動作するので、本練習では、基生研のLinuxクラスターコンピュータシステムである、bias4にログインして練習する。

Set up

Software

本解析に必要なソフトウェアは以下の通り。すべてbias5にインストール済みである。

  • Trinity (インストール場所:/bio/package/Trinityrnaseq/2.4.0)

注)bias5にはより新しいTrinityもインストールされているが、今回は2.4.0を使ってください。

Data

実戦演習1のデータを使う。これらのデータはbias5のホームディレクトリ直下のdataディレクトリに保存してある。

  • ~/data/EX/prac1/IlluminaReads/D1_R1.fastq
  • ~/data/EX/prac1/IlluminaReads/L1_R1.fastq

準備

TrinityはLinux上でのみ動作するので、本練習では、基生研のLinuxクラスターコンピュータシステムである「bias5」にログインして練習する。

bias5サーバ上に、今回のトレーニングコース受講生用の臨時アカウントを作製してある。username および passwordは配布用紙を参照の事。

bias5サーバへ ssh ログインする。

(example)

$ ssh [email protected]

(course01の部分は各自配布されたアカウントに置き換える)。

ex9ディレクトリを新しく作成しその下で解析を行おう。

$mkdir ex9
$cd ex9

Trinityへのパスを通すために、以下のコマンドを一度だけ実行すること。(bias5ではmoduleという仕組みを使ってTrinityのバージョン管理を行っているため。)

$ module load Trinityrnaseq/2.4.0

Input readsの準備

扱いやすいよう、L1_R1.fastq と D1_R1.fastq をワーキングディレクトリにコピーもしくはシンボリックリンクしておく。

$ ln -s ../data/EX/prac1/IlluminaReads/L1_R1.fastq
$ ln -s ../data/EX/prac1/IlluminaReads/D1_R1.fastq

Run Trinity

Trinity --seqType fq --single L1_R1.fastq,D1_R1.fastq --CPU 4 --max_memory 10G > run_trinitity.log 2>&1
  • --CPU, --max_memory は実行するコンピュータの環境によって変更する。--CPUの引数の値を増やせば、計算に使うCPUが増え計算時間は短縮できる。ただし、今回の演習では、多数の受講生が同時に解析するので、決して4以上には増やさない事。ちなみにこの条件で、計算に約1時間かかる。

Result: trinity_out_dir ディレクトリ以下。"Trinity.fasta" が最終的なアセンブル結果。

上のコマンドでは、標準出力とエラー出力をまとめて run_trinitity.log に保存するように指定している。(> run_trinitity.log 2>&1 の部分)。実行中に左記ログファイルの記録を追いかけながら見る為には tail -f を使う。

$ tail -f run_trinitity.log

Inspect results

アセンブリの善し悪しを評価する為にはいくつかの指標がある。基本的なものでは、コンティグの数、総塩基数、平均長、N50など。

  1. コンティグの数がいくつあるか、UNIXのコマンドラインで調べよう。

  2. Trinityソフトウェアに含まれる TrinityStats.pl でassembly 諸statisticsを計算。

$ /bio/package/Trinityrnaseq/2.4.0/util/TrinityStats.pl Trinity.fasta

結果例

################################
## Counts of transcripts, etc.
################################
Total trinity 'genes': 	30066
Total trinity transcripts:     	33454
Percent GC: 43.07

########################################
Stats based on ALL transcript contigs:
########################################

       	Contig N10: 2321
       	Contig N20: 1767
       	Contig N30: 1467
       	Contig N40: 1232
       	Contig N50: 1026

       	Median contig length: 482
       	Average contig: 708.33
       	Total assembled bases: 23696544


#####################################################
## Stats based on ONLY LONGEST ISOFORM per 'GENE':
#####################################################

       	Contig N10: 2203
       	Contig N20: 1710
       	Contig N30: 1422
       	Contig N40: 1188
       	Contig N50: 979

       	Median contig length: 453.5
       	Average contig: 676.55
       	Total assembled bases: 20341220