ex5 - nibb-unix/gitc202402-unix GitHub Wiki
復習問題5 クオリティコントロールとNGS 基本ツール
~/gitc/data/5_ngs
に移動せよ
2D2L_rep1_R1.fastq
と 2D2L_rep1_R2.fastq
ファイルはアラビドプシスの発芽・緑化後の芽⽣えをサンプリング、ライブラリー作製した paired-end read (76base x2) の RNA-Seq の⽣リードの fastq ファイルである。cutadapt
のパラメータは以下を参考にせよ。
-q 30
-O 7
-m 50
-a AGATCGGAAGAGCACACGTCTGAACTCCAGTCA
-A AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGT
-
- 上記のパラメータを用い、
2D2L_rep1_R1.fastq
と2D2L_rep1_R2.fastq
を paired-endでのcutadapt
にかけよ。 cutadapt
のlog を⾒て、pass したpair 数、quality trim されたbase 数を調べよ。cutadapt
処理前後の fastq ファイルをless
コマンド等で⾒⽐べよwc
コマンドでcutadapt
前後のread 数を調べよ。cutadapt
処理前後の fastq ファイルをfastqc
にかけ、cutadapt
処理による、低品質配列が除かれていることを確認せよ。
- 上記のパラメータを用い、
-
seqkit
を使ってリードファイルecoli.2.fastq
ecoli.3.fastq
の statistic 情報を確認せよ。 -
bowtie2
を使って、リードファイルecoli.2.fastq
ecoli.3.fastq
を、リファレンスeco
にマッピングし、結果をファイルeco_ex.sam
に出⼒せよ。その際、リードファイルはカンマ区切りで複数指定できることを使え。 -
samtools
を使って、eco_ex.sam
を bam フォーマットに変換し、eco_ex.bam
として保存せよ -
samtools
を使って、eco_ex.bam
をソートし、eco_ex_sorted.bam
として保存せよ。現⾏samtools
は4および5 の作業は⼀度にできうるが過程確認のため、今回は個別に⾏う。 -
samtools
を使って、eco_ex_sorted.bam
にインデックスを作成せよ -
samtools
を使って、eco_ex_sorted.bam
から以下の遺伝⼦にマップされたリードを取り出して数を数えよ。抽出された⾏を数えるには、wc
コマンドを使うこと。
染⾊体名 | 開始位置-終了位置 | 遺伝⼦名 |
---|---|---|
chr | 337 - 2799 | thrA |
chr | 4179268 - 4183296 | rpoB |