ex5 - nibb-unix/gitc202402-unix GitHub Wiki

復習問題5 クオリティコントロールとNGS 基本ツール

~/gitc/data/5_ngs に移動せよ

2D2L_rep1_R1.fastq2D2L_rep1_R2.fastq ファイルはアラビドプシスの発芽・緑化後の芽⽣えをサンプリング、ライブラリー作製した paired-end read (76base x2) の RNA-Seq の⽣リードの fastq ファイルである。cutadapt のパラメータは以下を参考にせよ。

-q 30
-O 7
-m 50
-a AGATCGGAAGAGCACACGTCTGAACTCCAGTCA
-A AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGT
    1. 上記のパラメータを用い、2D2L_rep1_R1.fastq2D2L_rep1_R2.fastq を paired-endでの cutadapt にかけよ。
    2. cutadapt のlog を⾒て、pass したpair 数、quality trim されたbase 数を調べよ。
    3. cutadapt 処理前後の fastq ファイルを less コマンド等で⾒⽐べよ
    4. wc コマンドで cutadapt 前後のread 数を調べよ。
    5. cutadapt 処理前後の fastq ファイルを fastqc にかけ、cutadapt 処理による、低品質配列が除かれていることを確認せよ。
  1. seqkit を使ってリードファイル ecoli.2.fastq ecoli.3.fastq の statistic 情報を確認せよ。

  2. bowtie2 を使って、リードファイル ecoli.2.fastq ecoli.3.fastq を、リファレンス eco にマッピングし、結果をファイル eco_ex.sam に出⼒せよ。その際、リードファイルはカンマ区切りで複数指定できることを使え。

  3. samtools を使って、eco_ex.sam を bam フォーマットに変換し、eco_ex.bam として保存せよ

  4. samtools を使って、eco_ex.bam をソートし、eco_ex_sorted.bam として保存せよ。現⾏ samtools は4および5 の作業は⼀度にできうるが過程確認のため、今回は個別に⾏う。

  5. samtools を使って、eco_ex_sorted.bam にインデックスを作成せよ

  6. samtools を使って、eco_ex_sorted.bam から以下の遺伝⼦にマップされたリードを取り出して数を数えよ。抽出された⾏を数えるには、wc コマンドを使うこと。

染⾊体名 開始位置-終了位置 遺伝⼦名
chr 337 - 2799 thrA
chr 4179268 - 4183296 rpoB