answer ex4, ex5 - nibb-unix/gitc202502-unix GitHub Wiki

復習問題4 NGS 基本データフォーマット

    1. NCBI(https://www.ncbi.nlm.nih.gov)にアクセスし、SRR073576 で検索をかけ、情報を得ることができる。シングルリードであることが分かる。

    2. カレントディレクトリにsra 形式のファイルをダウンロードしたい場合

      prefetch SRR073576 --output-directory .
      
    3. 今回はシングルリードなので、--split-files オプションはなくても良い

      fastq-dump SRR073576.sra
      
      • 補⾜:fastq-dump コマンドはアクセッション番号を指定して直接fastq データを取ることも可能である。
      fastq-dump SRR073576
      
    1. 第21 染⾊体
    2. 41 ( wc ex4.bed )
    3. 4
    4. 33031813, 33025906
    1. bed <- read.table("ex4.bed", header=F, sep="\t"), head(bed)
    2. table(bed[,10])
    1. 10
    2. 3

復習問題5 クオリティコントロールとNGS 基本ツール

    1. Pairs written(passing filters) : 60,867(60.9%), Quality-trimmed 824,581(5.4%)
    2. less コマンドでファイルを⾒る
    3. trim 前 400,000 なので read としては4で割って:100k read、trim 後 243,468 なので read 数は 60,867 となり、log の値と⼀致している。
    4. Per base sequence quality のタブを⾒る
  1. seqkit stats ecoli.[23].fastq

  2. bowtie2 -x eco -U ecoli.2.fastq,ecoli.3.fastq -S eco_ex.sam

    • ファイルのカンマ区切りの後にスペースを⼊れないこと
  3. samtools view -bS eco_ex.sam -o eco_ex.bam

  4. samtools sort eco_ex.bam -o eco_ex_sorted.bam

    • 4, 5 は現⾏samtools なら一括で可能 samtools sort eco_ex.sam –o eco_ex_sorted.bam
  5. samtools index eco_ex_sorted.bam

    • samtools view eco_ex_sorted.bam chr:337-2799 | wc 277 リード
    • samtools view eco_ex_sorted.bam chr:4179268-4183296 | wc 1,015 リード