answer ex4, ex5 - nibb-unix/gitc202502-unix GitHub Wiki
復習問題4 NGS 基本データフォーマット
-
-
NCBI(
https://www.ncbi.nlm.nih.gov
)にアクセスし、SRR073576
で検索をかけ、情報を得ることができる。シングルリードであることが分かる。 -
カレントディレクトリにsra 形式のファイルをダウンロードしたい場合
prefetch SRR073576 --output-directory .
-
今回はシングルリードなので、
--split-files
オプションはなくても良いfastq-dump SRR073576.sra
- 補⾜:
fastq-dump
コマンドはアクセッション番号を指定して直接fastq データを取ることも可能である。
fastq-dump SRR073576
- 補⾜:
-
-
- 第21 染⾊体
- 41 (
wc ex4.bed
) - 4
- 33031813, 33025906
-
bed <- read.table("ex4.bed", header=F, sep="\t")
,head(bed)
table(bed[,10])
-
- 10
- 3
復習問題5 クオリティコントロールとNGS 基本ツール
-
- Pairs written(passing filters) : 60,867(60.9%), Quality-trimmed 824,581(5.4%)
less
コマンドでファイルを⾒る- trim 前 400,000 なので read としては4で割って:100k read、trim 後 243,468 なので read 数は 60,867 となり、log の値と⼀致している。
- Per base sequence quality のタブを⾒る
-
seqkit stats ecoli.[23].fastq
-
bowtie2 -x eco -U ecoli.2.fastq,ecoli.3.fastq -S eco_ex.sam
- ファイルのカンマ区切りの後にスペースを⼊れないこと
-
samtools view -bS eco_ex.sam -o eco_ex.bam
-
samtools sort eco_ex.bam -o eco_ex_sorted.bam
- 4, 5 は現⾏samtools なら一括で可能
samtools sort eco_ex.sam –o eco_ex_sorted.bam
- 4, 5 は現⾏samtools なら一括で可能
-
samtools index eco_ex_sorted.bam
-
samtools view eco_ex_sorted.bam chr:337-2799 | wc
277 リードsamtools view eco_ex_sorted.bam chr:4179268-4183296 | wc
1,015 リード