ex4 - nibb-unix/gitc202402-unix GitHub Wiki
復習問題4 NGS 基本データフォーマット
~/gitc/data/4_format
に移動せよ
-
SRR073576
(SRA のアクセッション番号)はエンドウヒゲナガアブラムシのバクテリオームの RNA-seq 解析結果のデータである。SRR073576
を NCBI で検索し、情報を確認せよ。- シングルリードなのか、ペアエンドリードなのか確認しよう。
- SRA Toolkit の
prefetch
コマンドを使⽤し、SRA データをダウンロードせよ。prefetch
コマンドの使⽤⽅法はコマンドのヘルプ機能で調べること。- デフォルトではファイルの出⼒先は
~/ncbi/pubkic/sra
となる。--output-directory
オプションを使⽤することで、出⼒先ディレクトリを指定可能。
- SRA Toolkit の
fastq-dump
コマンドを使⽤し、sra 形式のファイルからfastq ファイルを抽出せよ。
-
bed ファイル(
ex4.bed
)とgtf ファイル(ex5.gtf
)は、ヒト染⾊体上にある遺伝⼦群について同じ情報を表している。それぞれのファイルの形式の違いに注意しつつ、以下の問に答えよ。- 何番染⾊体にコードされているか。
- いくつの遺伝⼦(重複領域に別名のものもそれぞれ数える)が含まれているか。
- 遺伝⼦
BC041449
にエキソンはいくつ含まれているか。 - 遺伝⼦
BC041449
の最初のエキソンの開始位置と最後のエキソンの終了位置はそれぞれ何か。ただし、最初の塩基の位置座標は 1 とし、エキソンの開始、終了は転写される向きに沿って考えること
-
bed ファイルはタブ区切りのファイルである。
- R を使って
ex4.bed
からデータを読み込み、変数bed
に代⼊せよ。また変数bed
の内容を確認せよ。 ex4.bed
にはエキソンを⼀つから最⼤六つまでもつ遺伝⼦が含まれている。変数bed
からエキソン数の情報を取り出し、それぞれのエキソン数をもつ遺伝⼦がいくつずつあるかカウントせよ。ただし、与えられたベクトルの要素の頻度をカウントする関数はtable
である。
- R を使って
-
Sam ファイル(
review_4-4.sam
)は paired-end の map 結果である。- ここに上がっている paired-end 数はいくつか。
- そのうち正しい paired-end の⽅向で map しているものはいくつか。