ex4 - nibb-unix/gitc202502-unix GitHub Wiki
復習問題4 NGS 基本データフォーマット
計算機を利用する受講生と自分のPCを利用する聴講生では演習環境に差が生じるため、各問題において作業ディレクトリを適宜読み替えること。
例: ~/gitc/data/4_format 等と記載している場合、利用者各自の判断で ```~/Desktop/gitc/data/4_format`` と読み替える など。
~/gitc/data/4_format に移動せよ
-
SRR073576(SRA のアクセッション番号)はエンドウヒゲナガアブラムシのバクテリオームの RNA-seq 解析結果のデータである。SRR073576を NCBI で検索し、情報を確認せよ。- シングルリードなのか、ペアエンドリードなのか確認しよう。
- SRA Toolkit の
prefetchコマンドを使⽤し、SRA データをダウンロードせよ。prefetchコマンドの使⽤⽅法はコマンドのヘルプ機能で調べること。- デフォルトではファイルの出⼒先は
~/ncbi/pubkic/sraとなる。--output-directoryオプションを使⽤することで、出⼒先ディレクトリを指定可能。
- SRA Toolkit の
fastq-dumpコマンドを使⽤し、sra 形式のファイルからfastq ファイルを抽出せよ。
-
bed ファイル(
ex4.bed)とgtf ファイル(ex5.gtf)は、ヒト染⾊体上にある遺伝⼦群について同じ情報を表している。それぞれのファイルの形式の違いに注意しつつ、以下の問に答えよ。- 何番染⾊体にコードされているか。
- いくつの遺伝⼦(重複領域に別名のものもそれぞれ数える)が含まれているか。
- 遺伝⼦
BC041449にエキソンはいくつ含まれているか。 - 遺伝⼦
BC041449の最初のエキソンの開始位置と最後のエキソンの終了位置はそれぞれ何か。ただし、最初の塩基の位置座標は 1 とし、エキソンの開始、終了は転写される向きに沿って考えること
-
bed ファイルはタブ区切りのファイルである。
- R を使って
ex4.bedからデータを読み込み、変数bedに代⼊せよ。また変数bedの内容を確認せよ。 ex4.bedにはエキソンを⼀つから最⼤六つまでもつ遺伝⼦が含まれている。変数bedからエキソン数の情報を取り出し、それぞれのエキソン数をもつ遺伝⼦がいくつずつあるかカウントせよ。ただし、与えられたベクトルの要素の頻度をカウントする関数はtableである。
- R を使って
-
Sam ファイル(
review_4-4.sam)は paired-end の map 結果である。- ここに上がっている paired-end 数はいくつか。
- そのうち正しい paired-end の⽅向で map しているものはいくつか。