ex4 - nibb-unix/gitc202402-unix GitHub Wiki

復習問題4 NGS 基本データフォーマット

~/gitc/data/4_format に移動せよ

  1. SRR073576(SRA のアクセッション番号)はエンドウヒゲナガアブラムシのバクテリオームの RNA-seq 解析結果のデータである。

    1. SRR073576 を NCBI で検索し、情報を確認せよ。
      • シングルリードなのか、ペアエンドリードなのか確認しよう。
    2. SRA Toolkit の prefetch コマンドを使⽤し、SRA データをダウンロードせよ。
      • prefetch コマンドの使⽤⽅法はコマンドのヘルプ機能で調べること。
      • デフォルトではファイルの出⼒先は ~/ncbi/pubkic/sra となる。--output-directory オプションを使⽤することで、出⼒先ディレクトリを指定可能。
    3. SRA Toolkit の fastq-dump コマンドを使⽤し、sra 形式のファイルからfastq ファイルを抽出せよ。
  2. bed ファイル(ex4.bed)とgtf ファイル(ex5.gtf)は、ヒト染⾊体上にある遺伝⼦群について同じ情報を表している。それぞれのファイルの形式の違いに注意しつつ、以下の問に答えよ。

    1. 何番染⾊体にコードされているか。
    2. いくつの遺伝⼦(重複領域に別名のものもそれぞれ数える)が含まれているか。
    3. 遺伝⼦ BC041449 にエキソンはいくつ含まれているか。
    4. 遺伝⼦ BC041449 の最初のエキソンの開始位置と最後のエキソンの終了位置はそれぞれ何か。ただし、最初の塩基の位置座標は 1 とし、エキソンの開始、終了は転写される向きに沿って考えること
  3. bed ファイルはタブ区切りのファイルである。

    1. R を使って ex4.bed からデータを読み込み、変数 bed に代⼊せよ。また変数 bed の内容を確認せよ。
    2. ex4.bed にはエキソンを⼀つから最⼤六つまでもつ遺伝⼦が含まれている。変数 bed からエキソン数の情報を取り出し、それぞれのエキソン数をもつ遺伝⼦がいくつずつあるかカウントせよ。ただし、与えられたベクトルの要素の頻度をカウントする関数は table である。
  4. Sam ファイル(review_4-4.sam)は paired-end の map 結果である。

    1. ここに上がっている paired-end 数はいくつか。
    2. そのうち正しい paired-end の⽅向で map しているものはいくつか。