homework - nibb-gitc/gitc2021mar-rnaseq GitHub Wiki

宿題

受講生は、必ず以下の宿題を行なった上で、トレーニングコースにのぞんでください。

宿題を行うにあたって、2020年11月に開催したゲノムインフォマティクス・トレーニングコース NGS解析入門 「UNIX・R・NGSの基礎」が参考になるでしょう。

RNA-seq全般に関する宿題

  1. RNA-seqの主な目的を、2つ挙げてください。

  2. RNA-seqデータ解析のパイプラインは複数のステップから構成され、それぞれ異なるツールが用いられます。皆さんが使ったことがあるRNA-seq解析ソフトウェアを3つ思い出してください。それらソフトウェアは、以下のどのステップを担当するものだったでしょうか。

  • 発現変動遺伝子の統計的解析
  • Readのマッピング
  • Readのカウント
  • Readの前処理
  • 発現量の高いカテゴリー(遺伝子グループ)の検出
  • 多変量解析
  • リファレンスゲノムやトランスクリプトームの構築
  • データの可視化
  • その他

UNIXに関する宿題

トレーニングコースでのほとんどの操作はUNIX環境のコマンドラインで行います。UNIXのコマンドライン操作に慣れ、基本的なコマンドは把握しておいて下さい。トレーニングコース準備編のUNIX入門を全て把握する事が理想ではありますが、短期間で完全にマスターする事は困難です。本コース受講に際しては、最低限以下の内容までは把握して臨んでください。

  1. UNIXの階層型ディレクトリの構造を理解する。(UNIX入門(コーステキスト) p.7-10上に該当)

  2. 次のコマンドに習熟しておく。テキストの該当ページを参照。

ファイル操作系

ls, cd, mkdir, pwd, cp

テキストデータ処理系

less, cat, head, tail, wc, grep
  1. リダイレクト、パイプの使い方を習熟しておく(UNIX入門テキスト 実習21, 22)

NGS基本フォーマット・基本ツールに関する宿題

以下の問題資料中で空欄となっているデータフォーマット名を埋めて完成させて下さい。

IGV に関する宿題

IGV (NGSデータ可視化ソフトウェア)実習は自身で用意しているパソコンを使って行います。

  • 用意したパソコンにIGVをインストールし、起動を確認してください。詳細は、セットアップのページを参照のこと。

Rに関する宿題

コースではRを使った解析を行います。Rの基本的な操作に慣れておいてください。

習熟度の目安としては、plotによる散布図の作製まで(R入門 コーステキスト p.1-40上に該当)は最低限マスターしておくこと。

統計学に関する宿題

  1. ある値1つをスカラーと呼ぶ。では、ベクトルとは何か?
  2. 2つのベクトル間のユークリッド距離とは何か調べなさい。
  3. 主成分分析の「主成分」とは何か調べなさい。
  4. Rコンソールで library(edgeR) を実行し、
 要求されたパッケージ limma をロード中です

 次のパッケージを付け加えます: ‘limma’

 以下のオブジェクトは ‘package:BiocGenerics’ からマスクされています:

     plotMA 

もしくは、類する出力が得られることを確認しなさい。

Gene Ontology に関する宿題

Gene Ontology (GO) において扱われる、遺伝子の機能に関わる3つの側面とは何か、調べなさい。"Signal transduction" は、その3つのうちどれになるかを考えなさい。