homework - nibb-gitc/gitc2024jul-rnaseq GitHub Wiki

宿題

受講生は、必ず以下の宿題を行なった上で、トレーニングコースにのぞんでください。

はじめに

通常、本講義は、入門編である「UNIX・R・NGSの基礎」の発展として開催されています。

本講義を受講される前提としての宿題は下記に挙げましたが、可能な限り、

2024年2月に開催された、NGS解析入門 「UNIX・R・NGSの基礎」 講義資料を参考にし、理解に努めてください。

RNA-seq全般に関する宿題

  1. RNA-seqの主な目的を、2つ挙げてください。
  • 発現変動遺伝子の統計的解析
  • Readのマッピング
  • Readのカウント
  • Readの前処理(低品質の除去や余分な配列の除去など)
  • 発現量の高いカテゴリー(遺伝子グループ)の検出
  • 多変量解析
  • リファレンスゲノムやトランスクリプトームの構築
  • データの可視化
  • クラスタリング
  • その他

UNIXに関する宿題

トレーニングコースでのほとんどの操作はUNIX環境のコマンドラインで行います。UNIXのコマンドライン操作に慣れ、基本的なコマンドは把握しておいて下さい。トレーニングコース準備編のUNIX入門を全て把握する事が理想ではありますが、短期間で完全にマスターする事は困難です。本コース受講に際しては、最低限以下の内容までは把握して臨んでください。

  1. UNIXの階層型ディレクトリの構造を理解する。(上記テキスト p.7-10上に該当)

  2. 次のコマンドに習熟しておく。テキストの該当ページを参照。

ファイル操作系

ls, cd, mkdir, pwd, cp

テキストデータ処理系

less, cat, head, tail, wc, grep

コマンドマニュアルの参照

man
  1. リダイレクト、パイプの使い方を習熟しておく(UNIX基本コマンドテキスト 実習21, 22)

NGS基本フォーマット・基本ツールに関する宿題

  1. 以下の問題資料中で空欄となっているデータフォーマット名を埋めて完成させよ
  1. RNA-seq解析ソフトウェア「bowtie2」と「samtools」はそれぞれ何の目的で使われるものか、上記のコーステキストと併せて下記の公式マニュアルも参照して理解しておくこと

IGV に関する宿題

IGV (NGSデータ可視化ソフトウェア)実習は自身で用意しているパソコンを使って行います。

  • 用意したパソコンにIGVをインストールし、起動を確認してください。詳細は、セットアップのページ を参照のこと。

Rに関する宿題

コースではRを使った解析を行います。Rの基本的な操作に慣れておいてください。

トレーニングコースNGS解析入門のR入門を参考にしてください。

習熟度の目安としては、plotによる散布図の作製まで(R入門 コーステキスト p.1-39上に該当)は最低限マスターしておくこと。

統計学に関する宿題

  1. 2つのトランスクリプトームデータ間のユークリッド距離はどのようなイメージで捉えれば良いか?あるトランスクリプトームデータをベクトルとして定義して、2つのベクトル間のユークリッド距離として考えて(調べて)ください 。
  2. 主成分分析の「主成分」とは何か、特に元のトランスクリプトームデータとどのような関係にある統計量か考えて(調べて)ください。
  3. コースでRを使ったハンズオンを行うので、Rのコーディングは慣れておいてください。具体的には効率よくコーディングするために、[1] タブを使った補完機能はスムーズに行えること、[2] Rの関数はある程度は頭に入っているとスムーズです。

Gene Ontology に関する宿題

  1. Gene Ontology (GO) において扱われる、遺伝子の機能に関わる3つの側面とは何か、調べなさい。"Signal transduction" は、その3つのうちどれになるかを考えなさい。
  2. 発現変動した遺伝子セットの中に、どのような機能の遺伝子が多く含まれるかを調べる手法としてエンリッチメント解析がある。一組のトランプから10枚のカードを抜き出したとき、赤札(ハート、ダイヤ)が5枚、絵札(JQK)が4枚含まれていた。このとき、赤札と絵札のどちらがよりエンリッチ(濃縮)していると言えるか考えなさい。