homework - nibb-gitc/gitc2021sep-rnaseq GitHub Wiki
宿題
受講生は、必ず以下の宿題を行なった上で、トレーニングコースにのぞんでください。
宿題を行うにあたって、2021年8月に開催したゲノムインフォマティクス・トレーニングコース NGS解析入門 「UNIX・R・NGSの基礎」が参考になるでしょう。
RNA-seq全般に関する宿題
-
RNA-seqの主な目的を、2つ挙げてください。
-
RNA-seqデータ解析のパイプラインは複数のステップから構成され、それぞれ異なるツールが用いられます。皆さんが使ったことがあるRNA-seq解析ソフトウェアを3つ挙げてください。それらのソフトウェアは、以下のどのステップを担当するものだったでしょうか。
- 発現変動遺伝子の統計的解析
- Readのマッピング
- Readのカウント
- Readの前処理(低品質の除去や余分な配列の除去など)
- 発現量の高いカテゴリー(遺伝子グループ)の検出
- 多変量解析
- リファレンスゲノムやトランスクリプトームの構築
- データの可視化
- その他
UNIXに関する宿題
トレーニングコースでのほとんどの操作はUNIX環境のコマンドラインで行います。UNIXのコマンドライン操作に慣れ、基本的なコマンドは把握しておいて下さい。トレーニングコース準備編のUNIX入門を全て把握する事が理想ではありますが、短期間で完全にマスターする事は困難です。本コース受講に際しては、最低限以下の内容までは把握して臨んでください。
- UNIX基本コマンド(コーステキスト) (Web上で開くよりもダウンロードを推奨)
-
UNIXの階層型ディレクトリの構造を理解する。(上記テキスト p.7-10上に該当)
-
次のコマンドに習熟しておく。テキストの該当ページを参照。
ファイル操作系
ls, cd, mkdir, pwd, cp
テキストデータ処理系
less, cat, head, tail, wc, grep
- リダイレクト、パイプの使い方を習熟しておく(UNIX基本コマンドテキスト 実習21, 22)
NGS基本フォーマット・基本ツールに関する宿題
以下の問題資料中で空欄となっているデータフォーマット名を埋めて完成させて下さい。
IGV に関する宿題
IGV (NGSデータ可視化ソフトウェア)実習は自身で用意しているパソコンを使って行います。
- 用意したパソコンにIGVをインストールし、起動を確認してください。詳細は、セットアップのページ を参照のこと。
Rに関する宿題
コースではRを使った解析を行います。Rの基本的な操作に慣れておいてください。
トレーニングコースNGS解析入門のR入門を参考にしてください。
習熟度の目安としては、plotによる散布図の作製まで(R入門 コーステキスト p.1-39上に該当)は最低限マスターしておくこと。
統計学に関する宿題
- ある値1つをスカラーと呼ぶ。では、ベクトルとは何か?
- 2つのベクトル間のユークリッド距離とは何か調べなさい。
- 多変量解析、次元圧縮とは何か?それぞれ調べなさい。
- 主成分分析の「主成分」とは何か調べなさい。
Gene Ontology に関する宿題
- Gene Ontology (GO) において扱われる、遺伝子の機能に関わる3つの側面とは何か、調べなさい。"Signal transduction" は、その3つのうちどれになるかを考えなさい。
- 発現変動した遺伝子セットの中に、どのような機能の遺伝子が多く含まれるかを調べる手法としてエンリッチメント解析がある。一組のトランプから10枚のカードを抜き出したとき、赤札(ハート、ダイヤ)が5枚、絵札(JQK)が4枚含まれていた。このとき、赤札と絵札のどちらがよりエンリッチ(濃縮)していると言えるか考えなさい。