homework - nibb-gitc/gitc2021mar-rnaseq GitHub Wiki
宿題
受講生は、必ず以下の宿題を行なった上で、トレーニングコースにのぞんでください。
宿題を行うにあたって、2020年11月に開催したゲノムインフォマティクス・トレーニングコース NGS解析入門 「UNIX・R・NGSの基礎」が参考になるでしょう。
RNA-seq全般に関する宿題
-
RNA-seqの主な目的を、2つ挙げてください。
-
RNA-seqデータ解析のパイプラインは複数のステップから構成され、それぞれ異なるツールが用いられます。皆さんが使ったことがあるRNA-seq解析ソフトウェアを3つ思い出してください。それらソフトウェアは、以下のどのステップを担当するものだったでしょうか。
- 発現変動遺伝子の統計的解析
- Readのマッピング
- Readのカウント
- Readの前処理
- 発現量の高いカテゴリー(遺伝子グループ)の検出
- 多変量解析
- リファレンスゲノムやトランスクリプトームの構築
- データの可視化
- その他
UNIXに関する宿題
トレーニングコースでのほとんどの操作はUNIX環境のコマンドラインで行います。UNIXのコマンドライン操作に慣れ、基本的なコマンドは把握しておいて下さい。トレーニングコース準備編のUNIX入門を全て把握する事が理想ではありますが、短期間で完全にマスターする事は困難です。本コース受講に際しては、最低限以下の内容までは把握して臨んでください。
-
UNIXの階層型ディレクトリの構造を理解する。(UNIX入門(コーステキスト) p.7-10上に該当)
-
次のコマンドに習熟しておく。テキストの該当ページを参照。
ファイル操作系
ls, cd, mkdir, pwd, cp
テキストデータ処理系
less, cat, head, tail, wc, grep
- リダイレクト、パイプの使い方を習熟しておく(UNIX入門テキスト 実習21, 22)
NGS基本フォーマット・基本ツールに関する宿題
以下の問題資料中で空欄となっているデータフォーマット名を埋めて完成させて下さい。
IGV に関する宿題
IGV (NGSデータ可視化ソフトウェア)実習は自身で用意しているパソコンを使って行います。
- 用意したパソコンにIGVをインストールし、起動を確認してください。詳細は、セットアップのページを参照のこと。
Rに関する宿題
コースではRを使った解析を行います。Rの基本的な操作に慣れておいてください。
習熟度の目安としては、plotによる散布図の作製まで(R入門 コーステキスト p.1-40上に該当)は最低限マスターしておくこと。
統計学に関する宿題
- ある値1つをスカラーと呼ぶ。では、ベクトルとは何か?
- 2つのベクトル間のユークリッド距離とは何か調べなさい。
- 主成分分析の「主成分」とは何か調べなさい。
- Rコンソールで library(edgeR) を実行し、
要求されたパッケージ limma をロード中です
次のパッケージを付け加えます: ‘limma’
以下のオブジェクトは ‘package:BiocGenerics’ からマスクされています:
plotMA
もしくは、類する出力が得られることを確認しなさい。
Gene Ontology に関する宿題
Gene Ontology (GO) において扱われる、遺伝子の機能に関わる3つの側面とは何か、調べなさい。"Signal transduction" は、その3つのうちどれになるかを考えなさい。