ex11 - nibb-gitc/gitc2020jun-rnaseq GitHub Wiki
ex11: GO enrichment analysis with ErmineJ
ErmineJを使って、ex5のシロイヌナズナの細菌感染実験のRNA-seq解析によって得られた、感染によって発現が有意に上昇する遺伝子群の、GO enrichment解析を行う。
Files
(ファイルは ~/data/SS/ErmineJ 以下にある)
- arab2.deg.txt : edgeRのdeg解析の結果 (ex5)
- arab2.normalized.cpm.txt : edgeRでTMM法でノーマライズしたカウントデータ(count per million) (ex5)
- go_daily-termdb.rdf-xml.gz : Gene Ontology の定義ファイル。GeneOntologyコンソーシアムのホーページからダウンロードしたもの。
- gene_association.tair.ej.txt : シロイヌナズナ全遺伝子のGOアノテーションファイル。GeneOntologyコンソーシアムで提供されている、gene_association.tair.gz をもとに、今回のトレーニングコース用にErmineJ専用のフォーマットに整形したもの。
[arab2.deg.txt]
id logFC logCPM PValue FDR
AT2G19190 4.54846288855724 7.3891028061101 1.62416309808535e-21 4.25871805948959e-17
AT4G12500 4.39110651359378 10.4369475637278 1.99859791508663e-20 2.45199569369715e-16
AT2G44370 5.43556520055014 5.2123645146869 3.21677527683902e-20 2.45199569369715e-16
AT3G46280 4.92503598519659 8.1242805484535 4.40769774863598e-20 2.45199569369715e-16
...
[gene_association.tair.ej.txt]
AT1G01110 IQD18 AT1G01110|IQD18|IQ-domain 18|T25K16.10|T25K16_10 GO:0003674
AT1G01420 UGT72B3 AT1G01420|UGT72B3|UDP-glucosyl transferase 72B3|F6F3.22|F6F3_22 GO:0008152|GO:0008194|GO:0016757|GO:0080043|GO:0080044
...
ErmineJの起動
(ErmineJの実行にはお使いのマシンにJava Runtime Environmenがインストールされている必要があります。)
macOSおよびwindowsでのermineJの環境構築・起動確認方法についてはこちらのページをご確認ください。 https://github.com/nibb-gitc/gitc2020jun-rnaseq/wiki/setup_ermineJ
GeneOntology 設定ファイルのロード
ErmineJを起動すると、GeneOntologyの定義ファイルと、遺伝子アノテーションファイルを指定するよう促される。(Select a project file ... は無視して良い)。
- Gene Ontology XML file => go_daily-termdb.rdf-xml.gz を指定する。
- Gene annotation file => gene_association.tair.ej.txt を指定する。フォーマットはErmineJ。
ロードが正常に完了すると以下のようなテーブルのウィンドウが表示される。
Gene Ontology enrichment analysis (ORA)
ウィンドウ上部のAnalysisメニューから、Run Analysis を選択。"ORA" を選択。
Gene score file => arab2.deg.txt を指定。このファイルの5列目のFDRを今回の解析の「スコア」に使うので、Column = 5 を指定する。
Data profiles file => arab2.normalized.cpm.txtを指定。First data column = 2。
Next >
Select the aspects to include in the analysis の選択画面では、ここでは、3つのカテゴリー (Biologocal Process, Molecular Function, Cellular Component) すべてをチェック。
Maximum gene set size = 500, Minimum gene set size = 5, Gene replicate treatment はどちらでもよい(今回のデータセットでは意味がない)。
Next >
Adjust settings specific for your analysis method の選択画面では、
- Take the negative log of the gene scores をチェック。
- Large scores in your gene score file are better はチェックしない。
- Gene score threshold = 0.05 (thresholdを入力すると下部ウィンドウに何個の遺伝子が含まれるかが表示されるので便利)
Finishボタンを押すと計算が始まる。
(結果例)
テーブルの興味のあるGOを右クリックし、Find this set in the tree panel を選択すると、Tree表示にかわる。
テーブルの興味のあるGOをダブルクリックすると、該当カテゴリーに含まれる遺伝子の発現プロファイルが表示される。
(私のMac環境では、おそらくソフトウェアのバグのため、ダブルクリックしてもウィンドウバーのみが表示されて中身が表示されなかった。マウスでドラッグしてウィンドウをしたに引き伸ばすと遺伝子の発現プロファイルの画面が表示された。)
計算結果をテキストファイルで保存する。
- メニュー : Analysis > Save Analysis
- 保存したい解析を選択し、"Include all genes in output" をチェックして "OK"ボタン。
考察
どのようなGO term が統計的に優位にover-representedだろうか?response to bacterium や immune response などが上位に来ているのは、細菌感染の実験であることを考えるとリーズナブルである。
Gene Ontology enrichment analysis (GSR)
ORAとほぼ同じ手順。Create New AnalysisのStep 1 of 5 でGSRを選択。
ORAの結果と比べてみよう。
発展
- 上の実習では、edgeRで得られたFDRをスコアとして使い、閾値を0.05に設定した。この場合、細菌感染によってup-regulated, down-regulated 両方の遺伝子を含むことになる。up-regulatedなものだけを使いたい場合はどうすればよいだろうか?また、fold-changeの値も考慮して、「2倍以上up-regulated」なDEGだけを調べたいケースも多い。このような場合はどのようにすればよいだろうか?