ex603 - nibb-gitc/gitc2021mar-rnaseq GitHub Wiki
ex603
(発展問題: 教師ありクラスタリング手法であるk-means法はトレーニングコースでは解説していません)
事前にクラスター数を指定して行うことを「教師あり」クラスタリングと呼ぶ。k-means法は教師ありクラスタリングの1種で、汎用される手法である。 教師ありクラスタリングは前提(仮説)が正しい時には教師なしクラスタリングよりも精度よくクラスターを特定できる。 また、k-means法ではクラスターの重心プロファイル(イメージとしては計算したクラスターの平均的な遺伝子発現プロファイル)を計算できる他、各サンプルを重心プロファイルからどの位、離れているか(似ていないか)という特徴量エンジニアリングにも使用できる。
coi1, dde2, jar1, jin1はジャスモン酸シグナル伝達経路、ein2-1, ein3はエチレンシグナル伝達経路、npr1-1, sid2-2はサリチル酸シグナル伝達経路に関わる遺伝子の変異体である。これらの変異体遺伝子発現プロファイルをk-means法を使って解析し、クラスター数の妥当性を考察せよ。kの数は3から始めなさい。同じ処理
kmeans(t(inputMatrix), centers=3)$cluster
centers
を増加させて繰り返し、クラスターされる遺伝子型等の結果の安定性やクラスタリングのされ方を指標に結果を評価しなさい。
ヒント: centers引数、iter.max引数を調整することにより、結果が変化します。