homework - nibb-unix/gitc202402-unix GitHub Wiki
参加者の皆さんは、必ず以下の宿題を学んだ上で、トレーニングコースにのぞんでください。
トレーニングコースでのほとんどの操作はUNIXのコマンドラインで行います。UNIXのコマンドラインに慣れていない方は、テキストの以下の部分に目を通し、基本的なコマンドは把握しておいて下さい。
- 上のテキストに目を通す
- UNIXの階層型ディレクトリの構造を理解する(テキスト p6-7 を参照)
- UNIXのコマンド入力画面で、以下のコマンドを順に実行してみましょう (テキスト p8-9 を参照)
-
Macをお使いの場合は「ターミナル」(アプリケーション -> ユーティリティ) を起動して使います
-
Windowsをお使いの場合は Windows10 UNIX環境構築ガイド または Windows11 UNIX環境構築ガイド を参考のこと
- $ は入力待ちプロンプトです。その後ろを入力して、リターンで実行します
- 返ってくる結果から、それぞれ何か行われているか考えてみてください
-
$ pwd $ ls $ ls -l $ cd / $ pwd $ cd ~ $ pwd
- UNIXにおける「環境変数」とは何か調べてきてください。
コースではR初心者向けの講義を行います。Rについての前提知識は不要ですが、以下の手順を実行した上で参加して下さい。その際、必要に応じて予習用テキストを参照して下さい。
(まだの方は)あなたのマシンにRをインストールして下さい。
- http://www.r-project.org/にアクセスして、左のメニューからCRANを選び、日本のミラーサイトのどれかを選択してから、指示に従って自分のマシン向けのRをダウンロードしてインストールします。
Rを起動し、コンソールから以下のコマンドを順に実行しなさい。
- 返ってくる結果から、それぞれどういう処理がなされているか考えなさい。 ただし、> は R のプロンプトで、その後を入力して、リターンで実行します。
> 0:20
> 0:20/20
> 0:20/20*pi
> sin(0:20/20*pi)
> plot(sin(0:20/20*pi))
> plot(sin(0:20/20*pi), type="l") (typeは小文字のエル)- なお、場合によってプロンプトが + に変わることがあります。これは括弧の数が合わないなどの理由でコマンドが完結していないことを示すので、追加の 「括弧とじる」を入力してコマンドを完結させるか、Escapeキーを入力して打ち切ってから入力し直して下さい。
- 3番目のコマンドまで入力したところで、次に進んで下さい。
履歴をたどる練習
- このように、直前に実行したコマンドを少しずつ変更しながら再実行することは、実際のデータ解析でもよくありますが、そういう場合はヒストリ (履歴) 編集の機能を使うのが便利です。上矢印および下矢印キーを押してコマンドの履歴を前後にたどれることを確認しなさい。また、右矢印、 左矢印キーを使ってコマンドを編集できることを確認しなさい。これらを使って、4番目以降のコマンドを入力して実行して下さい。
FASTQフォーマットは、次世代シーケンサーの出力するシーケンスデータとして最も広く使われているデータフォーマットです。
- どのような形式のフォーマットか調べてください。
- FASTQでは各リードについて主に2つの情報が記述されています。その2つの情報とは何でしょうか?
- 正規分布、ポアソン分布とはどのような性質を持った分布であり、どのようなデータの解析に使用されるか
- 統計学の検定におけるp値とは何を意味する統計量であるか
- 一般線形モデルとは何か(特にt検定との違いに着目して理解しましょう)
これら3点について予習し、不明な点のあぶり出しを行って本コースに臨んで下さい。
- 深層学習で使用するニューラルネットワークには様々な種類がありますが、このうち畳み込みニューラルネットワークとトランスフォーマーについて自分なりに理解をしてみてください。畳み込みニューラルネットワークだけでも大丈夫です。
- ChatGPT(https://chat.openai.com )のアカウントを作成し、実行できるようにしてください。
以上