分子系統解析 - minami1009/bio GitHub Wiki

解析の概要

手順

1. 相同配列の探索

系統樹に並べる対象とする配列を取得する。

  • BLASTで行う。通常PSI-BLAST, refseq proteinで検索している。
  • 結果のうちpercent identityが30〜90%としている。上限を削るかは場合による。削った場合、クエリ配列を後で足すのを忘れない。
  • fastaファイルをダウンロードする。

2. 相同性の高い配列の削除

BLASTで取得した配列間の相同性が高すぎるものをカットする。cd-hitを使用。

3. multiple sequence alignment

MAFFTサーバーに2のアウトプットファイルの中身をコピペする。

  • オプション設定は特に変えない。
  • MSAが終わると、fasta形式でダウンロードする。MAFFTサーバー上でも系統樹が描けるが、これは使わない。

4. トリミング

  • アライメントがかかっていない領域が多くある場合、系統樹作成において不要な領域のため、トリミングする。
  • 3のアウトプットを目視で確認し、した方がいいかどうか判断する。
  • 参考:https://kazumaxneo.hatenablog.com/entry/2017/09/16/101719
# インストールはbiocondaからできる
$ conda install -c bioconda trimal

# trimalの実行 
$ trimal -in input.fasta -out trimal-output.fasta -htmlout output.html -gt 0.9 -cons 60

5. 系統樹推定

  • IQ-treeまたはRAxMLで行う。

RAxMLを用いる場合

# githubからインストール
$ git clone https://github.com/stamatak/standard-RAxML.git
$ make -f Makefile.AVX.PTHREADS.gcc
$ rm *.o

# pathを通す
$ nano ~/.profile
#でPATH="$PATH:/path/to/dir/"を追加
$ source ~/.profile

# raxmlの実行
$ raxmlHPC-PTHREADS-AVX -f a -m PROTGAMMAAUTO -s input.fasta -p 12345 -x 12345 -n HOGE -T 8 -# 100
$ raxmlHPC-PTHREADS-AVX -f b -m PROTGAMMAAUTO -t RAxML_bestTree.HOGE -z RAxML_bootstrap.HOGE -n BOOTSTRAP

IQ-treeを用いる場合

# 実行
iqtree -s input.fasta -m MFP -bb 1000 -alrt 1000 -nt AUTO