Anotação de Ortologia KEGG (Kegg Orthology(KO)) com KofamKoala - lmigueel/Bioinformatica GitHub Wiki

1. Sobre

KofamKOALA atribui K números aos dados de sequência do usuário por HMMER/HMMSEARCH contra o KOfam (um banco de dados HMM personalizado de KEGG Orthologs (KOs)). As atribuições de número K com pontuações acima dos limites predefinidos para KOs individuais são mais confiáveis do que outras atribuições propostas. Essas atribuições de pontuação alta são destacadas com asteriscos '*' na saída. As atribuições do número K facilitam a interpretação dos resultados da anotação vinculando os dados da sequência do usuário às vias KEGG e aos números EC.

Você basicamente precisa das suas sequências de proteínas em um arquivo .fasta.

Você pode executar o KofamKoala online (Acesse AQUI). Mas eu ensinarei a rodá-lo em linha de comando.

2. Instalação

Precisamos basicamente do Kofamscan e do banco de dados de HMM ((Hidden Markov Models)[https://web.stanford.edu/~jurafsky/slp3/A.pdf]).

A instalação mais rápida do Kofamscan é com o conda. Com ele automaticamente o HMMER, RUBY (a linguagem) e o PARALLEL são instalados mais rapidamente. A instalação é um pouco demorada.

conda install -c bioconda kofamscan 

Caso ele não instale os três pacotes mencionados (teste digitando o nome do programa), instale manualmente os três.

conda install ruby
conda install -c bioconda hmmer
conda install -c bioconda parallel

Vamos agora criar um diretorio para guardar os bancos de dados de HMM.

mkdir -p ~/kofamscan/
mkdir -p ~/kofamscan/db
cd ~/kofamscan/db
wget ftp://ftp.genome.jp/pub/db/kofam/ko_list.gz 
wget ftp://ftp.genome.jp/pub/db/kofam/profiles.tar.gz 
gunzip ko_list.gz 
tar xvzf profiles.tar.gz 

Agora vamos criar a pasta do binário do kofamscan. O link pode estar quebrado ou uma nova versão surgido: AQUI

mkdir -p ~/kofamscan/bin
cd ~/kofamscan/bin
wget https://www.genome.jp/ftp/tools/kofam_scan/kofam_scan-1.3.0.tar.gz
tar xvzf kofam_scan-1.3.0.tar.gz

Agora que já extraimos, podemos entrar dentro do diretório bin e executar o script exec_annotation para ver se esta tudo certo.

cd kofam_scan-1.3.0/
./exec_annotation

Precisamos agora editar o arquivo config-template.yml. Primeiro faça uma cópia dele. Depois encontre o caminho até o binário do conda do PARALLEL e HMMSEARCH.

cp config-template.yml config.yml
which hmmsearch
#/opt/lucasmiguel/programas/miniconda3/bin/hmmsearch
which parallel
#/opt/lucasmiguel/programas/miniconda3/bin/parallel

Como o programa exec_annotation somente entende o arquivo config.yml, vamos editar e passar as informações dos binários e do caminho até os arquivos do ko_list e profiles, baixados anteriormente. De um vi config.yml e edite. Não se esqueça do total de CPUs.

# Path to your KO-HMM database
# A database can be a .hmm file, a .hal file or a directory in which
# .hmm files are. Omit the extension if it is .hal or .hmm file
profile: /opt/lucasmiguel/Wiki/anotacao/kofamkoala/kofamscan/db/profiles/

# Path to the KO list file
ko_list: /opt/lucasmiguel/Wiki/anotacao/kofamkoala/kofamscan/db/ko_list

# Path to an executable file of hmmsearch
# You do not have to set this if it is in your $PATH
hmmsearch: /opt/lucasmiguel/programas/miniconda3/bin/hmmsearch

# Path to an executable file of GNU parallel
# You do not have to set this if it is in your $PATH
parallel: /opt/lucasmiguel/programas/miniconda3/bin/parallel

# Number of hmmsearch processes to be run parallelly
cpu: 12

Pronto. Agora podemos executar. O arquivo config.ymldeve estar no mesmo diretório do exec_annotation, logo, será melhor copiar o arquivo fasta para a pasta ~/kofamkoala/kofamscan/bin/kofam_scan-1.3.0. Chamaremos o fasta de proteinas_projetoX.faa.

3. Executando o kofamscan

Para executar o kofamscan basta:

./exec_annotation -o anotacao_kofam_projetoX.txt proteinas_projetoX.faa

A saída terá o nome da proteína e a Ortologia KEGG (Kegg Orthology (KO)). Esse processo é muito usado em metatranscriptômica, para ver a coleção de KOs presentea nas amostras.

# gene name                     KO     thrshld  score   E-value KO definition
#------------------------------ ------ ------- ------ --------- ---------------------
  TRINITY_DN33333_c0_g1_i1   K01099  431.53   48.9   5.8e-13 inositol polyphosphate 5-phosphatase INPP5B/F [EC:3.1.3.36]
  AS_TRINITY_DN11111_c0_g1_i1   K20279  486.83   20.8   0.00012 synaptojanin [EC:3.1.3.36]
  AS_TRINITY_DN00000_c1_g1_i3   K24222  384.63   15.3    0.0096 inositol polyphosphate 5-phosphatase INPP5J/K [EC:3.1.3.56]
  AS_TRINITY_DN66666_c0_g1_i3   K21038       -   13.1     0.058 reverse transcriptase [EC:2.7.7.49]
  AS_TRINITY_DN131313_c0_g1_i2   K11422  288.00  220.6   8.5e-65 [histone H3]-lysine4 N-trimethyltransferase SETD1 [EC:2.1.1.354]

Se você executar com a opção -f mapper, você terá apenas as colunas do ID do fasta e a conversão.

./exec_annotation -f mapper -o anotacao_kofam_projetoX.txt proteinas_projetoX.faa

A saída será:

  TRINITY_DN33333_c0_g1_i1   K01099
  AS_TRINITY_DN11111_c0_g1_i1   K20279  
  AS_TRINITY_DN00000_c1_g1_i3   K24222 
  AS_TRINITY_DN66666_c0_g1_i3   K21038    
  AS_TRINITY_DN131313_c0_g1_i2   K11422 

Espero que ajude vocês, principalmente em trabalhos de METAGENÔMICA!