Anotação de Ortologia KEGG (Kegg Orthology(KO)) com KofamKoala - lmigueel/Bioinformatica GitHub Wiki
1. Sobre
KofamKOALA atribui K números aos dados de sequência do usuário por HMMER/HMMSEARCH contra o KOfam (um banco de dados HMM personalizado de KEGG Orthologs (KOs)). As atribuições de número K com pontuações acima dos limites predefinidos para KOs individuais são mais confiáveis do que outras atribuições propostas. Essas atribuições de pontuação alta são destacadas com asteriscos '*' na saída. As atribuições do número K facilitam a interpretação dos resultados da anotação vinculando os dados da sequência do usuário às vias KEGG e aos números EC.
Você basicamente precisa das suas sequências de proteínas em um arquivo .fasta.
Você pode executar o KofamKoala online (Acesse AQUI). Mas eu ensinarei a rodá-lo em linha de comando.
2. Instalação
Precisamos basicamente do Kofamscan e do banco de dados de HMM ((Hidden Markov Models)[https://web.stanford.edu/~jurafsky/slp3/A.pdf]).
A instalação mais rápida do Kofamscan é com o conda. Com ele automaticamente o HMMER, RUBY (a linguagem) e o PARALLEL são instalados mais rapidamente. A instalação é um pouco demorada.
conda install -c bioconda kofamscan
Caso ele não instale os três pacotes mencionados (teste digitando o nome do programa), instale manualmente os três.
conda install ruby
conda install -c bioconda hmmer
conda install -c bioconda parallel
Vamos agora criar um diretorio para guardar os bancos de dados de HMM.
mkdir -p ~/kofamscan/
mkdir -p ~/kofamscan/db
cd ~/kofamscan/db
wget ftp://ftp.genome.jp/pub/db/kofam/ko_list.gz
wget ftp://ftp.genome.jp/pub/db/kofam/profiles.tar.gz
gunzip ko_list.gz
tar xvzf profiles.tar.gz
Agora vamos criar a pasta do binário do kofamscan. O link pode estar quebrado ou uma nova versão surgido: AQUI
mkdir -p ~/kofamscan/bin
cd ~/kofamscan/bin
wget https://www.genome.jp/ftp/tools/kofam_scan/kofam_scan-1.3.0.tar.gz
tar xvzf kofam_scan-1.3.0.tar.gz
Agora que já extraimos, podemos entrar dentro do diretório bin e executar o script exec_annotation
para ver se esta tudo certo.
cd kofam_scan-1.3.0/
./exec_annotation
Precisamos agora editar o arquivo config-template.yml
. Primeiro faça uma cópia dele. Depois encontre o caminho até o binário do conda do PARALLEL e HMMSEARCH.
cp config-template.yml config.yml
which hmmsearch
#/opt/lucasmiguel/programas/miniconda3/bin/hmmsearch
which parallel
#/opt/lucasmiguel/programas/miniconda3/bin/parallel
Como o programa exec_annotation
somente entende o arquivo config.yml
, vamos editar e passar as informações dos binários e do caminho até os arquivos do ko_list
e profiles
, baixados anteriormente. De um vi config.yml
e edite. Não se esqueça do total de CPUs.
# Path to your KO-HMM database
# A database can be a .hmm file, a .hal file or a directory in which
# .hmm files are. Omit the extension if it is .hal or .hmm file
profile: /opt/lucasmiguel/Wiki/anotacao/kofamkoala/kofamscan/db/profiles/
# Path to the KO list file
ko_list: /opt/lucasmiguel/Wiki/anotacao/kofamkoala/kofamscan/db/ko_list
# Path to an executable file of hmmsearch
# You do not have to set this if it is in your $PATH
hmmsearch: /opt/lucasmiguel/programas/miniconda3/bin/hmmsearch
# Path to an executable file of GNU parallel
# You do not have to set this if it is in your $PATH
parallel: /opt/lucasmiguel/programas/miniconda3/bin/parallel
# Number of hmmsearch processes to be run parallelly
cpu: 12
Pronto. Agora podemos executar. O arquivo config.yml
deve estar no mesmo diretório do exec_annotation
, logo, será melhor copiar o arquivo fasta para a pasta ~/kofamkoala/kofamscan/bin/kofam_scan-1.3.0. Chamaremos o fasta de proteinas_projetoX.faa.
3. Executando o kofamscan
Para executar o kofamscan basta:
./exec_annotation -o anotacao_kofam_projetoX.txt proteinas_projetoX.faa
A saída terá o nome da proteína e a Ortologia KEGG (Kegg Orthology (KO)). Esse processo é muito usado em metatranscriptômica, para ver a coleção de KOs presentea nas amostras.
# gene name KO thrshld score E-value KO definition
#------------------------------ ------ ------- ------ --------- ---------------------
TRINITY_DN33333_c0_g1_i1 K01099 431.53 48.9 5.8e-13 inositol polyphosphate 5-phosphatase INPP5B/F [EC:3.1.3.36]
AS_TRINITY_DN11111_c0_g1_i1 K20279 486.83 20.8 0.00012 synaptojanin [EC:3.1.3.36]
AS_TRINITY_DN00000_c1_g1_i3 K24222 384.63 15.3 0.0096 inositol polyphosphate 5-phosphatase INPP5J/K [EC:3.1.3.56]
AS_TRINITY_DN66666_c0_g1_i3 K21038 - 13.1 0.058 reverse transcriptase [EC:2.7.7.49]
AS_TRINITY_DN131313_c0_g1_i2 K11422 288.00 220.6 8.5e-65 [histone H3]-lysine4 N-trimethyltransferase SETD1 [EC:2.1.1.354]
Se você executar com a opção -f mapper
, você terá apenas as colunas do ID do fasta e a conversão.
./exec_annotation -f mapper -o anotacao_kofam_projetoX.txt proteinas_projetoX.faa
A saída será:
TRINITY_DN33333_c0_g1_i1 K01099
AS_TRINITY_DN11111_c0_g1_i1 K20279
AS_TRINITY_DN00000_c1_g1_i3 K24222
AS_TRINITY_DN66666_c0_g1_i3 K21038
AS_TRINITY_DN131313_c0_g1_i2 K11422
Espero que ajude vocês, principalmente em trabalhos de METAGENÔMICA!