dbcan2: Anotação de CAZy enzimas (Carbohydrate Active enZYmes Database) - lmigueel/Bioinformatica GitHub Wiki

1. Sobre

O banco de dados CAZy descreve as famílias de módulos catalíticos estruturalmente relacionados e de ligação a carboidratos (ou domínios funcionais) de enzimas que degradam, modificam ou criam ligações glicosídicas. Acesse AQUI.

Com um número crescente de plantas e genomas microbianos associados a plantas e metagenomas sendo sequenciados, há uma necessidade urgente de ferramentas automáticas para mineração de dados genômicos de CAZymes. O servidor do dbCAN, online desde 2012, vem para fornecer um serviço público de anotação CAZyme automatizada para genomas recém-sequenciados. Aqui, dbCAN2 (https://bcb.unl.edu/dbCAN2/) é apresentado como um meta servidor atualizado, que integra três ferramentas de última geração para anotação CAZome (todos os CAZymes de um genoma): (i) Pesquisa de HMMER no banco de dados dbCAN HMM (modelo de Markov oculto); (ii) pesquisa DIAMOND contra o banco de dados de sequência CAZyme pré-anotado CAZy e (iii) pesquisa Hotpep contra o banco de dados de peptídeo curto CAZyme conservado. Combinar as três saídas e remover CAZymes encontrados por apenas uma ferramenta pode melhorar significativamente a precisão da anotação CAZome.

Você pode tento rodar o dbcan2 em modo online, mas ele é limitado, ou de forma mais automática no servidor. Como mencionado, ele requer a instalação prévia do HMMER, DIAMOND e Hotpep. Vou especificar um ambiente CONDA para ambos, que irá facilitar as análises.

2. Instalação

Nesse caso basta seguir os passos AQUI. Mas vamos descrevê-los.

Primeiro criamos o ambiente no CONDA já com a instalação dos programas necessários.

conda create -n run_dbcan python=3.8 diamond hmmer prodigal -c conda-forge -c bioconda
conda activate run_dbcan

Depois vamos a instalação

pip install run-dbcan==2.0.11

Agora vamos baixar o banco de dados, incluindo alguns de E. coli para testes internos para ver se funciona

test -d db || mkdir db
cd db \
    && wget http://bcb.unl.edu/dbCAN2/download/CAZyDB.07312019.fa.nr && diamond makedb --in CAZyDB.07312019.fa.nr -d CAZy \
    && wget http://bcb.unl.edu/dbCAN2/download/Databases/dbCAN-HMMdb-V8.txt && mv dbCAN-HMMdb-V8.txt dbCAN.txt && hmmpress dbCAN.txt \
    && wget http://bcb.unl.edu/dbCAN2/download/Databases/tcdb.fa && diamond makedb --in tcdb.fa -d tcdb \
    && wget http://bcb.unl.edu/dbCAN2/download/Databases/tf-1.hmm && hmmpress tf-1.hmm \
    && wget http://bcb.unl.edu/dbCAN2/download/Databases/tf-2.hmm && hmmpress tf-2.hmm \
    && wget http://bcb.unl.edu/dbCAN2/download/Databases/stp.hmm && hmmpress stp.hmm \
    && cd ../ && wget http://bcb.unl.edu/dbCAN2/download/Samples/EscheriaColiK12MG1655.fna \
    && wget http://bcb.unl.edu/dbCAN2/download/Samples/EscheriaColiK12MG1655.faa \
    && wget http://bcb.unl.edu/dbCAN2/download/Samples/EscheriaColiK12MG1655.gff

Para você verificar se ocorreu tudo bem as instalações (verifique se mudou o ambiente do CONDA), execute:

run_dbcan.py EscheriaColiK12MG1655.fna prok --out_dir output_EscheriaColiK12MG1655

Única diferença aqui neste caso é que focaremos em anotar com Cazy sequencias de proteíinas geradas. Em vez da opção 'prok' usaremos a opção 'protein'. Para saber mais, execute run_dbcan.py -h.

3. Executando

Com um arquivo de proteínas em mãos, chamado transcritos.faa, vamos anotar as enzimas Cazy presentes nele a partir do banco de dados HMMER, DIAMOND e DIAMOND. A saída conterá resultados de ambos os bancos, e você deve considerar todos. Você pode até adicionar o SignalP. Os parâmetros default para estes programas são iguais ao site do dbcan2, então não tem diferença rodar online ou no servidor.

run_dbcan.py transcritos.faa protein --out_dir anotacao_Cazy

Entrando dentro do diretório anotacao_Cazy, você verá cinco arquivos:

  • diamond.out: saída do DIAMOND
  • hmmer.out: saída do HMMER
  • Hotpep.out: saída do Hotpep
  • overview.txt: ARQUIVO FINAL QUE CONTÉM TODAS AS SAÍDAS. É ESTE , PESSOAL!
  • uniInput: Arquivo de entrada

Abrindo o arquivo overview.txt você terá todas as anotações que deseja. Considere que se um programa identificou uma família Cazy, ou mais de uma, você deve levar para frente. A coluna #ofTools mostra o total de programas que identificaram resultados.

Gene ID HMMER   Hotpep  DIAMOND #ofTools
seq1.1.p1       GT49(11-142)    -       -       1
seq2.1.p1       AA3_2(4-428)    AA3(8)  AA3_2   3
seq3.p1       AA3_2(1-432)    AA3(8)  AA3_2   3
seq4.1.p1       AA3_2(1-422)    AA3(8)  AA3_2   3
seq5.1.p1       AA3_2(1-331)    AA3(8)  AA3_2   3
seq6.1.p1       GT11(83-328)    -       GT11    2
seq7.1.p1       CBM21(579-680)  -       -       1

Você pode fazer inúmeras análises com estes dados. Anotação em famílias CAZy é de suma importância em pesquisas como em etanol 2G, que novos organismos são estudados e enzimas desenvolvidas para degradação da biomassa lignocelulósica, na qual é constituída principalmente de lignina, hemiceluloses e celulose.

Referências

Zhang, H., Yohe, T., Huang, L., Entwistle, S., Wu, P., Yang, Z., ... & Yin, Y. (2018). dbCAN2: a meta server for automated carbohydrate-active enzyme annotation. Nucleic acids research, 46(W1), W95-W101.