Agrupamento de sequências (nucl ou prot) por similaridade (CD HIT) - lmigueel/Bioinformatica GitHub Wiki

1. Sobre

Imagina que você realizou uma montagem de um genoma que acabou fragmentando sequências e criando quimeras do mesmo gene, ou até mesmo uma montagem de um transcriptoma, onde isoformas do mesmo gene foram criadas devido à algumas bases erradas no sequenciamento. Uma maneira de criar uma referência única é através do CD-HIT, que agrupa sequencias por similaridade de sequência. Remoção de sequências duplicadas é seu forte.

CD-HIT (Cluster Database at High Identity with Tolerance), é um programa para agrupar e comparar sequências de nucleotídeos ou proteínas. O CD-HIT é muito rápido e pode lidar com grandes conjuntos de dados de DNA/RNA.

No CD-HIT, eu uso o método de algoritmo de clustering incremental guloso. Resumidamente, as sequências são primeiro classificadas em ordem decrescente de comprimento. O mais longo se torna o representante do primeiro cluster. Em seguida, cada sequência restante é comparada aos representantes dos clusters existentes. Se a semelhança com qualquer representante estiver acima de um determinado limite, ele será agrupado nesse cluster. Caso contrário, um novo cluster é definido com essa sequência como representante.

Alguns dos executáveis mais usados do pacote CD-HIT são: CD-HIT, CD-HIT-2D, CD-HIT-EST, CD-HIT-EST-2D, CD-HIT-454, CD-HIT-PARA , PSI-CD-HIT, CD-HIT-OTU, CD-HIT-LAP e CD-HIT-DUP:

Programa Execução
CD-HIT ou CD-HIT-EST agrupa proteínas ou DNAs semelhantes em agrupamentos que atendem a um limite de similaridade definido
CD-HIT-2D (CD-HIT-EST-2D) compara 2 conjuntos de dados e identifica as sequências em db2 que são semelhantes a db1 acima de um determinado limite
CD-HIT-454 identifica duplicatas naturais e artificiais de leituras de pirosequenciamento
CD-HIT-OTU agrupa tags de rRNA em OTUs
CD-HIT-DUP identifica reads duplicados Illumina single ou paired-end
CD-HIT-LAP identifica reads sobrepostas

O manual do CD-HIT pode ser acessado AQUI.

2. Instalação

Via conda:

 conda install -c bioconda cd-hit 

Existe uma segunda opção, que é através do pacote compilado. Deixo o link. Até esse momento da vida de um bioinformata, o uso do CONDA é totalmente necessário e facilitador.

3. Diferenças para o OrthoMCL (Proteínas)

O CD-HIT agrupa proteínas especificamente baseadas na identidade de sequência. OrthoMCL usa um método de agrupamento baseado em grafo para encontrar ortólogos, dado um corte de identidade de sequência específico. Nenhum dos dois é melhor, mas cada um é usado para uma finalidade diferente. CD-HIT é usado para remover redundância em um conjunto de sequências - como sequências duplicadas. OrthoMCL é usado para encontrar ortólogos entre espécies.

4. Uso

Eu, particularmente, uso o CD-HIT em dois momentos:

*(i) verificar se a montagem criou redundâncias (CD-HIT) *(ii) verificar se duas montagens possuem overlaps entre as sequências e redudâncias (CD-HIT-EST-2D)

Imagine que, após uma montagem, um arquivo chamado montagem.fasta foi gerado. Esse arquivo pode estar em nucleotídeo (usamos o CD-HIT-EST) ou em proteína (usamos o CD-HIT). O parâmetro mais importante é a flag -c, que representa o valor da similaridade de entre as sequências. Quanto mais próximo de 1, maior é a similaridade que você deseja. Por exemplo, com a opção -c 1.0, significa 100% de identidade (limite para entrar no cluster), já -c 0.9, significa 90% de identidade (limite para entrar no cluster).

Normalmente sequências menores são verificadas dentro das maiores. Esse agrupamento verifica essas sequências criadas a partir de quebras.

EM PROTEÍNA

Para agrupar sequências semelhantes de proteínas em um único arquivo utilize, com similaridade de 90% (-c 0.90) e 8 processadores (-T 8):

cd-hit -i montagem.fasta -o montagem_90 -c 0.90 -T 8

A saída será:

>Cluster 0
0 2799aa, >PF04998.6|RPOC2_CHLRE/275-3073... *
>Cluster 1
0 2184aa, >PF06317.1|Q6Y625_9VIRU/1-2214... at 90%
1 2215aa, >PF06317.1|O09705_9VIRU/1-2215... at 99%
2 2217aa, >PF06317.1|Q6Y630_9VIRU/1-2217... *
3 527aa,  >PF06317.1|Q67E14_9VIRU/6-532... at 100%
>Cluster 2
0 2200aa, >PF06317.1|Q6UY61_9VIRU/8-2209... at 99%
1 2208aa, >PF06317.1|Q6IVU4_JUNIN/1-2208... *
2 2200aa, >PF06317.1|Q6IVU0_MACHU/1-2207... at 99%

onde,

  • ">" começa um novo cluster
  • "*" no final indica a sequência representativa do cluster
  • "%" indica a similaridade entre a sequência e a representativa

Caso queira comparar dois arquivos contendo dois grupos de proteínas (db1.fasta e db2.fasta):

cd-hit-2d -i db1.fasta -i2 db2.fasta -o db2_final -c 0.9 -T 8

Por padrão, o CD-HIT apenas lista as correspondências em que as sequências no db2.fasta não são maiores do que as sequências no db1.fasta. Você pode usar as opções -S2 ou -s2 para sobrescrever este padrão:

cd-hit-2d -i db1.fasta -i2 db2.fasta -o db2_final -c 0.9 -T 8 -s2 0.9

EM NUCLETÍDEO

Para agrupar sequências semelhantes de nucletídeos em um único arquivo utilize, com similaridade de 95% (-c 0.95) e 8 processadores (-T 8):

cd-hit-est -i montagem.fasta -o montagem_95 -c 0.95 -T 8

Caso queira comparar dois arquivos contendo dois grupos em nucletídeos (db1.fasta e db2.fasta):

cd-hit-est-2d -i db1.fasta -i2 db2.fasta -o db2_final -c 0.95 -T 8

Citação

Li, Weizhong, and Adam Godzik. "Cd-hit: a fast program for clustering and comparing large sets of protein or nucleotide sequences." Bioinformatics 22.13 (2006): 1658-1659.