Predição de virulência ‐ proteínas - lmigueel/Bioinformatica GitHub Wiki

1. Introdução

A identificação de proteínas virulentas em qualquer genoma sequenciado de novo é útil para estimar sua capacidade patogênica e compreender o mecanismo de patogênese. Da mesma forma, a identificação de tais proteínas poderia ser valiosa na comparação do metagenoma de indivíduos saudáveis ​​e doentes e na estimativa da proporção de espécies patogênicas. No entanto, o desafio comum em ambas as tarefas acima é a identificação de proteínas virulentas, uma vez que uma proporção significativa de proteínas genômicas e metagenômicas são novas e ainda não anotadas. As ferramentas atualmente disponíveis que realizam a identificação de proteínas virulentas fornecem precisão limitada e não podem ser utilizadas em grandes conjuntos de dados.

2. Ferramentas

2.1 VirulentPred 2.0

Acesse a ferramenta CLICANDO AQUI

O modelo de previsão usado neste servidor web é treinado e avaliado com os conjuntos de dados mais recentes de proteínas virulentas e não virulentas. Além disso, as mais recentes técnicas de aprendizado de máquina (ML) são usadas para desenvolver o modelo de conjunto ponderado. Limitado a 100 seqs por vez.

Input: Sequencia de aminoácidos

Output: Prediction Results (Non-virulent ou Virulent)

2.2 VICMpred

Acesse a ferramenta CLICANDO AQUI

VICMpred é um servidor web que auxilia na ampla classificação funcional de proteínas de bactérias em fatores de virulência, informação molecular, processo celular e molécula de metabolismo. O servidor VICMpred usa método baseado em SVM com padrões, composição de aminoácidos e dipeptídeos de sequências de proteínas bacterianas e a precisão geral deste servidor é de 70,75%.

Input: Sequência de aminoácidos

Output: Scores de virulência

2.3 MP3

Acesse a ferramenta CLICANDO AQUI

O MP3 é desenvolvido usando uma abordagem integrada de Support Vector Machine (SVM) e Hidden Markov Model (HMM) para realizar previsões altamente rápidas, sensíveis e precisas de proteínas patogênicas. Ele exibiu valores de sensibilidade, especificidade, MCC e precisão de 92%, 100%, 0,92 e 96%, respectivamente, em um conjunto de dados blind construído usando proteínas completas.

2.4 HyperVR

Acesse a ferramenta CLICANDO AQUI

Para uma melhor previsão simultânea de Virulence factors (VFs) e antibiotic resistance genes (ARGs), é proposta uma abordagem híbrida de aprendizagem profunda (deep learning) chamada HyperVR. Ao considerar as pontuações de melhor acerto e os padrões estatísticos de sequência genética, o HyperVR combina o aprendizado de máquina clássico e o aprendizado profundo para prever simultaneamente e com precisão VFs, ARGs e genes negativos (nem VFs nem ARGs).