Virus Bioinformatics - lmigueel/Bioinformatica GitHub Wiki
1. Sobre
Recentemente saiu um artigo muito interessante sobre as aplicações e pipelines de virus na bioinformática, e ele pode ser acessado AQUI.
Ele mostra muito como a Bioinformática direcionou as descobertas virais. E ainda replica em alguns campos, como a metagenômica.
A virosfera pode conter a maior diversidade conhecida pela humanidade. Estima-se que existam 1.031 vírus na Terra e, por bilhões de anos, sua proliferação e mutação em curso contribuíram para uma diversidade genômica incomparável em todo o mundo. As taxas de mutação viral variam de 10^-8 a 10^-6 substituições por nucleotídeo por infecção celular para vírus de DNA e de 10^–6 a 10^–4 substituições por nucleotídeo por infecção celular para vírus de RNA. A única maneira de analisar com eficiência essa biodiversidade é aplicando ferramentas computacionais poderosas para (1) identificar sequências virais e seus elementos funcionais codificados, (2) prever, anotar e comparar suas funções e (3) estruturar os dados para passar da medição para a compreensão. Até recentemente, nossa compreensão total dos vírus baseava-se em algumas centenas de vírus que eram isolados e podiam ser estudados em detalhes. Com os recentes desenvolvimentos em bioinformática, milhares de novos vírus podem ser facilmente descobertos em todos os biomas naturais e associados ao hospedeiro (como a Metagenômica viral). Incluir esses vírus que ocorrem naturalmente em análises comparativas abre possibilidades para previsões computacionais de novo, incluindo sobre a estrutura e função dos genes virais.
Neste artigo ele elabora discussões bem legais sobre:
-
- Technology and Bioinformatics Drive Discoveries
-
- Tools for Diagnostics
-
- Genome Sequencing
-
- RNA Secondary Structures in Viruses
-
- Viral Metagenomics
-
- Evolution and Phylogenetics
-
- Virus-Host Interactions
-
- Machine Learning as an Opportunity
-
- Host Transcriptomics
Logo em breve farei postagens sobre Host Transcriptomics e como montar uma rede de interação vírus-hospedeiro.
Mas eu gostaria de destacar a seção Tools for Diagnostics e discutir um pouco sobre as ferramentas apresentadas. Bora lá.
2. Tools for Diagnostics
Vamos dar ênfase nas ferramentas apresentadas na seção do artigo em questão 'Virus Bioinformatics'.
2.1 Read processing tools
Processing | Tools | Description |
---|---|---|
Quality check | FastQC, PRINSEQ, mulitQC | Checks read sequencing quality |
Poretools, nanoOK | Quality checks for nanopore long reads | |
Raw reads pre-processing | Cutadapt, Trimmomatic, BBduk | Quality trimming, artefacts removal on short reads |
Nanocorrect, PoreSeq | Non-hybrid error correction for nanopore long reads | |
Nanocorr, NaS | Hybrid error correction for nanopore long reads |
Nesta seção as ferramentas estão todas cobertas, e já realizamos posts aqui sobre várias delas, como Trimommatic, MultiQC e FastQC.
2.2 Genome assembly tools
Processing | Tools | Description |
---|---|---|
Single genomes | VICUNA | Produces population consensus genome assembly |
IVA | Assembler designed for RNA viruses | |
SPAdes | Generic genome assembler | |
Canu, Miniasm | Non-hybrid assemblers for nanopore long reads | |
Unicycler | Hybrid assembly pipeline for nanopore long reads with the use of short reads | |
Metagenomes | MEGAHIT, metaSPAdes, Ray-meta, IBDA-UD | Assemblers optimized for metagenomics data |
crAss | Cross-assembly analysis of multiple metagenomes |
Também já falamos sobre as diferenças nas montagens de read curto e longo, além de várias ferramentas sobre montagem por aqui. Você pode acessar o pipeline de montagem do Canu e do Spades. A parte de metagenomas, eu gosto do IDBA-UD e metaSPAdes.
2.3 Read mapping
Processing | Tools | Description |
---|---|---|
Read mapping | BWA, Bowtie, BBmap | Align short read sequences to a reference |
STAR | Splice-aware aligner for RNA-seq data | |
GraphMap, LAST | Align long read sequences to a reference |
Já falamos sobre mapeamento de reads AQUI e incluimos exemplos do BBWA e BOWTIE2, que deveria ter sido citado. Além dele, o Hisat2 também é uma boa escolha, e pode ser acessado AQUI.
2.4 Gene Prediction
Processing | Tools | Description |
---|---|---|
ORF Finder | Searches for open reading frames in the provided sequence | |
Prodigal | A protein-coding gene prediction software tool | |
VIGOR | Annotation program for small viral genomes |
Faltou citar o Transdecoder, que também já falamos e pode ser acessado AQUI. Além disso, para estratégias de montagens de novo ou de reconstrução de transcriptomas, o pipeline de identificação de genes codantes e não codantes podem ser utilizados, como o RNASamba, e pode ser acessado AQUI.
2.5 Similarity searches
Processing | Tools | Description |
---|---|---|
BLAST | A suite of tools to find regions of similarity between DNA and protein sequences | |
HHpred | Sensitive protein homology detection, function, and structure prediction | |
HMMER | Homology based search |
2.6 Multiple Sequence Alignment
Processing | Tools | Description |
---|---|---|
MAFFT, ClustalW | Multiple sequence alignment for DNA and protein sequences | |
MUSCLE | Multiple sequence alignment for protein sequences |
As ideias do MAFFT podem ser acessadas no nosso post AQUI.
2.7 Sequence taxonomic annotation
Processing | Tools | Description |
---|---|---|
CAT, Kraken, Centrifuge, Kaiju | Assign taxonomic labels to reads or assembled contigs |
Venha saber mais sobre o Kaiju AQUI.
2.8 Phylogenies
Processing | Tools | Description |
---|---|---|
RaxML, PhyML | Inference of large phylogenetic trees | |
BEAST | A software package for phylogenetic analysis with an emphasis on time-scaled trees |
Ainda não falamos sobre modelos de filogenia, mas logo vem.
2.9 Taxonomy and classification
Processing | Tools | Description |
---|---|---|
GRAViTy | Classification of eukaryotic viruses | |
vConTACT | Classification of double stranded DNA viruses of bacteria and archaea | |
VICTOR | Genome based phylogeny and classification of prokaryotic viruses | |
DEmARC | Classification of viruses based on genetic divergence |
2.10 RNA secondary structures
Processing | Tools | Description |
---|---|---|
mfold/UNAFold | RNA secondary structure prediction | |
ViennaRNA package | Suite of tools to perform RNA structures prediction and comparison | |
LocARNA | Structure-guided multiple sequence alignment of RNA sequences |
2.11 Transcriptomics
Processing | Tools | Description |
---|---|---|
DESeq2, Sleuth | Statistical analysis of RNA-seq data |
Já realizei a postagem de vários assuntos relacionados a Transcriptomica, tais como GSEA, download do SRA, DESeq2, PCA com dados de RNA-Seq, Análise com genoma de referência, Quantificação de dados de RNA-Seq,Sleuth e Anotação em montagens de novo de transcriptomas.
2.12 Databases
Processing | Tools | Description |
---|---|---|
ViralZone | Link specific knowledge for each virus family with viral protein and genomic sequences | |
Virus Variation Resource | A community portal for viral sequence data | |
Virus Pathogen Database and Analysis Resource (ViPR) | An integrated repository of data and analysis tools for multiple virus families |
Todos estes bancos são legais, e já realizei pesquisas com dados de Covid-19