Virus Bioinformatics - lmigueel/Bioinformatica GitHub Wiki

1. Sobre

Recentemente saiu um artigo muito interessante sobre as aplicações e pipelines de virus na bioinformática, e ele pode ser acessado AQUI.

Ele mostra muito como a Bioinformática direcionou as descobertas virais. E ainda replica em alguns campos, como a metagenômica.

A virosfera pode conter a maior diversidade conhecida pela humanidade. Estima-se que existam 1.031 vírus na Terra e, por bilhões de anos, sua proliferação e mutação em curso contribuíram para uma diversidade genômica incomparável em todo o mundo. As taxas de mutação viral variam de 10^-8 a 10^-6 substituições por nucleotídeo por infecção celular para vírus de DNA e de 10^–6 a 10^–4 substituições por nucleotídeo por infecção celular para vírus de RNA. A única maneira de analisar com eficiência essa biodiversidade é aplicando ferramentas computacionais poderosas para (1) identificar sequências virais e seus elementos funcionais codificados, (2) prever, anotar e comparar suas funções e (3) estruturar os dados para passar da medição para a compreensão. Até recentemente, nossa compreensão total dos vírus baseava-se em algumas centenas de vírus que eram isolados e podiam ser estudados em detalhes. Com os recentes desenvolvimentos em bioinformática, milhares de novos vírus podem ser facilmente descobertos em todos os biomas naturais e associados ao hospedeiro (como a Metagenômica viral). Incluir esses vírus que ocorrem naturalmente em análises comparativas abre possibilidades para previsões computacionais de novo, incluindo sobre a estrutura e função dos genes virais.

Neste artigo ele elabora discussões bem legais sobre:

    1. Technology and Bioinformatics Drive Discoveries
    1. Tools for Diagnostics
    1. Genome Sequencing
    1. RNA Secondary Structures in Viruses
    1. Viral Metagenomics
    1. Evolution and Phylogenetics
    1. Virus-Host Interactions
    1. Machine Learning as an Opportunity
    1. Host Transcriptomics

Logo em breve farei postagens sobre Host Transcriptomics e como montar uma rede de interação vírus-hospedeiro.

Mas eu gostaria de destacar a seção Tools for Diagnostics e discutir um pouco sobre as ferramentas apresentadas. Bora lá.

2. Tools for Diagnostics

Vamos dar ênfase nas ferramentas apresentadas na seção do artigo em questão 'Virus Bioinformatics'.

2.1 Read processing tools

Processing Tools Description
Quality check FastQC, PRINSEQ, mulitQC Checks read sequencing quality
Poretools, nanoOK Quality checks for nanopore long reads
Raw reads pre-processing Cutadapt, Trimmomatic, BBduk Quality trimming, artefacts removal on short reads
Nanocorrect, PoreSeq Non-hybrid error correction for nanopore long reads
Nanocorr, NaS Hybrid error correction for nanopore long reads

Nesta seção as ferramentas estão todas cobertas, e já realizamos posts aqui sobre várias delas, como Trimommatic, MultiQC e FastQC.

2.2 Genome assembly tools

Processing Tools Description
Single genomes VICUNA Produces population consensus genome assembly
IVA Assembler designed for RNA viruses
SPAdes Generic genome assembler
Canu, Miniasm Non-hybrid assemblers for nanopore long reads
Unicycler Hybrid assembly pipeline for nanopore long reads with the use of short reads
Metagenomes MEGAHIT, metaSPAdes, Ray-meta, IBDA-UD Assemblers optimized for metagenomics data
crAss Cross-assembly analysis of multiple metagenomes

Também já falamos sobre as diferenças nas montagens de read curto e longo, além de várias ferramentas sobre montagem por aqui. Você pode acessar o pipeline de montagem do Canu e do Spades. A parte de metagenomas, eu gosto do IDBA-UD e metaSPAdes.

2.3 Read mapping

Processing Tools Description
Read mapping BWA, Bowtie, BBmap Align short read sequences to a reference
STAR Splice-aware aligner for RNA-seq data
GraphMap, LAST Align long read sequences to a reference

Já falamos sobre mapeamento de reads AQUI e incluimos exemplos do BBWA e BOWTIE2, que deveria ter sido citado. Além dele, o Hisat2 também é uma boa escolha, e pode ser acessado AQUI.

2.4 Gene Prediction

Processing Tools Description
ORF Finder Searches for open reading frames in the provided sequence
Prodigal A protein-coding gene prediction software tool
VIGOR Annotation program for small viral genomes

Faltou citar o Transdecoder, que também já falamos e pode ser acessado AQUI. Além disso, para estratégias de montagens de novo ou de reconstrução de transcriptomas, o pipeline de identificação de genes codantes e não codantes podem ser utilizados, como o RNASamba, e pode ser acessado AQUI.

2.5 Similarity searches

Processing Tools Description
BLAST A suite of tools to find regions of similarity between DNA and protein sequences
HHpred Sensitive protein homology detection, function, and structure prediction
HMMER Homology based search

Já citamos o BLAST e HMMER.

2.6 Multiple Sequence Alignment

Processing Tools Description
MAFFT, ClustalW Multiple sequence alignment for DNA and protein sequences
MUSCLE Multiple sequence alignment for protein sequences

As ideias do MAFFT podem ser acessadas no nosso post AQUI.

2.7 Sequence taxonomic annotation

Processing Tools Description
CAT, Kraken, Centrifuge, Kaiju Assign taxonomic labels to reads or assembled contigs

Venha saber mais sobre o Kaiju AQUI.

2.8 Phylogenies

Processing Tools Description
RaxML, PhyML Inference of large phylogenetic trees
BEAST A software package for phylogenetic analysis with an emphasis on time-scaled trees

Ainda não falamos sobre modelos de filogenia, mas logo vem.

2.9 Taxonomy and classification

Processing Tools Description
GRAViTy Classification of eukaryotic viruses
vConTACT Classification of double stranded DNA viruses of bacteria and archaea
VICTOR Genome based phylogeny and classification of prokaryotic viruses
DEmARC Classification of viruses based on genetic divergence

2.10 RNA secondary structures

Processing Tools Description
mfold/UNAFold RNA secondary structure prediction
ViennaRNA package Suite of tools to perform RNA structures prediction and comparison
LocARNA Structure-guided multiple sequence alignment of RNA sequences

2.11 Transcriptomics

Processing Tools Description
DESeq2, Sleuth Statistical analysis of RNA-seq data

Já realizei a postagem de vários assuntos relacionados a Transcriptomica, tais como GSEA, download do SRA, DESeq2, PCA com dados de RNA-Seq, Análise com genoma de referência, Quantificação de dados de RNA-Seq,Sleuth e Anotação em montagens de novo de transcriptomas.

2.12 Databases

Processing Tools Description
ViralZone Link specific knowledge for each virus family with viral protein and genomic sequences
Virus Variation Resource A community portal for viral sequence data
Virus Pathogen Database and Analysis Resource (ViPR) An integrated repository of data and analysis tools for multiple virus families

Todos estes bancos são legais, e já realizei pesquisas com dados de Covid-19