Análise de qualidade NGS - lmigueel/Bioinformatica GitHub Wiki

Nesta páginas iremos iniciar as análises de qualidade básica de Sequenciamento de Nova Geração (NGS em inglês).

1. Descrição dos pacotes

Primeiramente vamos instalar os dois pacotes necessários para uma análise básica: FASTQC e Multiqc.

O papel do FASTQC é desenvolver uma análise rápida de N métricas à respeito do sequenciamento. O manual do FASTQC pode ser acessado aqui: https://www.bioinformatics.babraham.ac.uk/projects/fastqc/

O Multiqc agrega resultados de vários pacotes de bioinformática em único report. Ele possui, atualmente, 101 pacotes disponíveis. O manual do Multiqc pode ser acessado em: https://multiqc.info/

2. Instalação

Via conda:

conda install -c bioconda fastqc

conda install -c bioconda -c conda-forge multiqc

Download do source code:

https://www.bioinformatics.babraham.ac.uk/projects/download.html#fastqc

https://github.com/ewels/MultiQC

Links:

https://anaconda.org/bioconda/fastqc

https://multiqc.info/

3. Dados

Os dados de dois Fastq podem ser acessados aqui:

Download Reads 1 e Reads 2

4. Execução

Para executar a análise de qualidade por biblioteca, basta chamar o FASTQC, claro, após a instalação:

fastqc reads_1.fastq

fastqc reads_2.fastq

5. Resultados

Vou selecionar alguns plots importantes e realizar comentários que possam lhe auxiliar ao longo da análise.

Deixo aqui o que seria um bom dado: https://www.bioinformatics.babraham.ac.uk/projects/fastqc/good_sequence_short_fastqc.html

E um dado ruim: https://www.bioinformatics.babraham.ac.uk/projects/fastqc/bad_sequence_fastqc.html

Basic Statistics

As estatísticas básicas são as primeiras informações a serem observadas, contendo o total de sequências, o tamanho médio e a %GC. Vide abaixo:

Per base sequence quality

Este plot fornece a distribuição de pontuações de qualidade em todas as bases em cada posição dos reads. Neste caso, o que desejamos é que a qualidade das nossas bases sejam maiores que 20 (em média). A qualidade Phred você encontra um pouco mais aqui: https://en.wikipedia.org/wiki/Phred_quality_score. A linha azul representa a média e a linha vermelha a mediana.

Caso você execute os exemplos, diferença ficará evidente. Caso você tenha uma média de qualidade ruim, você deve executar o corte por qualidade média. Veja no pipeline de "Corte de adaptadores e qualidade".

Per Base Sequence Content

Representa a proporção de cada posição de base em um arquivo .fastq para o qual cada uma das quatro bases. Este resultado produzirá Warning caso haja diferença entre as bases (A,T,C e G) maior que 10%, e falhará caso essa diferença atinja mais de 20%. Algumas bibliotecas são inerentemente tendenciosas em sua composição de sequência. O exemplo mais óbvio seria uma biblioteca que foi tratada com bissulfito de sódio, que terá então convertido a maioria das citosinas em timinas, o que significa que a composição de base será quase desprovida de citosinas e, portanto, desencadeará um erro. Quase todas as bibliotecas de RNA-Seq falharão neste módulo por causa desse viés, mas este não é um problema que pode ser corrigido por processamento e não parece afetar adversamente a capacidade de medir a expressão.

Overrepresented Sequences

Uma biblioteca normal de alto rendimento conterá um conjunto diversificado de sequências, sem sequências individuais constituindo uma pequena fração do todo. Descobrir que uma única sequência está superrepresentada no conjunto significa que é altamente significativa do ponto de vista biológico ou indica que a biblioteca está contaminada, ou não tão diversa quanto você esperava. Elas devem ser retiradas. Muito provavelmente é um artefato, ou uma biblioteca com muitas cópias em específico, ou até mesmo adaptadores, que devem ser retirados.

Per Tile Sequence Quality

Este gráfico só aparecerá em seus resultados de análise se você estiver usando uma biblioteca Illumina que retém seus identificadores de sequência originais. Codificado nestes está a flowcell onde cada read veio. O gráfico permite que você observe as pontuações de qualidade de cada bloco em todas as suas bases para ver se houve uma perda de qualidade associada a apenas uma parte da célula de fluxo. O gráfico mostra o desvio da qualidade média de cada calha. As cores estão em uma escala de frio a quente, com cores frias sendo posições em que a qualidade estava igual ou acima da média para aquela base na corrida, e cores mais quentes indicam que uma calha tinha piores qualidades do que outras calhas para essa base. Um bom enredo deve ser totalmente azul.

Caso haja alguma calha (tile) que esteja ruim, você pode tirar com o programa Filterbytile (https://github.com/abiswas-odu/Disco/blob/master/bbmap/filterbytile.sh#L97). Você deve rodar da seguinte maneira:

Single-ended or paired/interleaved files:

filterbytile.sh in=reads.fq.gz out=filtered.fq.gz

Paired reads in twin files:

filterbytile.sh in1=r1.fq in2=r2.fq out1=filtered1.fq out2=filtered2.fq

Filtering aggressively (when you know there’s a serious problem):

filterbytile.sh in=x.fq out=y.fq ud=0.75 qd=1 ed=1 ua=.5 qa=.5 ea=.5

Para mais informações detalhadas, acesse: https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/

6. Multiqc

Após você rodar todos os fastqc, ou seja, um para cada biblioteca, você pode juntar os resultados em um único plot HTML. Estamos falando da ferramenta Multiqc. Para isso, basta rodar o multiqc sobre a pasta que estão seus outputs:

multiqc /home/lucas/fastqc/

Caso você já esteja sobre a pasta, basta executar o comando seguido de ponto (.), que representa "rode aqui".

multiqc .

Conselho você a executar o Multiqc após obter todos os reports que ele suporta. Mas, sempre vale a pena já apresentá-lo.

Citation:

Andrews S. (2010). FastQC: a quality control tool for high throughput sequence data. Available online at: http://www.bioinformatics.babraham.ac.uk/projects/fastqc

Ewels, Philip, et al. "MultiQC: summarize analysis results for multiple tools and samples in a single report." Bioinformatics 32.19 (2016): 3047-3048.