Limpeza de reads (Trimagem) - lmigueel/Bioinformatica GitHub Wiki

1. Sobre

A trimagem de adaptadores e bases de baixa qualidade é parte importante do pipeline de análise para dados de sequenciamento. Normalmente, depois de isolar e fragmentar sua amostra de RNA, os adaptadores são anexados às extremidades das sequências que são necessárias para o sequenciamento. Esses adaptadores precisam ser removidos dos reads sequenciados antes do processamento downstream. Uma etapa adicional que precisa ser realizada é a remoção de bases de baixa qualidade. Cada base na leitura é atribuída a um valor Q, que é definido como o log negativo da probabilidade de a base ter sido chamada incorretamente. Devido à química de sequenciamento específica da Illumina, o valor Q tende a diminuir (a qualidade piora) em direção à extremidade 3' da leitura. Essas regiões de qualidade inferior podem impactar negativamente as análises downstream, como mapeamento, chamada de mutação, entre outras.

Para realizar a trimagem eu indico o Trimommatic e Cutadapt.

Neste pipeline usaremos o Trimmomatic para filtrar reads de baixa qualidade e cortar bases de baixa qualidade de nossas amostras.

O importante também é checar a qualidade antes e depois da trimagem. Veja o pipeline de qualidade aqui.

Acesse o manual do Trimmomatic aqui.

2. Instalação

Conda:

 conda install -c bioconda trimmomatic 

A instalação pelo source code pode ser acessada aqui.

3. Opções do Trimmomatic

A opção -h do Trimmomatic nos mostra que devemos primeiro especificar se temos reads paired-end (PE) ou single-end (SE). Em seguida, especificamos qual flag gostaríamos de executar. Por exemplo, você pode especificar threads para indicar o número de processadores em seu computador que deseja que o Trimmomatic use. Na maioria dos casos, o uso de vários threads (processadores) pode ajudar a executar o corte mais rápido. Essas flags não são necessárias, mas podem fornecer mais controle sobre o comando. As flags são seguidas por argumentos posicionais, o que significa que a ordem em que você os especifica é importante. No modo paired-end, Trimmomatic espera os dois arquivos de entrada e, em seguida, os nomes dos arquivos de saída. Esses arquivos são descritos a seguir. Enquanto, no modo single-end, o Trimmomatic espera 1 arquivo como entrada, após o qual você pode inserir as configurações opcionais e, por último, o nome do arquivo de saída.

opção significado
<inputFile1> A entrada a ser trimada. Normalmente, o nome do arquivo conterá _1 ou _R1 no nome.
<inputFile2> A entrada a ser trimada. Normalmente, o nome do arquivo conterá _2 ou _R2 no nome.
<outputFile1P> Arquivo de saída que contém pares sobreviventes do arquivo _1.
<outputFile1U> Arquivo de saída que contém reads órfãs do arquivo _1.
<outputFile2P> Arquivo de saída que contém pares sobreviventes do arquivo _2.
<outputFile2U> Arquivo de saída que contém reads órfãs do arquivo _2.

A última coisa que Trimmomatic espera ver são os parâmetros de corte:

Argumento explicação
ILLUMINACLIP Execute a remoção do adaptador.
SLIDINGWINDOW Execute o recorte da janela deslizante, cortando assim que a qualidade média dentro da janela cair abaixo de um limite.
LEADING Corte as bases no início de um read, se estiver abaixo de uma qualidade limite.
TRAILING Corte as bases no final de um read, se estiver abaixo de uma qualidade limite.
CROP Corte a leitura para um comprimento especificado.
HEADCROP Corte o número especificado de bases desde o início do read.
MINLEN Descarta um read inteiro se estiver abaixo de um comprimento especificado.
AVGQUAL Qualidade média esperada do read.
TOPHRED33 Converta índices de qualidade para Phred-33.
TOPHRED64 Converta índices de qualidade para Phred-64.

Uma explicação das opções pro ILUMINACLIP:

ILLUMINACLIP:<fastaWithAdaptersEtc>:<seed mismatches>:<palindrome clip threshold>:<simple clip threshold>

FastaWithAdaptersEtc: especifica o caminho para um arquivo fasta contendo todos os adaptadores, sequências PCR etc. A nomenclatura das várias sequências neste arquivo determina como elas são usadas.

seedMismatches: especifica a contagem máxima de incompatibilidades que ainda permitirá que uma correspondência completa seja realizada

palindromeClipThreshold: especifica quão precisa deve ser a correspondência entre as duas leituras "ligadas por adaptador" para o palíndromo PE leia o alinhamento. Aconselho a colocar qualidades altas.

simpleClipThreshold: especifica quão precisa deve ser a correspondência entre qualquer adaptador e sequência em relação a um read.

4. Exemplo

Quando vou realizar a limpeza dos dados eu sempre tento ser o mais restringente possível. Não é loucura nenhuma colocar o valor mínimo de qualidade em 30. O detalhe aqui é os reads não pareados. Não deixe de utilizá-los em suas montagens e análises posteriores.

Caso você tenha os adaptadores do seu sequenciamento, troque o arquivo TruSeq3-PE-2.fa pelo seu arquivo FASTA de adaptadores.

Ele aceita arquivo .gz como entrada. Isso é ótimo.

trimmomatic PE -threads 4 biblioteca_1.fq.gz biblioteca_2.fq.gz biblioteca_1.Ptrim.fq biblioteca_1.Utrim.fq biblioteca_2.Ptrim.fq biblioteca_2.Utrim.fq ILLUMINACLIP:TruSeq3-PE-2.fa:2:30:10 SLIDINGWINDOW:5:30 LEADING:20 TRAILING:20 MINLEN:100 AVGQUAL:30

Explicação dos parâmetros:

parâmetro explicação
PE tomará um arquivo paired-end como entrada
-threads 4 para usar quatro threads de processamento
biblioteca_1.fastq o primeiro nome de arquivo de entrada (R1)
bibioteca_2.fastq o segundo nome de arquivo de entrada (R2)
biblioteca_1.Ptrim.fq o arquivo de saída para pares sobreviventes do arquivo _1
biblioteca_1.Utrim.fq o arquivo de saída dos reads órfãs do arquivo _1
biblioteca_2.Ptrim.fq o arquivo de saída para pares sobreviventes do arquivo _2
biblioteca_2.Utrim.fq o arquivo de saída dos reads órfãs do arquivo _2
ILLUMINACLIP: TruSeq3-PE-2.fa a para cortar os adaptadores Illumina do arquivo de de adaptadores
SLIDINGWINDOW:5:30 5:30 para usar uma janela deslizante de tamanho 5 que removerá as bases se sua pontuação de phred estiver abaixo de 30
LEADING:20 Corte de qualidade 20 no início do read
TRAILING:20 Corte de qualidade 20 no final do read
MINLEN:100 tamanho mínimo dos reads sobreviventes
AVGQUAL:30 qualidade média de 30 para os reads. Abaixo disso ele é cortado. Altere para no mínimo até 20 caso não sobre muitos.

Verifique se houve mudança na qualidade e a contagem de reads que sobraram.

Citação

Bolger, A. M., Lohse, M., & Usadel, B. (2014). Trimmomatic: A flexible trimmer for Illumina Sequence Data. Bioinformatics, btu170.

Ozsolak, F., & Milos, P. M. (2011). RNA sequencing: advances, challenges and opportunities. Nature Reviews Genetics, 12(2), 87–98. http://doi.org/10.1038/nrg2934