Limpeza de reads (Trimagem) - lmigueel/Bioinformatica GitHub Wiki
1. Sobre
A trimagem de adaptadores e bases de baixa qualidade é parte importante do pipeline de análise para dados de sequenciamento. Normalmente, depois de isolar e fragmentar sua amostra de RNA, os adaptadores são anexados às extremidades das sequências que são necessárias para o sequenciamento. Esses adaptadores precisam ser removidos dos reads sequenciados antes do processamento downstream. Uma etapa adicional que precisa ser realizada é a remoção de bases de baixa qualidade. Cada base na leitura é atribuída a um valor Q, que é definido como o log negativo da probabilidade de a base ter sido chamada incorretamente. Devido à química de sequenciamento específica da Illumina, o valor Q tende a diminuir (a qualidade piora) em direção à extremidade 3' da leitura. Essas regiões de qualidade inferior podem impactar negativamente as análises downstream, como mapeamento, chamada de mutação, entre outras.
Para realizar a trimagem eu indico o Trimommatic e Cutadapt.
Neste pipeline usaremos o Trimmomatic para filtrar reads de baixa qualidade e cortar bases de baixa qualidade de nossas amostras.
O importante também é checar a qualidade antes e depois da trimagem. Veja o pipeline de qualidade aqui.
Acesse o manual do Trimmomatic aqui.
2. Instalação
Conda:
conda install -c bioconda trimmomatic
A instalação pelo source code pode ser acessada aqui.
3. Opções do Trimmomatic
A opção -h do Trimmomatic nos mostra que devemos primeiro especificar se temos reads paired-end (PE) ou single-end (SE). Em seguida, especificamos qual flag gostaríamos de executar. Por exemplo, você pode especificar threads para indicar o número de processadores em seu computador que deseja que o Trimmomatic use. Na maioria dos casos, o uso de vários threads (processadores) pode ajudar a executar o corte mais rápido. Essas flags não são necessárias, mas podem fornecer mais controle sobre o comando. As flags são seguidas por argumentos posicionais, o que significa que a ordem em que você os especifica é importante. No modo paired-end, Trimmomatic espera os dois arquivos de entrada e, em seguida, os nomes dos arquivos de saída. Esses arquivos são descritos a seguir. Enquanto, no modo single-end, o Trimmomatic espera 1 arquivo como entrada, após o qual você pode inserir as configurações opcionais e, por último, o nome do arquivo de saída.
opção | significado |
---|---|
<inputFile1> | A entrada a ser trimada. Normalmente, o nome do arquivo conterá _1 ou _R1 no nome. |
<inputFile2> | A entrada a ser trimada. Normalmente, o nome do arquivo conterá _2 ou _R2 no nome. |
<outputFile1P> | Arquivo de saída que contém pares sobreviventes do arquivo _1. |
<outputFile1U> | Arquivo de saída que contém reads órfãs do arquivo _1. |
<outputFile2P> | Arquivo de saída que contém pares sobreviventes do arquivo _2. |
<outputFile2U> | Arquivo de saída que contém reads órfãs do arquivo _2. |
A última coisa que Trimmomatic espera ver são os parâmetros de corte:
Argumento | explicação |
---|---|
ILLUMINACLIP | Execute a remoção do adaptador. |
SLIDINGWINDOW | Execute o recorte da janela deslizante, cortando assim que a qualidade média dentro da janela cair abaixo de um limite. |
LEADING | Corte as bases no início de um read, se estiver abaixo de uma qualidade limite. |
TRAILING | Corte as bases no final de um read, se estiver abaixo de uma qualidade limite. |
CROP | Corte a leitura para um comprimento especificado. |
HEADCROP | Corte o número especificado de bases desde o início do read. |
MINLEN | Descarta um read inteiro se estiver abaixo de um comprimento especificado. |
AVGQUAL | Qualidade média esperada do read. |
TOPHRED33 | Converta índices de qualidade para Phred-33. |
TOPHRED64 | Converta índices de qualidade para Phred-64. |
Uma explicação das opções pro ILUMINACLIP:
ILLUMINACLIP:<fastaWithAdaptersEtc>:<seed mismatches>:<palindrome clip threshold>:<simple clip threshold>
FastaWithAdaptersEtc: especifica o caminho para um arquivo fasta contendo todos os adaptadores, sequências PCR etc. A nomenclatura das várias sequências neste arquivo determina como elas são usadas.
seedMismatches: especifica a contagem máxima de incompatibilidades que ainda permitirá que uma correspondência completa seja realizada
palindromeClipThreshold: especifica quão precisa deve ser a correspondência entre as duas leituras "ligadas por adaptador" para o palíndromo PE leia o alinhamento. Aconselho a colocar qualidades altas.
simpleClipThreshold: especifica quão precisa deve ser a correspondência entre qualquer adaptador e sequência em relação a um read.
4. Exemplo
Quando vou realizar a limpeza dos dados eu sempre tento ser o mais restringente possível. Não é loucura nenhuma colocar o valor mínimo de qualidade em 30. O detalhe aqui é os reads não pareados. Não deixe de utilizá-los em suas montagens e análises posteriores.
Caso você tenha os adaptadores do seu sequenciamento, troque o arquivo TruSeq3-PE-2.fa pelo seu arquivo FASTA de adaptadores.
Ele aceita arquivo .gz como entrada. Isso é ótimo.
trimmomatic PE -threads 4 biblioteca_1.fq.gz biblioteca_2.fq.gz biblioteca_1.Ptrim.fq biblioteca_1.Utrim.fq biblioteca_2.Ptrim.fq biblioteca_2.Utrim.fq ILLUMINACLIP:TruSeq3-PE-2.fa:2:30:10 SLIDINGWINDOW:5:30 LEADING:20 TRAILING:20 MINLEN:100 AVGQUAL:30
Explicação dos parâmetros:
parâmetro | explicação |
---|---|
PE | tomará um arquivo paired-end como entrada |
-threads 4 | para usar quatro threads de processamento |
biblioteca_1.fastq | o primeiro nome de arquivo de entrada (R1) |
bibioteca_2.fastq | o segundo nome de arquivo de entrada (R2) |
biblioteca_1.Ptrim.fq | o arquivo de saída para pares sobreviventes do arquivo _1 |
biblioteca_1.Utrim.fq | o arquivo de saída dos reads órfãs do arquivo _1 |
biblioteca_2.Ptrim.fq | o arquivo de saída para pares sobreviventes do arquivo _2 |
biblioteca_2.Utrim.fq | o arquivo de saída dos reads órfãs do arquivo _2 |
ILLUMINACLIP: | TruSeq3-PE-2.fa a para cortar os adaptadores Illumina do arquivo de de adaptadores |
SLIDINGWINDOW:5:30 | 5:30 para usar uma janela deslizante de tamanho 5 que removerá as bases se sua pontuação de phred estiver abaixo de 30 |
LEADING:20 | Corte de qualidade 20 no início do read |
TRAILING:20 | Corte de qualidade 20 no final do read |
MINLEN:100 | tamanho mínimo dos reads sobreviventes |
AVGQUAL:30 | qualidade média de 30 para os reads. Abaixo disso ele é cortado. Altere para no mínimo até 20 caso não sobre muitos. |
Verifique se houve mudança na qualidade e a contagem de reads que sobraram.
Citação
Bolger, A. M., Lohse, M., & Usadel, B. (2014). Trimmomatic: A flexible trimmer for Illumina Sequence Data. Bioinformatics, btu170.
Ozsolak, F., & Milos, P. M. (2011). RNA sequencing: advances, challenges and opportunities. Nature Reviews Genetics, 12(2), 87–98. http://doi.org/10.1038/nrg2934