Formato FASTQ - lmigueel/Bioinformatica GitHub Wiki

1. Sobre

O formato FASTQ é um formato baseado em texto para armazenar uma sequência biológica (geralmente sequência de nucleotídeos) e suas pontuações de qualidade correspondentes. Tanto a letra de sequência quanto a pontuação de qualidade são codificadas com um único caractere ASCII para abreviar.

2. Formato

Um arquivo FASTQ normalmente usa quatro linhas por sequência.

  • A linha 1 começa com um caractere '@' e é seguida por um identificador de sequência e uma descrição opcional (como uma linha de título FASTA).
  • A linha 2 é a sequência de letras brutas.
  • A linha 3 começa com um caractere '+' e é opcionalmente seguida pelo mesmo identificador de sequência (e qualquer descrição) novamente.
  • A linha 4 codifica os valores de qualidade para a sequência na linha 2 e deve conter o mesmo número de símbolos que letras na sequência.

Um arquivo FASTQ contendo uma única sequência pode ter a seguinte aparência:

@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

3. Identificador de sequência Illumina

As sequências do software Illumina usam um identificador sistemático:

@HWUSI-EAS100R:6:73:941:1973#0/1
HWUSI-EAS100R significado
6 flowcell lane
73 número do ladrilho dentro da flowcell lane
941 'x' coordenada do cluster dentro do bloco
1973 'y'-coordenada do cluster dentro do bloco
#0 número do índice para uma amostra multiplexada (0 para nenhuma indexação)
/1 o membro de um par, / 1 ou / 2 (apenas reads paired-end)

4. Qualidade

Um valor de qualidade Q é um mapeamento inteiro de p (ou seja, a probabilidade de que a base call correspondente esteja incorreta). Duas equações diferentes estão em uso. A primeira é a variante Sanger padrão para avaliar a confiabilidade de uma base, também conhecida como pontuação de qualidade Phred:

O pipeline Solexa (ou seja, o software entregue com o Illumina Genome Analyzer) usou anteriormente um mapeamento diferente, codificando as probabilidades p / (1-p) em vez da probabilidade p:

Embora ambos os mapeamentos sejam assintoticamente idênticos em valores de qualidade mais altos, eles diferem em níveis de qualidade mais baixos (ou seja, aproximadamente p> 0.05, ou equivalentemente, Q <13).

Relação entre Q e p usando as equações de Sanger (vermelho) e Solexa (preto) (descritas acima). A linha pontilhada vertical indica p = 0,05, ou equivalentemente, Q ≈ 13.

Referências

https://en.wikipedia.org/wiki/FASTQ_format