Formato FASTQ - lmigueel/Bioinformatica GitHub Wiki
1. Sobre
O formato FASTQ é um formato baseado em texto para armazenar uma sequência biológica (geralmente sequência de nucleotídeos) e suas pontuações de qualidade correspondentes. Tanto a letra de sequência quanto a pontuação de qualidade são codificadas com um único caractere ASCII para abreviar.
2. Formato
Um arquivo FASTQ normalmente usa quatro linhas por sequência.
- A linha 1 começa com um caractere '@' e é seguida por um identificador de sequência e uma descrição opcional (como uma linha de título FASTA).
- A linha 2 é a sequência de letras brutas.
- A linha 3 começa com um caractere '+' e é opcionalmente seguida pelo mesmo identificador de sequência (e qualquer descrição) novamente.
- A linha 4 codifica os valores de qualidade para a sequência na linha 2 e deve conter o mesmo número de símbolos que letras na sequência.
Um arquivo FASTQ contendo uma única sequência pode ter a seguinte aparência:
@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65
3. Identificador de sequência Illumina
As sequências do software Illumina usam um identificador sistemático:
@HWUSI-EAS100R:6:73:941:1973#0/1
HWUSI-EAS100R | significado |
---|---|
6 | flowcell lane |
73 | número do ladrilho dentro da flowcell lane |
941 | 'x' coordenada do cluster dentro do bloco |
1973 | 'y'-coordenada do cluster dentro do bloco |
#0 | número do índice para uma amostra multiplexada (0 para nenhuma indexação) |
/1 | o membro de um par, / 1 ou / 2 (apenas reads paired-end) |
4. Qualidade
Um valor de qualidade Q é um mapeamento inteiro de p (ou seja, a probabilidade de que a base call correspondente esteja incorreta). Duas equações diferentes estão em uso. A primeira é a variante Sanger padrão para avaliar a confiabilidade de uma base, também conhecida como pontuação de qualidade Phred:
O pipeline Solexa (ou seja, o software entregue com o Illumina Genome Analyzer) usou anteriormente um mapeamento diferente, codificando as probabilidades p / (1-p) em vez da probabilidade p:
Embora ambos os mapeamentos sejam assintoticamente idênticos em valores de qualidade mais altos, eles diferem em níveis de qualidade mais baixos (ou seja, aproximadamente p> 0.05, ou equivalentemente, Q <13).
Relação entre Q e p usando as equações de Sanger (vermelho) e Solexa (preto) (descritas acima). A linha pontilhada vertical indica p = 0,05, ou equivalentemente, Q ≈ 13.