O que são: Reads, Contigs, Scaffolds e Cromossomos - lmigueel/Bioinformatica GitHub Wiki
1. Sobre
O que é uma base?
Existem quatro bases comuns na sequência de DNA: Adenina, Guanina, Citosina e Timina. O uracila é encontrado no RNA no lugar da tiamina.
Imagem retirada da Wikipedia onde mais informações sobre nucleotídeos também podem ser encontradas.
O que é uma read?
Um read é uma sequência de bases nitrogenadas. Aqui está um exemplo de um read com 50 bases de comprimento.
TTAACCTTGGTTTTGAACTTGAACACTTAGGGGATTGAAGATTCAACAACCCTAAAGCTTGGGGTAAAAC
O que é um contig?
Um contig é a sequência consenso gerada pelo alinhamento das leituras.
Read TTTCATCTAG
Read CATCTAGCGG
Read AGCGGTTACG
Read GGTTACGAAATCG
Contig TTTCATCTAGCGGTTACGAAATCG
A última linha é o consenso das reads alinhados. Chamamos essa sequência de contig consenso.
O que é um scaffold?
Um scaffold é um conjunto de contigs que foram ordenados e orientados com base no mate pair ou informações de longas.
contigNNNNNNNNNNNNNgitnocNNNNNNNNcontigNNNNNNNNcontigNNNNgitnoc
Na linha acima
- contig é uma sequência de bases (ATC ou G)
- N é uma base desconhecida
- gitnoc é a palavra contig escrita ao contrário para representar o complemento reverso de um contig
O que é um cromossomo?
Os cromossomos são as maiores moléculas de DNA em uma célula. Os scaffolds podem ser ordenados e orientados usando um mapa genético ou dados Hi-C em grupos de ligação ou cromossomos. O objetivo final de um projeto de montagem de genoma é alocar os reads em cromossomos que representem um indivíduo real. A maioria dos conjuntos cromossômicos produzidos hoje não possuem fases ou podem representar vários indivíduos.