O que são: Reads, Contigs, Scaffolds e Cromossomos - lmigueel/Bioinformatica GitHub Wiki

1. Sobre

O que é uma base?

Existem quatro bases comuns na sequência de DNA: Adenina, Guanina, Citosina e Timina. O uracila é encontrado no RNA no lugar da tiamina.

Imagem retirada da Wikipedia onde mais informações sobre nucleotídeos também podem ser encontradas.

O que é uma read?

Um read é uma sequência de bases nitrogenadas. Aqui está um exemplo de um read com 50 bases de comprimento.

TTAACCTTGGTTTTGAACTTGAACACTTAGGGGATTGAAGATTCAACAACCCTAAAGCTTGGGGTAAAAC

O que é um contig?

Um contig é a sequência consenso gerada pelo alinhamento das leituras.

Read    TTTCATCTAG
Read       CATCTAGCGG
Read            AGCGGTTACG
Read               GGTTACGAAATCG
Contig  TTTCATCTAGCGGTTACGAAATCG

A última linha é o consenso das reads alinhados. Chamamos essa sequência de contig consenso.

O que é um scaffold?

Um scaffold é um conjunto de contigs que foram ordenados e orientados com base no mate pair ou informações de longas.

contigNNNNNNNNNNNNNgitnocNNNNNNNNcontigNNNNNNNNcontigNNNNgitnoc

Na linha acima

  • contig é uma sequência de bases (ATC ou G)
  • N é uma base desconhecida
  • gitnoc é a palavra contig escrita ao contrário para representar o complemento reverso de um contig

O que é um cromossomo?

Os cromossomos são as maiores moléculas de DNA em uma célula. Os scaffolds podem ser ordenados e orientados usando um mapa genético ou dados Hi-C em grupos de ligação ou cromossomos. O objetivo final de um projeto de montagem de genoma é alocar os reads em cromossomos que representem um indivíduo real. A maioria dos conjuntos cromossômicos produzidos hoje não possuem fases ou podem representar vários indivíduos.