Desenho experimental: custo e exemplo - lmigueel/Bioinformatica GitHub Wiki

1. Sobre

A bioinformática e a análise de dados começam com um bom projeto experimental. Nesta seção, exploraremos os aspectos do projeto experimental que são importantes para uma análise de dados bioinformática bem-sucedida.

Após a conclusão dos estudos sobre design experimental, o pesquisador (a) será capaz de:

  • Avaliar as suposições e limitações do domínio biológico e a tecnologia de sequenciamento no que se refere a uma questão de interesse da biologia
  • Avaliar qual tecnologia de sequenciamento (LEIA AQUI) fornecerá os melhores resultados para um determinado projeto
  • Determinar as limitações que resultam da redução da quantidade de dados coletados para caber em um determinado orçamento.

2. Tipo de sequenciamento

A maioria das pesquisas tem uma permissão estrita de quanto sequenciamento e bioinformática podem ser realizados para responder à questão biológica de interesse. Uma compreensão da terminologia a seguir pode ajudar a determinar o tipo e a quantidade de sequenciamento mais adequado para seu propósito biológico.

  • Comprimento da read: reads curtas (50bp) são difíceis de alinhar em locais únicos em um genoma, portanto, a menos que o experimento seja para smRNA ou tecnologias antigas, é incomum usar reads muito curtas.

  • Paired-end: Ambas as extremidades do fragmento de DNA são sequenciadas. Este tipo de sequenciamento é útil para obter alinhamentos mais exclusivos a um genoma. Para experimentos de RNA-Seq com um genoma conhecido, é recomendado o uso de dados Illumina paired-end de pelo menos 100 bp. Para experimentos de RNA-Seq sem um genoma ou um genoma de qualidade questionável, recomenda-se o uso de dados Illumina paired-end de 150 bp.

  • Single-end: Usado quando o experimento tem fragmentos de DNA mais curtos do que o comprimento da read. Por exemplo, experimentos de smRNA normalmente são feitos com dados de single-end de 50 pb.

  • Réplicas biológicas: É extremamente importante ter pelo menos 3 réplicas e de preferência 5 a 10 réplicas para experimentos de RNA-Seq para determinar a expressão diferencial.

3. Custo

Este exemplo assume que os recursos genômicos já existem para o organismo em estudo. Por exemplo, o genoma é montado, anotado e disponível.

Considere o seguinte experimento onde um organismo com 4 cepas/linhagens/indivíduos é cultivado sob 2 condições (controle e tratado) com 3 pontos no tempo e o experimento possui 8 réplicas biológicas, totalizando um total de 4 cepas x 2 condições x 3 pontos no tempo x 8 réplicas = 192 amostras. O número de cepas, condições e pontos de tempo podem ser alterados por fatores ou combinações de fatores de 24 (ou seja, 2,3,4,6,8,12), dependendo do projeto experimental.

Atualmente, o número máximo de amostras que podem ser indexadas em uma mesma lane para RNA-Seq é 24 e o número máximo de lanes em uma flow cell é 8 (8x24 = 192). Portanto, cada lane pode atuar como uma réplica de todo o experimento. Isso tem a vantagem adicional de evitar efeitos de lane e, como todas as amostras cabem em uma única flow cell, os efeitos do chip também são evitados.

Uma estimativa média para o genoma é de ~ 30.000 genes com um tamanho médio de gene de 1.000 bases.

Segue as recomendações para um Design Experimental por menos de US$ 20.000:

  • Genoma montado: sim
  • Custo para lanes de sequenciamento: $2.840 (1 lane * $2.840)
  • Custo para preparação para a biblioteca: $3.960 (24 bibliotecas * $165)
  • Custo total de sequenciamento: $6.800
  • Custo para bioinformática: $10.200 (1,5 x custo de sequenciamento)
  • Custo total do projeto: $ 17.000
  • Tecnologia de sequenciamento: Illumina HiSeq 3000
  • Saída de sequenciamento presumida: 300 milhões de fragmentos / lane
  • Número de lanes: 1 lane
  • Comprimento da read: 150bp
  • Número de amostras: 24 (1 cepas x 3 condições 8 repetições)
  • Profundidade de cobertura por amostra: 12,5 milhões de fragmentos por lane e em média ~ 416 fragmentos / gene
  • Número de réplicas: 8
  • Custo e tecnologia a partir de: 2017

Referências

https://bioinformaticsworkbook.org/experimentalDesign/eD_genericExamples.html#gsc.tab=0