Desenho experimental: custo e exemplo - lmigueel/Bioinformatica GitHub Wiki
1. Sobre
A bioinformática e a análise de dados começam com um bom projeto experimental. Nesta seção, exploraremos os aspectos do projeto experimental que são importantes para uma análise de dados bioinformática bem-sucedida.
Após a conclusão dos estudos sobre design experimental, o pesquisador (a) será capaz de:
- Avaliar as suposições e limitações do domínio biológico e a tecnologia de sequenciamento no que se refere a uma questão de interesse da biologia
- Avaliar qual tecnologia de sequenciamento (LEIA AQUI) fornecerá os melhores resultados para um determinado projeto
- Determinar as limitações que resultam da redução da quantidade de dados coletados para caber em um determinado orçamento.
2. Tipo de sequenciamento
A maioria das pesquisas tem uma permissão estrita de quanto sequenciamento e bioinformática podem ser realizados para responder à questão biológica de interesse. Uma compreensão da terminologia a seguir pode ajudar a determinar o tipo e a quantidade de sequenciamento mais adequado para seu propósito biológico.
-
Comprimento da read: reads curtas (50bp) são difíceis de alinhar em locais únicos em um genoma, portanto, a menos que o experimento seja para smRNA ou tecnologias antigas, é incomum usar reads muito curtas.
-
Paired-end: Ambas as extremidades do fragmento de DNA são sequenciadas. Este tipo de sequenciamento é útil para obter alinhamentos mais exclusivos a um genoma. Para experimentos de RNA-Seq com um genoma conhecido, é recomendado o uso de dados Illumina paired-end de pelo menos 100 bp. Para experimentos de RNA-Seq sem um genoma ou um genoma de qualidade questionável, recomenda-se o uso de dados Illumina paired-end de 150 bp.
-
Single-end: Usado quando o experimento tem fragmentos de DNA mais curtos do que o comprimento da read. Por exemplo, experimentos de smRNA normalmente são feitos com dados de single-end de 50 pb.
-
Réplicas biológicas: É extremamente importante ter pelo menos 3 réplicas e de preferência 5 a 10 réplicas para experimentos de RNA-Seq para determinar a expressão diferencial.
3. Custo
Este exemplo assume que os recursos genômicos já existem para o organismo em estudo. Por exemplo, o genoma é montado, anotado e disponível.
Considere o seguinte experimento onde um organismo com 4 cepas/linhagens/indivíduos é cultivado sob 2 condições (controle e tratado) com 3 pontos no tempo e o experimento possui 8 réplicas biológicas, totalizando um total de 4 cepas x 2 condições x 3 pontos no tempo x 8 réplicas = 192 amostras. O número de cepas, condições e pontos de tempo podem ser alterados por fatores ou combinações de fatores de 24 (ou seja, 2,3,4,6,8,12), dependendo do projeto experimental.
Atualmente, o número máximo de amostras que podem ser indexadas em uma mesma lane para RNA-Seq é 24 e o número máximo de lanes em uma flow cell é 8 (8x24 = 192). Portanto, cada lane pode atuar como uma réplica de todo o experimento. Isso tem a vantagem adicional de evitar efeitos de lane e, como todas as amostras cabem em uma única flow cell, os efeitos do chip também são evitados.
Uma estimativa média para o genoma é de ~ 30.000 genes com um tamanho médio de gene de 1.000 bases.
Segue as recomendações para um Design Experimental por menos de US$ 20.000:
- Genoma montado: sim
- Custo para lanes de sequenciamento: $2.840 (1 lane * $2.840)
- Custo para preparação para a biblioteca: $3.960 (24 bibliotecas * $165)
- Custo total de sequenciamento: $6.800
- Custo para bioinformática: $10.200 (1,5 x custo de sequenciamento)
- Custo total do projeto: $ 17.000
- Tecnologia de sequenciamento: Illumina HiSeq 3000
- Saída de sequenciamento presumida: 300 milhões de fragmentos / lane
- Número de lanes: 1 lane
- Comprimento da read: 150bp
- Número de amostras: 24 (1 cepas x 3 condições 8 repetições)
- Profundidade de cobertura por amostra: 12,5 milhões de fragmentos por lane e em média ~ 416 fragmentos / gene
- Número de réplicas: 8
- Custo e tecnologia a partir de: 2017
Referências
https://bioinformaticsworkbook.org/experimentalDesign/eD_genericExamples.html#gsc.tab=0