Maneira mais rápida de fazer o download de dados de NGS do NCBI SRA - lmigueel/Bioinformatica GitHub Wiki

1. Sobre

Qual a maneira mais rápida de fazer o download de dados de NGS do NCBI/SRA? Eu testei e trago as explicações.

Vamos comparar duas maneiras de realizar o download: usar o fastq-dump SEM _prefetch _e comparar COM o pré uso do prefetch.

O comando prefetch faz o download do arquivo SRA associado ao SRA ID especificado. E então você pode usar o comando fastq-dump para extrair o conteúdo dele em um arquivo .fastq.gz.

2. Instalação

Caso você queira instalar e testar os comandos, siga a instalação do próprio Github do NCBI

https://github.com/ncbi/sra-tools/wiki/02.-Installing-SRA-Toolkit

3. Análises

Nesta seção realizamos a medição do tempo de execução de cada maneira de realizar o download de dados do SRA.

3.1 prefetch + fastq-dump

Realizei o download do SRA ID SRR13985408 com o uso prévio do prefetch. O tempo foi anotado. A máquina estava sem outros processos no momento, e o nó foi isolado.

Primeiro o prefetch:

time prefetch SRR13985408

Resultado:

real   7m45.771
user   0m38.366s
sys    0m12.292ss

Seguido do fastq-dump:

time fastq-dump --outdir fastq --gzip --skip-technical  --readids --read-filter pass --dumpbase --split-3 --clip SRR13985408/SRR13985408.sra

Resultado:

real    14m54.089
user    14m52.503s
sys     0m4.612ss

Um total de 22 minutos e 39s!

3.2 fastq-dump DIRETO

Se você não fizer o download prévio dos arquivos SRA e apenas executar o comando fastq-dump, o arquivo FASTQ ainda será gerado. O manual do kit de ferramentas SRA em https://www.ncbi.nlm.nih.gov/books/NBK242621/ diz que esta é uma alternativa válida. Esse método é muito mais lento do que primeiro executar o _prefetch _e depois o fastq-dump nos arquivos SRA pré-baixados.

fastq-dump direto:

time fastq-dump --outdir fastq --gzip --skip-technical  --readids --read-filter pass --dumpbase --split-3 --clip SRR13985408

Resultado:

real    34m53.890
user    19m30.943s
sys     0m13.122ss

Temos então um ganho em mais de 50% no tempo de processamento. Antes, com o prefetch+fastq-dump, tinhamos um total de 22 min 39 s, e agora, sem o prefetch, o tempo subiu para 34min 53s. Então, meu conselho é: use o prefetch. Ele criará uma pasta com o nome da RUN no repositório, e do arquivo .sra gerado, extraímos com o fastq-dump.