Maneira mais rápida de fazer o download de dados de NGS do NCBI SRA - lmigueel/Bioinformatica GitHub Wiki
1. Sobre
Qual a maneira mais rápida de fazer o download de dados de NGS do NCBI/SRA? Eu testei e trago as explicações.
Vamos comparar duas maneiras de realizar o download: usar o fastq-dump SEM _prefetch _e comparar COM o pré uso do prefetch.
O comando prefetch faz o download do arquivo SRA associado ao SRA ID especificado. E então você pode usar o comando fastq-dump para extrair o conteúdo dele em um arquivo .fastq.gz.
2. Instalação
Caso você queira instalar e testar os comandos, siga a instalação do próprio Github do NCBI
https://github.com/ncbi/sra-tools/wiki/02.-Installing-SRA-Toolkit
3. Análises
Nesta seção realizamos a medição do tempo de execução de cada maneira de realizar o download de dados do SRA.
3.1 prefetch + fastq-dump
Realizei o download do SRA ID SRR13985408 com o uso prévio do prefetch. O tempo foi anotado. A máquina estava sem outros processos no momento, e o nó foi isolado.
Primeiro o prefetch:
time prefetch SRR13985408
Resultado:
real 7m45.771
user 0m38.366s
sys 0m12.292ss
Seguido do fastq-dump:
time fastq-dump --outdir fastq --gzip --skip-technical --readids --read-filter pass --dumpbase --split-3 --clip SRR13985408/SRR13985408.sra
Resultado:
real 14m54.089
user 14m52.503s
sys 0m4.612ss
Um total de 22 minutos e 39s!
3.2 fastq-dump DIRETO
Se você não fizer o download prévio dos arquivos SRA e apenas executar o comando fastq-dump, o arquivo FASTQ ainda será gerado. O manual do kit de ferramentas SRA em https://www.ncbi.nlm.nih.gov/books/NBK242621/ diz que esta é uma alternativa válida. Esse método é muito mais lento do que primeiro executar o _prefetch _e depois o fastq-dump nos arquivos SRA pré-baixados.
fastq-dump direto:
time fastq-dump --outdir fastq --gzip --skip-technical --readids --read-filter pass --dumpbase --split-3 --clip SRR13985408
Resultado:
real 34m53.890
user 19m30.943s
sys 0m13.122ss
Temos então um ganho em mais de 50% no tempo de processamento. Antes, com o prefetch+fastq-dump, tinhamos um total de 22 min 39 s, e agora, sem o prefetch, o tempo subiu para 34min 53s. Então, meu conselho é: use o prefetch. Ele criará uma pasta com o nome da RUN no repositório, e do arquivo .sra gerado, extraímos com o fastq-dump.