Download de dados do SRA (Sequence Read Archive) - lmigueel/Bioinformatica GitHub Wiki
Os dados de Sequence Read Archive (SRA), disponíveis por meio de vários provedores de nuvem e servidores NCBI, são o maior repositório disponível publicamente de dados de sequenciamento de alto rendimento. O arquivo aceita dados de todos os ramos da vida, bem como pesquisas metagenômicas e ambientais.
Saiba mais em: https://www.ncbi.nlm.nih.gov/sra
O importante aqui é que você pode buscar por projetos que disponibilizaram dados, e que possuem um SRA ID. Então, você pode baixar os arquivos diretamente por este ID. Neste caso utilizaremos o **sra toolkit **.
- Repositório:
Repositório do NCBI: Aqui
Vamos supor que você escolheu a versão do Ubunutu x64. Ele possui muitas diferenças em relação ao via conda, pois ele tem o fasterq-dump
, que é mais rápido que o fastq-dump
, e o prefetch
. Vide AQUI o Github do NCBI. Então:
wget --output-document sratoolkit.tar.gz http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-ubuntu64.tar.gz
tar -xzvf sratoolkit.tar.gz
Após extrair o arquivo .tar.gz, basta você adicionar a pasta /bin/ no PATH.
export PATH=$PATH:/directory/sratoolkit/bin
- Via conda (NÃO RECOMENDO - Até atualizarem):
conda install -c bioconda sra-tools
No Github do NCBI existe uma postagem sobre o uso do download direto pelo link. Existem vários motivos pelos quais o uso direto de ascp (ou curl, wget, etc) não é recomendado. O principal motivo é que eles provavelmente recuperarão apenas uma parte dos dados necessários. O comando prefetch sabe como fazer o download do arquivo principal e de quaisquer dados auxiliares necessários para concluí-lo para a operação offline. Outro motivo é que a prefetch sabe onde colocar os downloads de acordo com a configuração do toolkit.
No início de 2019, o SRA está começando a usar formas adicionais de mídia de armazenamento, que são menos úteis em relação ao protocolo fasp do Aspera. Os arquivos armazenados nessas mídias podem não estar acessíveis via ascp e dispararam a criação de alguns problemas para relatar o problema.
Por padrão, execute o fasterq-dump [options] <accession>
no mesmo diretório onde você executou a prefetch <accession>
. Os arquivos fastq serão criados no diretório atual.
Aqui você precisa sabe se os dados são paired-end ou single-end. Caso sejam paired-end, você vai precisar adicionar a flag "--split_files" para que ele quebre em R1 e R2. Caso queira salvar como .gzip para economizar espaço, adicione a flag "--gzip". Para acessar as opções dos argumentos do fastq-dump, basta rodá-lo com a opção -h.
fastq-dump -h
Vamos testar primeiro para um dataset de RNA-Seq de uma fermentação 1G típica industrial após 4 horas. Ele pode ser encontrado aqui: https://www.ncbi.nlm.nih.gov/sra/SRX174768[accn]
fastq-dump -A SRR535787` ou fastq-dump --gzip -A SRR535787
As saídas serão:
SRR535787.fastq
ou SRR535787.fastq.gz
Ou você pode acessar o link do SRA e, posteriormente, acessar a aba "Data access". Nela você terá um link do cloud do SRA. Você executa o download do dado e faz um dump nele. NÃO RECOMENDADO PELO ITEM 3. Como, por exemplo:
wget https://sra-downloadb.be-md.ncbi.nlm.nih.gov/sos1/sra-pub-run-5/SRR535787/SRR535787.2
fastq-dump -A SRR535787.2
Usaremos o prefetch (baixado do link do repositório):
prefetch SRR535787
Você também pode utilizar uma ferramenta mais rápida, que é o fasterq-dump
, mas ele não salva em .gzip
.
fasterq-dump SRR535787
Vamos adotar um dataset de um projeto intitulado "Descoberta de RNAs quiméricos cis-spliced entre genes adjacentes em células da próstata humana". Os dados de expressão dos genes tratado versus controle são paired-end. Acesse o projeto em: https://www.ncbi.nlm.nih.gov/bioproject/PRJNA268024.
A biblioteca que utiizamos tem este SRA ID (SRR1657561), e pode ser acessada com este link: download.
Vamos a sua execução:
fastq-dump --split-files --gzip -A SRR1657561
Os arquivos de saída _1 e _2 serão:
SRR1657561_1.fastq.gz
e SRR1657561_2.fastq.gz
Ao final, após extraí-lo com o gzip, você pode verificar o arquivo com o famoso less, caso esteja utilizando alguma distribuição Linux:
@SRR1657561.1 HWI-ST619:262:C19V8ACXX:4:1101:1974:1974 length=50
AGGGANNNNCCTAGCCNGGTCTCCTGGGAAAGGGAGATGTCAGGATGTTG
+SRR1657561.1 HWI-ST619:262:C19V8ACXX:4:1101:1974:1974 length=50
<<<@@####33@?@?@#2=?@@@@@@@@????????????????>?????
@SRR1657561.2 HWI-ST619:262:C19V8ACXX:4:1101:2169:1982 length=50
CGACCGNNNAGAAAGGNGGTCTTGATTTGGGGTTGGGGATAGACTGGGGC
Usando o prefetch
e o fasterq-dump
:
prefetch SRR1657561
fasterq-dump --split-files SRR1657561
FEITO! o fastq-dump é a principal ferramenta do sra-toolkit.
MAS, utilizem o prefetch e fasterq-dump.