Download de dados do SRA (Sequence Read Archive) - lmigueel/Bioinformatica GitHub Wiki

1. Sobre

Os dados de Sequence Read Archive (SRA), disponíveis por meio de vários provedores de nuvem e servidores NCBI, são o maior repositório disponível publicamente de dados de sequenciamento de alto rendimento. O arquivo aceita dados de todos os ramos da vida, bem como pesquisas metagenômicas e ambientais.

Saiba mais em: https://www.ncbi.nlm.nih.gov/sra

O importante aqui é que você pode buscar por projetos que disponibilizaram dados, e que possuem um SRA ID. Então, você pode baixar os arquivos diretamente por este ID. Neste caso utilizaremos o **sra toolkit **.

2. Instalação

  • Repositório:

Repositório do NCBI: Aqui

Vamos supor que você escolheu a versão do Ubunutu x64. Ele possui muitas diferenças em relação ao via conda, pois ele tem o fasterq-dump, que é mais rápido que o fastq-dump, e o prefetch. Vide AQUI o Github do NCBI. Então:

wget --output-document sratoolkit.tar.gz http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-ubuntu64.tar.gz

tar -xzvf sratoolkit.tar.gz

Após extrair o arquivo .tar.gz, basta você adicionar a pasta /bin/ no PATH.

export PATH=$PATH:/directory/sratoolkit/bin
  • Via conda (NÃO RECOMENDO - Até atualizarem):

conda install -c bioconda sra-tools

3. Evitar o uso do download direto do link

No Github do NCBI existe uma postagem sobre o uso do download direto pelo link. Existem vários motivos pelos quais o uso direto de ascp (ou curl, wget, etc) não é recomendado. O principal motivo é que eles provavelmente recuperarão apenas uma parte dos dados necessários. O comando prefetch sabe como fazer o download do arquivo principal e de quaisquer dados auxiliares necessários para concluí-lo para a operação offline. Outro motivo é que a prefetch sabe onde colocar os downloads de acordo com a configuração do toolkit.

No início de 2019, o SRA está começando a usar formas adicionais de mídia de armazenamento, que são menos úteis em relação ao protocolo fasp do Aspera. Os arquivos armazenados nessas mídias podem não estar acessíveis via ascp e dispararam a criação de alguns problemas para relatar o problema.

4. Testando

Por padrão, execute o fasterq-dump [options] <accession> no mesmo diretório onde você executou a prefetch <accession>. Os arquivos fastq serão criados no diretório atual.

Aqui você precisa sabe se os dados são paired-end ou single-end. Caso sejam paired-end, você vai precisar adicionar a flag "--split_files" para que ele quebre em R1 e R2. Caso queira salvar como .gzip para economizar espaço, adicione a flag "--gzip". Para acessar as opções dos argumentos do fastq-dump, basta rodá-lo com a opção -h.

fastq-dump -h

Vamos testar primeiro para um dataset de RNA-Seq de uma fermentação 1G típica industrial após 4 horas. Ele pode ser encontrado aqui: https://www.ncbi.nlm.nih.gov/sra/SRX174768[accn]

4.1 Download do dado da biblioteca single-end:

fastq-dump -A SRR535787`   ou   fastq-dump --gzip -A SRR535787

As saídas serão:

SRR535787.fastq ou SRR535787.fastq.gz

Ou você pode acessar o link do SRA e, posteriormente, acessar a aba "Data access". Nela você terá um link do cloud do SRA. Você executa o download do dado e faz um dump nele. NÃO RECOMENDADO PELO ITEM 3. Como, por exemplo:

wget https://sra-downloadb.be-md.ncbi.nlm.nih.gov/sos1/sra-pub-run-5/SRR535787/SRR535787.2

fastq-dump -A SRR535787.2

Usaremos o prefetch (baixado do link do repositório):

prefetch SRR535787

Você também pode utilizar uma ferramenta mais rápida, que é o fasterq-dump, mas ele não salva em .gzip.

fasterq-dump SRR535787

4.2 Download do dado da biblioteca paired-end:

Vamos adotar um dataset de um projeto intitulado "Descoberta de RNAs quiméricos cis-spliced entre genes adjacentes em células da próstata humana". Os dados de expressão dos genes tratado versus controle são paired-end. Acesse o projeto em: https://www.ncbi.nlm.nih.gov/bioproject/PRJNA268024.

A biblioteca que utiizamos tem este SRA ID (SRR1657561), e pode ser acessada com este link: download.

Vamos a sua execução:

fastq-dump --split-files --gzip -A SRR1657561

Os arquivos de saída _1 e _2 serão:

SRR1657561_1.fastq.gz e SRR1657561_2.fastq.gz

Ao final, após extraí-lo com o gzip, você pode verificar o arquivo com o famoso less, caso esteja utilizando alguma distribuição Linux:

@SRR1657561.1 HWI-ST619:262:C19V8ACXX:4:1101:1974:1974 length=50

AGGGANNNNCCTAGCCNGGTCTCCTGGGAAAGGGAGATGTCAGGATGTTG

+SRR1657561.1 HWI-ST619:262:C19V8ACXX:4:1101:1974:1974 length=50

<<<@@####33@?@?@#2=?@@@@@@@@????????????????>?????

@SRR1657561.2 HWI-ST619:262:C19V8ACXX:4:1101:2169:1982 length=50

CGACCGNNNAGAAAGGNGGTCTTGATTTGGGGTTGGGGATAGACTGGGGC

Usando o prefetch e o fasterq-dump:

prefetch SRR1657561

fasterq-dump --split-files SRR1657561

FEITO! o fastq-dump é a principal ferramenta do sra-toolkit.

MAS, utilizem o prefetch e fasterq-dump.

⚠️ **GitHub.com Fallback** ⚠️