suppl - nibb-unix/gitc202402-unix GitHub Wiki

補足:公的データベースからのRNA-Seqデータのダウンロード

GenBankなどの国際塩基配列データベース(INSD) において、NGSのデータは、Sequence Read Archive (SRA)というデータベースに集積されている。これはシークエンサから出力された配列データのセット(ランデータ)を一つのエントリーとして登録したもので、登録された機関に応じて、それぞれ DRR (DDBJ), ERR (EBI), SRR (NCBI)で始まるアクセッション番号がついている。 アクセッション番号が分かっていれば、SRA-toolkitのprefetchコマンドによってデータをダウンロードできる。デフォルトではダウンロードしたファイルは ~/ncbi/public/sra 以下に格納されるが、分かりにくいので、以下では-Oオプションで出力ディレクトリを明示的に指定している。

$ prefetch -O 出力ディレクトリ アクセッション番号

ダウンロードされるデータはSRA形式という独自の形式であるため、FASTQファイルにするためにfastq-dumpコマンド、またはその高速化版のfasterq-dumpコマンドでフォーマットを変換する必要がある。

$ fasterq-dump SRAファイル

fasterq-dumpのオプションにアクセッション番号を指定することで、prefetchを介さずに直接ダウンロードしてFASTQフォーマットに変換することもできる。

$ fasterq-dump アクセッション番号

fasterq-dump と fastq-dump はほぼ同じように使えるが、オプションに若干の違いがある。fasterq-dumpでは、ペアエンドの場合に適切にファイルを分割する --split-3 モードがデフォルトの設定になっているため、オプションとして指定する必要がない。

プロジェクトデータのダウンロード

実際には、NGSデータは一般に一つの研究プロジェクトについて、複数のサンプルから収集した複数のランデータによって構成されるため、プロジェクトのデータをまとめてダウンロードできると便利である。

INSDにおいて、ゲノムやトランスクリプトームなどの大規模な配列データと結びついた研究プロジェクトは、BioProjectデータベースで管理されている。一方、RNA-seqやマイクロアレイによって解析されたトランスクリプトームデータについては、NCBIのGene Expression Omnibus (GEO) のような専用データベースが構築されており、そうしたデータにはGEOを介して登録されているものもある。これらのデータの元論文においては、論文中にBioProjectまたはGEOのアクセッション番号が記載されており、いずれの場合もNCBIのホームページの検索窓にアクセッション番号を入れて検索することができる。

以下、GEOデータベースのエントリGSE59468に含まれる配列データをSRA-toolkitを使ってまとめて取得してみよう。

  1. NCBIのホームページhttps://www.ncbi.nlm.nih.gov/ にアクセスし、検索窓にアクセッション番号GSE59468を入力する。

  2. ヒットしたGEOエントリーが最初に表示されるので、タイトルをクリックしてデータにアクセスする。

  3. GEOエントリーのページが表示される。ここではプロジェクトの情報、サンプルの情報、データ処理の方法などを確認できるほか、Supplementary fileとして処理後のカウントデータが提供されていれば、そのダウンロードもできる。 RNA-seqの配列データのダウンロードは、SRA Run Selector というツールを通じてリストが作成できるようになっている。ページ最下部にRun Selector へのリンクがあるのでこれをクリックする。あるいは(直接リンクがない場合)、SRAへのリンク(SRP044366)をクリックし、表示されたリストの右上にある Send to: をクリックしてからRun Selectorを選択する。

  4. Run Selectorの画面が表示される。ここで、Select と名付けられた2番目のテーブルのDownloadカラムにある"Accession List"をクリックする。ランデータのアクセッション番号のリストがダウンロードされる(ファイル名:SRR_Acc_List.txt)

  5. ダウンロードしたリストファイルを用いて、prefetch コマンドでリスト中のランデータを一度にダウンロードする(--option-fileオプション)。ダウンロードしたSRA形式のファイルは、sraというディレクトリの下に格納する。

    $ prefetch -O sra --option-file SRR_Acc_List.txt
    
  6. ダウンロードしたSRA形式の配列ファイルを、fasterq-dumpコマンドでFASTQフォーマットに変換する。出力結果はfastqというディレクトリに格納する。

    $ fasterq-dump -O fastq sra/*/*.sra