ゲノムデータ取得

NCBI から GUI でダウンロード

  1. https://www.ncbi.nlm.nih.gov/data-hub/genome/ にアクセス

  2. 検索窓に分類群を指定 (例えば “Aves”, “Primates” など)

  3. “Filters” でフィルタリング

  4. 下に検索と Filter にヒットするゲノム一覧が表示される。 “Assembly” を選択して Download

  5. Select columns からゲノムサイズや Gene Content なども表示させることができる。

datasets コマンドを用いたダウンロード

datasets は NCBI が提供するゲノム配列、遺伝子配列、オーソログなどをダウンロードするためのコマンドラインツール。

rsync, wget, curl なども使えるらしいが、 公式には datasets コマンドが推奨されている。

Installation

https://www.ncbi.nlm.nih.gov/datasets/docs/v2/download-and-install/

上記のダウンロードページから実行バイナリを取得してパスを通す。 conda や curl を使ってもいい:

# exanmple for Linux
curl -o datasets 'https://ftp.ncbi.nlm.nih.gov/pub/datasets/command-line/v2/linux-amd64/datasets'
chmod +x datasets

Usage

例えば Assembly accession を指定して全ゲノムの FASTA ファイルを取得するには:

datasets download genome accession GCF_000001405.40 \
    --filename human_GRCh38_dataset.zip \
    --include genome

--include でほしいファイルを指定する。 デフォルトは genomic.fnaのみで、他に gtf, gff, cds, protein, rna など。 none を指定すると data report だけ取得する。

遺伝研で Aspera を用いて FASTQ をダウンロード

Aspera は ENA から SRA のデータを遺伝研スパコンに取り寄せるときに使える通信プロトコルのひとつ。

prefetch + fasterq-dump と違って gzip 済みファイルを直接取得できる。

Install Apptainer SIF

(おそらく Aspera が対応しているプラットフォームが Cent OS なので?) 遺伝研スパコンでは、Apptainer のファイルイメージを取得して使う。

https://github.com/nig-sc/apptainer_ascp3

SIF をダウンロードする:

mkdir sif && mv sif
wget https://raw.githubusercontent.com/nig-sc/docker_ascp3/main/ascp4_ubuntu22.sif

インストールコマンドを走らせる:

apptainer exec ascp3_ubuntu22.sif bash /usr/local/src/ibm-aspera-connect-3.9.5.172984-linux-g2.12-64.sh

ちゃんと入ったか確認:

apptainer exec ascp3_ubuntu22.sif $HOME/.aspera/connect/bin/ascp --help

ちなみに version 4 の SIF もあるが、 実行ファイルが ~/.aspera/connect/bin/ascp で共通なので、 両方の SIF があっても使えるのは最後にインストールコマンドを走らせた方だけ。

あと、ascp4 の方には Authentication file っぽい ~/.aspera/connect/etc/asperaweb_id_dsa.openssh がない?

Usage

ENA のブラウザで Run alias や Project ID で検索する。 “Show Column Selection” から “fastq_aspera” にチェックを入れると Aspera 用のリンクを表示できる。

Download report を JSON や TSV でダウウンロードして、 リンクを指定して下記のように FASTQ をダウウンロードする:

apptainer exec ./ascp3_ubuntu22.sif ~/.aspera/connect/bin/ascp \
  -P33001 \
  -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh \
  era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR144/004/SRR1448774/SRR1448774.fastq.gz \
  /path/to/download_dir/