ゲノムデータ取得 — NCBI から一括ダウンロード

https://www.ncbi.nlm.nih.gov/datasets/docs/v2/download-and-install/

rsync, wget, curl などが使えるらしい。 公式には datasets コマンドが推奨されている。

data_hub から分類群を指定してダウンロード (GUI)

  1. https://www.ncbi.nlm.nih.gov/data-hub/genome/ にアクセス

  2. Selected taxa で分類群を指定 (例えば “Aves”, “Primates” など)

  3. Filters でフィルタリング

  4. Assembly を選択して Download

    • Download Table は検索結果の表
    • Download Package は file type (gff, fna, faa など) を指定してダウンロード
  5. Select columns からゲノムサイズや Gene Content なども表示させることができる。

コマンドラインで一括ダウンロード

datasets コマンドを使う方法

https://www.ncbi.nlm.nih.gov/datasets/docs/v2/how-tos/genomes/download-genome/

datasets コマンドをインストールする:

## Linux
curl -o datasets 'https://ftp.ncbi.nlm.nih.gov/pub/datasets/command-line/v2/linux-amd64/datasets'
chmod +x datasets   # 実行権限を付与

## Mac
curl -o datasets 'https://ftp.ncbi.nlm.nih.gov/pub/datasets/command-line/v2/mac/datasets'
chmod +x datasets

accession を指定してダウンロード:

datasets download genome accession GCF_000001405.40 \
    --filename human_GRCh38_dataset.zip \
    --include genome

--include でファイルを指定。デフォルトは genomic.fna。 他に gtf, gff, cds, protein, rna など。 none を指定すると data report だけ取得する。

curl コマンドを使う方法

curl -OJ https://api.ncbi.nlm.nih.gov/datasets/v2alpha/genome/accession/GCF_000001405.40/download?include_annotation_type=GENOME_FASTA,GENOME_GFF,RNA_FASTA,CDS_FASTA,PROT_FASTA,SEQUENCE_REPORT

unclude_annotation_type= でほしいファイルを指定する。