ゲノムデータ取得 — NCBI から一括ダウンロード
https://www.ncbi.nlm.nih.gov/datasets/docs/v2/download-and-install/
rsync, wget, curl などが使えるらしい。 公式には datasets コマンドが推奨されている。
data_hub から分類群を指定してダウンロード (GUI)
Selected taxa で分類群を指定 (例えば “Aves”, “Primates” など)
Filters でフィルタリング
Assembly を選択して Download
- Download Table は検索結果の表
- Download Package は file type (
gff,fna,faaなど) を指定してダウンロード
Select columns からゲノムサイズや Gene Content なども表示させることができる。
コマンドラインで一括ダウンロード
datasets コマンドを使う方法
https://www.ncbi.nlm.nih.gov/datasets/docs/v2/how-tos/genomes/download-genome/
datasets コマンドをインストールする:
## Linux
curl -o datasets 'https://ftp.ncbi.nlm.nih.gov/pub/datasets/command-line/v2/linux-amd64/datasets'
chmod +x datasets # 実行権限を付与
## Mac
curl -o datasets 'https://ftp.ncbi.nlm.nih.gov/pub/datasets/command-line/v2/mac/datasets'
chmod +x datasetsaccession を指定してダウンロード:
datasets download genome accession GCF_000001405.40 \
--filename human_GRCh38_dataset.zip \
--include genome--include でファイルを指定。デフォルトは genomic.fna。 他に gtf, gff, cds, protein, rna など。 none を指定すると data report だけ取得する。
curl コマンドを使う方法
curl -OJ https://api.ncbi.nlm.nih.gov/datasets/v2alpha/genome/accession/GCF_000001405.40/download?include_annotation_type=GENOME_FASTA,GENOME_GFF,RNA_FASTA,CDS_FASTA,PROT_FASTA,SEQUENCE_REPORTunclude_annotation_type= でほしいファイルを指定する。