ゲノムデータ取得 — NCBI から一括ダウンロード
https://www.ncbi.nlm.nih.gov/datasets/docs/v2/download-and-install/
rsync
, wget
, curl
などが使えるらしい。 公式には datasets
コマンドが推奨されている。
data_hub から分類群を指定してダウンロード (GUI)
Selected taxa で分類群を指定 (例えば “Aves”, “Primates” など)
Filters でフィルタリング
Assembly を選択して Download
- Download Table は検索結果の表
- Download Package は file type (
gff
,fna
,faa
など) を指定してダウンロード
Select columns からゲノムサイズや Gene Content なども表示させることができる。
コマンドラインで一括ダウンロード
datasets
コマンドを使う方法
https://www.ncbi.nlm.nih.gov/datasets/docs/v2/how-tos/genomes/download-genome/
datasets
コマンドをインストールする:
## Linux
curl -o datasets 'https://ftp.ncbi.nlm.nih.gov/pub/datasets/command-line/v2/linux-amd64/datasets'
chmod +x datasets # 実行権限を付与
## Mac
curl -o datasets 'https://ftp.ncbi.nlm.nih.gov/pub/datasets/command-line/v2/mac/datasets'
chmod +x datasets
accession を指定してダウンロード:
datasets download genome accession GCF_000001405.40 \
--filename human_GRCh38_dataset.zip \
--include genome
--include
でファイルを指定。デフォルトは genomic.fna
。 他に gtf
, gff
, cds
, protein
, rna
など。 none
を指定すると data report だけ取得する。
curl
コマンドを使う方法
curl -OJ https://api.ncbi.nlm.nih.gov/datasets/v2alpha/genome/accession/GCF_000001405.40/download?include_annotation_type=GENOME_FASTA,GENOME_GFF,RNA_FASTA,CDS_FASTA,PROT_FASTA,SEQUENCE_REPORT
unclude_annotation_type=
でほしいファイルを指定する。