ゲノムデータ取得
NCBI から GUI でダウンロード
検索窓に分類群を指定 (例えば “Aves”, “Primates” など)
“Filters” でフィルタリング
下に検索と Filter にヒットするゲノム一覧が表示される。 “Assembly” を選択して Download
Select columns からゲノムサイズや Gene Content なども表示させることができる。
datasets コマンドを用いたダウンロード
datasets は NCBI が提供するゲノム配列、遺伝子配列、オーソログなどをダウンロードするためのコマンドラインツール。
rsync, wget, curl なども使えるらしいが、 公式には datasets コマンドが推奨されている。
Installation
https://www.ncbi.nlm.nih.gov/datasets/docs/v2/download-and-install/
上記のダウンロードページから実行バイナリを取得してパスを通す。 conda や curl を使ってもいい:
# exanmple for Linux
curl -o datasets 'https://ftp.ncbi.nlm.nih.gov/pub/datasets/command-line/v2/linux-amd64/datasets'
chmod +x datasetsUsage
- https://www.ncbi.nlm.nih.gov/datasets/docs/v2/how-tos/
- https://www.ncbi.nlm.nih.gov/datasets/docs/v2/tutorials/
例えば Assembly accession を指定して全ゲノムの FASTA ファイルを取得するには:
datasets download genome accession GCF_000001405.40 \
--filename human_GRCh38_dataset.zip \
--include genome--include でほしいファイルを指定する。 デフォルトは genomic.fnaのみで、他に gtf, gff, cds, protein, rna など。 none を指定すると data report だけ取得する。
遺伝研で Aspera を用いて FASTQ をダウンロード
- https://sc.ddbj.nig.ac.jp/guides/software/CopyTool/aspera_client/
- https://sc.ddbj.nig.ac.jp/guides/using_general_analysis_division/ga_data_transfer/#usage-aspera
- https://www.ebi.ac.uk/ena/browser/downloading-data
- https://ena-docs.readthedocs.io/en/latest/retrieval/file-download.html#using-aspera
- https://github.com/IBM/aspera-cli
Aspera は ENA から SRA のデータを遺伝研スパコンに取り寄せるときに使える通信プロトコルのひとつ。
prefetch + fasterq-dump と違って gzip 済みファイルを直接取得できる。
Install Apptainer SIF
(おそらく Aspera が対応しているプラットフォームが Cent OS なので?) 遺伝研スパコンでは、Apptainer のファイルイメージを取得して使う。
https://github.com/nig-sc/apptainer_ascp3
SIF をダウンロードする:
mkdir sif && mv sif
wget https://raw.githubusercontent.com/nig-sc/docker_ascp3/main/ascp4_ubuntu22.sifインストールコマンドを走らせる:
apptainer exec ascp3_ubuntu22.sif bash /usr/local/src/ibm-aspera-connect-3.9.5.172984-linux-g2.12-64.shちゃんと入ったか確認:
apptainer exec ascp3_ubuntu22.sif $HOME/.aspera/connect/bin/ascp --helpちなみに version 4 の SIF もあるが、 実行ファイルが ~/.aspera/connect/bin/ascp で共通なので、 両方の SIF があっても使えるのは最後にインストールコマンドを走らせた方だけ。
あと、ascp4 の方には Authentication file っぽい ~/.aspera/connect/etc/asperaweb_id_dsa.openssh がない?
Usage
ENA のブラウザで Run alias や Project ID で検索する。 “Show Column Selection” から “fastq_aspera” にチェックを入れると Aspera 用のリンクを表示できる。
Download report を JSON や TSV でダウウンロードして、 リンクを指定して下記のように FASTQ をダウウンロードする:
apptainer exec ./ascp3_ubuntu22.sif ~/.aspera/connect/bin/ascp \
-P33001 \
-i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh \
era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR144/004/SRR1448774/SRR1448774.fastq.gz \
/path/to/download_dir/