全ゲノム解析ハンズオン — スモールデータで理解する SNP 解析の流れ

概要

目的
スモールデータを使って、全ゲノム解析のパイプラインを一通り (公開データ取得から SNP アノテーションまで) 体験する。 その際、各解析で出てくる中間ファイル等にも触れることで、どのようなデータを使って、どのような解析が動いているかについて理解を深める。
日程
2024-11-29 10:30–12:00, 15:00–16:30
環境
遺伝研スパコン
やること
基本的なコマンドライン操作
NGS 公開データの取得
クオリティコントロール
リードマッピング、バリアントコール
SNP アノテーション
スライドのリンク
Part. 1 コマンドライン操作、データ取得、クオリティコントロール
Part. 2 リードマッピング、バリアントコール
Part. 3 SNP アノテーション

/ で戻る/進む

材料

大腸菌 Escherichia coli

  • 参照配列: B str. REL606 (Ensembl47)
  • Illumina ショートリード: SRR030257
参考論文
Barrick et al. 2009

Requirement

  • 遺伝研スパコンにログインできる環境
  • SRA toolkit
  • fastp
  • BWA
  • SAMtools
  • BCFtools
  • SnpEff

スライドを見て、自身で進められるところまで進めておいてもらえると当日とてもスムーズです。

全ゲノム解析の流れ

配列取得
次世代シーケンサ (NGS) によりシーケンスした DNA は Fastq フォーマット (.fastq) になる。 既報で解読済みの配列は NCBI などにアーカイブされており、 データベースから取得して利用できる。
SRA Toolkit
クオリティコントロール (QC)
Fastq の生データにはうまくシーケンスできていない低品質な配列、 シーケンス時に付加するアダプタ配列、他サンプル由来のリードなどが含まれる。 こうした配列は偽陽性バリアントのもととなるため、解析から取り除く。
FastQC, Fastp, Trimmomatic など
マッピング
シーケンスしたショートリードを参照配列 (リファレンス) の一致する箇所に並べ、 もとのゲノム配列のどこに由来するのかを調べる。
BWA, Bowtie2 など
バリアントコール
参照配列とリードの配列とを比べ、参照配列と異なる塩基 (SNP) や 重複配列、挿入欠失 (Indel) を特定する。
GATK, SAMtools, BCFtools など

flowchart TD
  A(Sample) -.->|DNA 抽出| B(DNA)
  B -.->|NGS| C[Fastq]
  X[(NCBI)] -.->|prefetch| C
  C -.->|QC, マッピング| D[SAM]
  D -.->|圧縮| E[BAM]
  E -.->|バリアントコール| F[VCF/BCF]