全ゲノム解析ハンズオン — スモールデータで理解する SNP 解析の流れ

概要

目的: スモールデータを使って、全ゲノム解析のパイプラインを一通り (公開データ取得から SNP アノテーションまで) 体験する。その際、各解析で出てくる中間ファイル等にも触れることで、どのようなデータを使って、どのような解析が動いているかについて理解を深める。
日程: 2024-11-29 10:30–12:00, 15:00–16:30
環境: 遺伝研スパコン
やること: 基本的なコマンドライン操作; NGS 公開データの取得; クオリティコントロール; リードマッピング、バリアントコール; SNP アノテーション
スライドのリンク: Part. 1 コマンドライン操作、データ取得、クオリティコントロール; Part. 2 リードマッピング、バリアントコール; Part. 3 SNP アノテーション

←/→ で戻る/進む

材料

大腸菌 Escherichia coli

参照配列: B str. REL606 (Ensembl47)
Illumina ショートリード: SRR030257

参考論文: Barrick et al. 2009

Requirement

遺伝研スパコンにログインできる環境
SRA toolkit
fastp
BWA
SAMtools
BCFtools
SnpEff

スライドを見て、自身で進められるところまで進めておいてもらえると当日とてもスムーズです。

全ゲノム解析の流れ

配列取得: 次世代シーケンサ (NGS) によりシーケンスした DNA は Fastq フォーマット (.fastq) になる。既報で解読済みの配列は NCBI などにアーカイブされており、データベースから取得して利用できる。; SRA Toolkit
クオリティコントロール (QC): Fastq の生データにはうまくシーケンスできていない低品質な配列、シーケンス時に付加するアダプタ配列、他サンプル由来のリードなどが含まれる。こうした配列は偽陽性バリアントのもととなるため、解析から取り除く。; FastQC, Fastp, Trimmomatic など
マッピング: シーケンスしたショートリードを参照配列 (リファレンス) の一致する箇所に並べ、もとのゲノム配列のどこに由来するのかを調べる。; BWA, Bowtie2 など
バリアントコール: 参照配列とリードの配列とを比べ、参照配列と異なる塩基 (SNP) や重複配列、挿入欠失 (Indel) を特定する。; GATK, SAMtools, BCFtools など

flowchart TD
  A(Sample) -.->|DNA 抽出| B(DNA)
  B -.->|NGS| C[Fastq]
  X[(NCBI)] -.->|prefetch| C
  C -.->|QC, マッピング| D[SAM]
  D -.->|圧縮| E[BAM]
  E -.->|バリアントコール| F[VCF/BCF]