全ゲノム解析ハンズオン — スモールデータで理解する SNP 解析の流れ
概要
- 目的
- スモールデータを使って、全ゲノム解析のパイプラインを一通り (公開データ取得から SNP アノテーションまで) 体験する。 その際、各解析で出てくる中間ファイル等にも触れることで、どのようなデータを使って、どのような解析が動いているかについて理解を深める。
- 日程
- 2024-11-29 10:30–12:00, 15:00–16:30
- 環境
- 遺伝研スパコン
- やること
- 基本的なコマンドライン操作
- NGS 公開データの取得
- クオリティコントロール
- リードマッピング、バリアントコール
- SNP アノテーション
- スライドのリンク
- Part. 1 コマンドライン操作、データ取得、クオリティコントロール
- Part. 2 リードマッピング、バリアントコール
- Part. 3 SNP アノテーション
←/→ で戻る/進む
材料
大腸菌 Escherichia coli
- 参照配列: B str. REL606 (Ensembl47)
- Illumina ショートリード: SRR030257
- 参考論文
- Barrick et al. 2009
Requirement
- 遺伝研スパコンにログインできる環境
- SRA toolkit
- fastp
- BWA
- SAMtools
- BCFtools
- SnpEff
スライドを見て、自身で進められるところまで進めておいてもらえると当日とてもスムーズです。
全ゲノム解析の流れ
- 配列取得
-
次世代シーケンサ (NGS) によりシーケンスした DNA は Fastq フォーマット (
.fastq
) になる。 既報で解読済みの配列は NCBI などにアーカイブされており、 データベースから取得して利用できる。 - SRA Toolkit
- クオリティコントロール (QC)
- Fastq の生データにはうまくシーケンスできていない低品質な配列、 シーケンス時に付加するアダプタ配列、他サンプル由来のリードなどが含まれる。 こうした配列は偽陽性バリアントのもととなるため、解析から取り除く。
- FastQC, Fastp, Trimmomatic など
- マッピング
- シーケンスしたショートリードを参照配列 (リファレンス) の一致する箇所に並べ、 もとのゲノム配列のどこに由来するのかを調べる。
- BWA, Bowtie2 など
- バリアントコール
- 参照配列とリードの配列とを比べ、参照配列と異なる塩基 (SNP) や 重複配列、挿入欠失 (Indel) を特定する。
- GATK, SAMtools, BCFtools など