OrthoFinder
複数種の遺伝子配列を、共通の1遺伝子に由来するパラログ + オーソログのグループ (Orthogroup; OG) に分類する。
- 公式: https://davidemms.github.io/
- GitHub リポジトリ: https://github.com/davidemms/OrthoFinder
- 論文: Emms and Kelly 2015
Usage
解析したい種の遺伝子の配列 (Fasta ファイル) を 1つのディレクトリ (ex. fasta_dir/) に用意して-fに渡すだけ。
orthofinder -f fasta_dir出力
出力は -f に渡したディレクトリ中に Result_*date* ディレクトリが作られてその中に入る。 以下は ver2.5.2 の例。
Phylogenetic_Hierarchical_Orthogroups/
Single_Copy_Orthologue_Sequences/- OG ごとのシングルコピーオーソログの配列
Orthogroup_Sequences/- 全部の OG ごとの配列
Comparative_Genomics_Statistics/
Duplications_per_Orthogroup.tsv- OGごとの重複(*)の数
OrthologuesStats_Totals.tsv- 1種対1種のオーソログの数
OrthologuesStats_{one-to-many/many2one/many2many}.tsv- 1種対多種, 多種対1種, 多種対多種のオーソログの数
Statistics_PerSpecies.tsv- 種ごとのオーソログの数に関する要約統計
Duplications_per_Species_Tree_Node.tsv- 種ごとの重複の数
Orthogroups_SpeciesOverlaps.tsv- OrthologuesStats_Totals と同じ?
Statistics_Overall.tsv- 全体の要約統計
Phylogenetically_Misplaced_Genes
Species_Tree/- 種の系統樹 (.txt)
Gene_Duplication_Events/
Duplication.tsv- OG ごとにどのノードでどの遺伝子とどの遺伝子が重複したかが書かれてる
SpeciesTree_Gene_Duplications_0.5_Support.txt- 種の系統樹と若干違う?
Orthogroups/
Orthogroups.GeneCount.tsv- OG × 種ごとの遺伝子数
Orthogroups.tsv/.txt- OG × 種ごとの遺伝子名
Orthogroups_SingleCopyOrthologues.txt- シングルコピー OG 名
Orthogroups_UnassignedGenes.tsv- 1種しかいない OG 名
Putative_Xenologs- 水平伝播したと推定される遺伝子 (あれば)
WorkingDirectory/- Blast などの中間ファイルが圧縮されて入っている。
-
SpeciesIDs.txtは再解析 (後述) をする際に必要 Gene_Trees/- OG ごとの遺伝子系統樹 (.txt) が入ってる。
Orthologues/
Orthologues_*種名*- 1種対1種のオーソログが書かれてる。
Resolved_Gene_Trees- OG ごとの種分化を考慮した系統樹。4遺伝子以上の OG についてしか書かれていない。
Unassigned gene と Species-specific Orthogroup
両方とも系統特異的な遺伝子であると考えられ、 Unassigned gene はそのうちシングルトンであるもの (自身の中にもパラログが存在しない)、 Species-specific Orthogroup はそのうち重複遺伝子であるもの。 系統特異的な重複とは異なる。
種の追加/除外
種の追加を行う場合
追加したい種の Fasta ファイルが入ったディレクトリを用意して、-f で指定:
orthofinder -b /Result_*/WorkingDirectory -f new_fasta_directory結果は /WorkingDirectory/OrthoFinder/Result_*Date*/ に出力される。
種を除外する場合
/Result_*/WorkingDirectory/ にある SpeciesIDs.txt を編集し、 除外する種を # でコメントアウトする。その上で、
orthofinder -b /Result_*/WorkingDirectoryを実行する。 -f で追加ディレクトリを指定しつつ追加と除外を同時に行うことも可能。
遺伝研
biotools にある:
ls /usr/local/biotools/o/orthofinder*並列化
種数にもよるが全種×全種で blast する都合上かなりメモリを食うので、 medium に並列で投げることをおすすめする。 下記は5スロットで投げる例。
#$ -S /bin/bash
#$ -cwd
#$ -pe def_slot 5
#$ -l medium
#$ -l s_vmem=64G
#$ -l mem_req=64G
module load singularity
singularity exec /usr/local/biotools/o/orthofinder:%ver orthofinder -f dir -t 5 -a 5