OrthoFinder

複数種の遺伝子配列を、共通の1遺伝子に由来するパラログ + オーソログのグループ (Orthogroup; OG) に分類する。

Version 3.0.1 以降、元のリポジトリをフォークした別のリポジトリで開発が進められている模様。 最近使っていないので、このページの情報はかなり古い (Version 2.5.2 より前のもの)。 最新の使い方については READMETutorial のページを参照。

3.0.1 以降

2.5.5 以前

Usage

解析したい種の遺伝子の配列 (Fasta ファイル) を 1つのディレクトリ (ex. fasta_dir/) に用意して -f に渡すだけ。

orthofinder -f fasta_dir

出力

出力は -f に渡したディレクトリ中に Result_*date* ディレクトリが作られてその中に入る。 以下は ver2.5.2 の例。

Phylogenetic_Hierarchical_Orthogroups/

Single_Copy_Orthologue_Sequences/
OG ごとのシングルコピーオーソログの配列
Orthogroup_Sequences/
全部の OG ごとの配列

Comparative_Genomics_Statistics/

  • Duplications_per_Orthogroup.tsv
    OGごとの重複(*)の数
  • OrthologuesStats_Totals.tsv
    1種対1種のオーソログの数
  • OrthologuesStats_{one-to-many/many2one/many2many}.tsv
    1種対多種, 多種対1種, 多種対多種のオーソログの数
  • Statistics_PerSpecies.tsv
    種ごとのオーソログの数に関する要約統計
  • Duplications_per_Species_Tree_Node.tsv
    種ごとの重複の数
  • Orthogroups_SpeciesOverlaps.tsv
    OrthologuesStats_Totals と同じ?
  • Statistics_Overall.tsv
    全体の要約統計

Phylogenetically_Misplaced_Genes

Species_Tree/
種の系統樹 (.txt)

Gene_Duplication_Events/

  • Duplication.tsv

: OG ごとにどのノードでどの遺伝子とどの遺伝子が重複したかが書かれてる - SpeciesTree_Gene_Duplications_0.5_Support.txt
: 種の系統樹と若干違う?

Orthogroups/

  • Orthogroups.GeneCount.tsv
    OG × 種ごとの遺伝子数
  • Orthogroups.tsv/.txt
    OG × 種ごとの遺伝子名
  • Orthogroups_SingleCopyOrthologues.txt
    シングルコピー OG 名
  • Orthogroups_UnassignedGenes.tsv
    1種しかいない OG 名
Putative_Xenologs
水平伝播したと推定される遺伝子 (あれば)
WorkingDirectory/
Blast などの中間ファイルが圧縮されて入っている。
SpeciesIDs.txt は再解析 (後述) をする際に必要
Gene_Trees/
OG ごとの遺伝子系統樹 (.txt) が入ってる。

Orthologues/

  • Orthologues_*種名*
    1種対1種のオーソログが書かれてる。
  • Resolved_Gene_Trees
    OG ごとの種分化を考慮した系統樹。4遺伝子以上の OG についてしか書かれていない。

Unassigned gene と Species-specific Orthogroup

両方とも系統特異的な遺伝子であると考えられ、 Unassigned gene はそのうちシングルトンであるもの (自身の中にもパラログが存在しない)、 Species-specific Orthogroup はそのうち重複遺伝子であるもの。 系統特異的な重複とは異なる。

種の追加/除外

OrthoFinder3 以降、Orthogroup を推定したい全種のうち、 各分類群から抜粋した一部の種 (core) で一度 Orthogroup の推定を行い、 その後 --assign で残りの種を追加する、という使い方が可能になった。

種の追加を行う場合

追加したい種の Fasta ファイルが入ったディレクトリを用意して、-f で指定:

orthofinder -b /Result_*/WorkingDirectory -f new_fasta_directory

結果は /WorkingDirectory/OrthoFinder/Result_*Date*/ に出力される。

種を除外する場合

/Result_*/WorkingDirectory/ にある SpeciesIDs.txt を編集し、 除外する種を # でコメントアウトする。その上で、

orthofinder -b /Result_*/WorkingDirectory

を実行する。 -f で追加ディレクトリを指定しつつ追加と除外を同時に行うことも可能。

遺伝研スパコン

biotools にある:

ls /usr/local/biotools/o/orthofinder*

並列化

種数にもよるが全種×全種で blast する都合上かなりメモリを食うので、 medium に並列で投げることをおすすめする。 下記は5スロットで投げる例。

#!/bin/bash
#SBATCH -N 1-1
#SBATCH -n 2
#SBATCH --partition medium
#SBATCH --mem-per-cpu=64G

apptainer exec /usr/local/biotools/o/orthofinder:%ver orthofinder -f dir -t 5 -a 5