オントロジーとは、与えられたドメイン内の知識体系を正式に表現したものです。 オントロジーは通常、クラス(または用語や概念)のセットと、それらの間を操作する関係から構成されています。 Gene Ontology (GO) は、3つの側面に関して生物学的ドメインの知識を記述しています:
分子機能 | |
生物プロセス | 複数の分子活動によって達成される大きなプロセス、または「生物プログラム」です。 広義の生物学的プロセス用語の例としては、DNA修復やシグナル伝達などがあります。 より具体的な用語の例としては、ピリミジンヌクレオベース生合成プロセスやグルコース膜貫通輸送などがある。 生物学的プロセスはパスウェイと等価ではないことに注意。 |
GOアノテーションの例では、遺伝子産物「シトクロムc」は分子機能oxidoreductase activity、生物プロセスoxidative phosphorylation、細胞成分mitochondrial matrixで記述することが可能である。
GO vocabularyは種を問わないように設計されており、原核生物と真核生物、また単細胞生物と多細胞生物に適用できる用語を含んでいます。
GO classes (also known as terms)
GO classesは定義、ラベル、固有識別子および他のいくつかの要素からなります。
GOグラフ
GOの構造はグラフで記述され、各GO用語はノードであり、用語間の関係はノード間のエッジである。 GOは緩やかな階層構造で、「子」用語は「親」用語より専門性が高いが、厳密な階層構造とは異なり、用語は複数の親語を持つことができる(親/子モデルはすべてのタイプの関係には当てはまらないことに注意、関係のドキュメントを参照のこと)。 例えば、生物学的プロセス用語であるヘキソース生合成プロセスは、ヘキソース代謝プロセスと単糖類生合成プロセスという2つの親を持つ。 これは、生合成プロセスが代謝プロセスのサブタイプであり、ヘキソースが単糖のサブタイプであるという事実を反映しています。
One ontology… or three?
上の図が示すように、3つのGOドメイン(細胞コンポーネント、バイオプロセス、分子機能)はそれぞれ別のルート・オントロジー用語で表現されています。 ドメイン内のすべての用語は、ルート用語にその親をたどることができるが、さまざまな数の中間用語を経由してオントロジールートに至る多数の異なるパスが存在する可能性がある。 3つのルートノードは関連性がなく、共通の親ノードを持たないため、GO は3つのオントロジーとなる。 グラフベースのソフトウェアによっては、単一のルートノードを必要とする場合がある。このような場合、既存の3つのルートノードの親として「偽」の用語を追加することができる。 しかし、part of や regulates などの他の関係は、GO オントロジー間で作用している。 例えば、分子機能用語「サイクリン依存性プロテインキナーゼ活性」は、生物学的プロセス「細胞周期」の一部である。 9235>
GO as a dynamic ontology
GO は、生物学における現在の知識の状態を表すことを目的としており、したがって、生物学的知識の蓄積に応じて常に改訂および拡張されています。 変更は週単位で行われます(ほとんどは比較的軽微です)。 オントロジーの改訂は、生物学と計算機による知識表現の両方で豊富な経験を持つオントロジー編集者のチームによって管理されています。 これらの更新は、GOCオントロジーチームと更新を要求する科学者との間で共同して行われます。 リクエストの多くは、GOアノテーションを作成する科学者(通常、それぞれ数用語にしか影響しない)や、生物学の特定分野の専門家(通常、多くの用語と関係からなるオントロジーの「ブランチ」全体を改訂する)から来るものである。 研究者や計算科学者から、新しい用語、新しい関係、またはオントロジーに対するその他の改善の要望を提出するよう求めています。 GOタームのフォーマットの説明。