6億種超のタンパク質構造を予測したAI「ESM-2」によるデータベースをMetaが公開、予測速度はAlphaFoldより60倍高速

FacebookやInstagramを運営するMetaが、タンパク質の立体構造を予測する言語モデル「ESM-2」を使用して6億1700万種以上のメタゲノムタンパク質の構造を予測したデータベース「ESM Metagenomic Atlas」を公開しました。

Announcing the ESM Metagenomic Atlas — the first comprehensive view of the ‘dark matter’ of the protein universe. Made possible by ESMFold, a new breakthrough model for protein folding from Meta AI.

More in our new blog ➡️ https://t.co/LsUhSjzqCf

1/3 pic.twitter.com/5lq48rPv5A

— Meta AI (@MetaAI)

Explore – ESM Metagenomic Atlas
https://esmatlas.com/

Evolutionary-scale prediction of atomic level protein structure with a language model | bioRxiv
https://www.biorxiv.org/content/10.1101/2022.07.20.500902v2

ESM Metagenomic Atlas: The first view of the ‘dark matter’ of the protein universe
https://ai.facebook.com/blog/protein-folding-esmfold-metagenomics/

AlphaFold’s new rival? Meta AI predicts shape of 600 million proteins
https://www.nature.com/articles/d41586-022-03539-1

Meta’s newest AI determines proper protein folds 60 times faster | Engadget
https://www.engadget.com/metas-newest-ai-figures-out-proper-protein-folds-60-times-faster-150006068.html

生物を構成するタンパク質について知ることは、生物学や医学の研究において非常に重要です。しかし、アミノ酸同士が結合したポリペプチド鎖が折りたたまれたタンパク質の立体構造を予測することは「フォールディング問題」と呼ばれ、研究者にとって困難な課題となっています。

タンパク質のフォールディング問題に取り組む手法として、近年ではAIを用いてタンパク質の立体構造を予測するという試みが進展しています。Alphabet傘下のAI研究所であるDeepMindが開発した「AlphaFold」というタンパク質構造解析AIは、短時間で低コストに、実験的手法と同等の精度でタンパク質の立体構造を解析することを可能にしました。AlphaFoldは2021年7月にオープンソース化され、生物学の世界を変えたとも評されています。

タンパク質の立体構造を予測するAI「AlphaFold」はどのように生物学の世界を変えているのか？ – GIGAZINE

2022年7月には、AlphaFoldが予測した2億種以上のタンパク質の立体構造が、検索可能なデータベースとして公開されました。

2億件超えのタンパク質立体構造をGoogle検索なみに簡単検索可能なデータベースがDeepMindによって公開される – GIGAZINE

そして2022年11月、Facebookなどを運営するMetaのAI研究チームが、6億1700万種以上のメタゲノムタンパク質構造を予測したデータベース「ESM Metagenomic Atlas」を公開しました。メタゲノミクスとは環境サンプルから直接回収されたゲノムを扱う研究分野であり、Metaはメタゲノムシーケンスをカタログ化する公開リソース「MGnify90」に含まれるゲノムのタンパク質構造を予測したとのこと。

研究チームは、「私たちの知る限り、ESM Metagenomic Atlasは高分解能の予測されたタンパク質構造を集めた最大のデータベースです。このデータベースは既存のどのタンパク質構造データベースよりも3倍大きく、メタゲノムタンパク質を包括的かつ大規模にカバーした最初のデータベースでもあります。これらのタンパク質構造は、自然界の広さと多様性に関する前例のない見方と新たな科学的洞察を提供し、医療・自然化学・環境応用・再生可能エネルギーなどの分野で実用化されるタンパク質の発見を加速させる可能性を秘めています」と述べました。

Metaのタンパク質構造予測AIは「ESMFold」と名付けられており、タンパク質を構成する原子や分子を言語として解析し、学習データから立体構造を予測するモデルです。研究チームはこのモデルをスケールアップし、150億ものパラメーターを持つ「ESM-2」を開発しました。ESM-2はこれまでで最大の「タンパク質言語モデル」であり、ESM Metagenomic Atlasに含まれている6億種以上のタンパク質立体構造を、約2000個のGPUを用いてわずか2週間で予測できたと報告されています。

研究チームによると、ESM-2の予測精度はAlphaFoldほどではないものの、構造予測のスピードはなんと60倍に達するとのこと。Meta AIのタンパク質研究チームでリーダーを務めるAlexander Rives氏は、「これが意味するのは、構造予測をはるかに大きなデータベースに拡張できるということです」と述べています。

ソウル大学の計算生物学者であるMartin Steinegger氏は、「(メタゲノムデータベースは)これまで見ることができなかったタンパク質の世界の大部分をカバーするはずです。今こそ、この闇を解き明かす大きなチャンスなのです」と述べました。

この記事のタイトルとURLをコピーする

Source