タンパク質の立体構造を予測するAI「AlphaFold」はどのように生物学の世界を変えているのか?

GIGAZINE



Alphabet傘下の人工知能企業であるDeepMindは、2018年にアミノ酸の配列情報からタンパク質の立体構造を予測するAI「AlphaFold」を開発しました。その後も改良が重ねられ、2021年7月にはオープンソース化もされたAlphaFoldが生物学の世界にもたらした影響について、科学誌のNatureでジャーナリストを務めるEwen Callaway氏が解説しています。

What’s next for AlphaFold and the AI protein-folding revolution
https://www.nature.com/articles/d41586-022-00997-5

タンパク質は筋肉の収縮・血液の輸送・光の感知・食物のエネルギー変換など、ほぼすべての生物学的プロセスに関連する物質です。そんなタンパク質は20種類のL-アミノ酸が鎖状に多数連結した立体的な高分子化合物であり、アミノ酸残基と呼ばれるアミノ酸の単位がどのようにつながっているのかは、一次元的な配列情報からしかわかりません。

人間が発見したタンパク質は2億を超えていますが、そのほとんどはアミノ酸配列しか判明しておらず、タンパク質の立体構造が特定されているものは少数です。タンパク質の立体構造はその挙動や機能と密接に関わっているため、アミノ酸配列から立体構造を推測することは「タンパク質のフォールディング問題」と呼ばれ、長年にわたり生物学上の大きな問題となってきました。

これまでの研究では、タンパク質の立体構造を明らかにするために低温電子顕微鏡法核磁気共鳴X線結晶構造解析といった実験的手法が用いられてきましたが、これには時間やコストがかかるため、近年ではAIによるフォールディング問題の解決が期待されるようになっていました。DeepMindが2018年に開発した「AlphaFold」は、2018年の「国際タンパク質構造予測コンテスト」(CASP)で優勝を収めた上に、2020年のCASPでAlphaFoldの最新バージョンが実験的手法と同レベルの精度を記録したことでさらなる注目を集めたとのこと。

研究者らはAlphaFoldがオープンソースとなる前から、DeepMindのAlphaFoldチームを率いるJohn Jumper氏らの講演などを基に、「RoseTTAFold」という独自のAIツールを開発していました。そして2021年7月、ついにAlphaFoldがオープンソースで公開され、研究者がAlphaFoldを広く使用可能になりました。

人工知能企業DeepMindがタンパク質構造解析アルゴリズム「AlphaFold」をオープンソースで公開、誰でも利用可能に – GIGAZINE

by OIST

イスラエルのヘブライ大学でタンパク質の研究をしているOra Schueler-Furman氏は、「AlphaFoldはゲームを変化させます。これは地震のようなものです。どこにでもその影響を見ることができます」とコメント。また、ユニヴァーシティ・カレッジ・ロンドンの計算生物学者であるChristine Orengo氏は、「私が参加するすべての会議で、人々は『AlphaFoldを使ってみてはどうか』と言っています」と話しました。

実際に、AlphaFoldをタンパク質に関連する研究に応用する試みも進んでいます。ドイツのマックス・プランク生物物理学研究所の分子生物学者であるMartin Beck氏らの研究チームは、細胞のを出入りする物質が通る核膜孔複合体とそれを構成するヌクレオポリンというタンパク質ファミリーについて、2016年の研究で核膜孔複合体の約30%をカバーするモデルを発表しました。その後、2021年にオープンソース化されたAlphaFoldを利用してモデルを調整したところ、2021年10月には核膜孔複合体の約60%をカバーするモデルを発表することができたとのこと。

また、DeepMindは2022年のうちに合計1億以上のタンパク質の立体構造予測を発表する予定です。1億という数は既知のタンパク質の約半数で、タンパク質データバンク(PDB)の構造リポジトリ内に含まれる実験的手法で立体構造が特定されたタンパク質の数百倍にあたるそうです。

以下のグラフは、研究者らが発表した「AlphaFoldを使用した論文」の数を表したもので、薄いオレンジ色が科学誌に掲載されたもの、濃いオレンジ色がプレプリントサーバーにアップロードされたものを示しています。2021年7月にAlphaFoldがオープンソースとなって以降、急激に論文数が増加している様子がうかがえます。


AlphaFoldはPBDやその他のデータベースに登録されている、実験的手法で立体構造が特定されたタンパク質のデータで訓練されています。新しいアミノ酸配列を与えられたAlphaFoldは、まずデータベース内の関連する配列を探し、似た立体構造を持つ傾向のあるアミノ酸を識別します。また、既存の関連タンパク質の構造は、新しいアミノ酸配列におけるアミノ酸間の距離を推定する上でも役立ちます。こうしたさまざまな手がかりを基に、AlphaFoldはタンパク質の立体構造を予測しています。

DeepMindによると、これまでに40万人以上が欧州分子生物学研究所が管理するAlphaFoldのデータベースにアクセスしているとのこと。また、中には自分のサーバーにAlphaFoldをセットアップしたり、データベースにないタンパク質の構造予測を試みたり、中には独自の方法でAlphaFoldをカスタマイズするユーザーもいるそうです。

多くの生物学者はAlphaFoldの精度に感銘を受けています。デンマーク・オーフス大学の構造生物学者であるThomas Boesen氏は、自身の研究チームが実験的手法で立体構造を解明したものの、まだ公になっていないタンパク質について、AlphaFoldで立体構造を予測させるテストを行ったとのこと。その結果、AlphaFoldは正確に立体構造を予測できたとのことで、「これは私の側からの大きな検証です」「私は自分が見たものに基づいて、AlphaFoldをかなり信頼しています」とBoesen氏は述べています。

また、AlphaFoldのタンパク質の遺伝子配列から立体構造を予測する仕組みを応用して、タンパク質の進化や生命の起源についての研究に役立てることも期待されています。通常、研究者らは遺伝子配列を比較して生物の遺伝子が種間でどのように関連しているかを判断しますが、関係性がかなり古い遺伝子の場合、配列の変化が大きすぎて両者の関連性が見えにくい場合もあるとのこと。しかし、遺伝子配列よりも変化する速度が遅いタンパク質構造を比較することで、これまで見過ごされてきた古い関係性が発見できるかもしれないそうです。スイス連邦工科大学の計算生物学者であるPedro Beltrao氏は、「これはタンパク質の進化と生命の起源を研究する素晴らしいチャンスを開きます」とコメントしました。


一方、特定のタンパク質についての詳細な立体構造を把握したい研究者にとってAlphaFoldは即時の解決策ではなく、最終的には実験的手法による決定が必要です。しかし、AlphaFoldによる立体構造予測は、実験的手法で得られたデータを解釈する際に役立つ近似値となり、研究のスピードを速めることにつながっているとのこと。ケンブリッジ大学の構造生物学者であるRandy Read氏は、X線結晶構造解析のデータをAlphaFoldと組み合わせることでアプローチが変わったとして、「(AlphaFoldは)私たちの研究の焦点を完全に変えました」と述べました。

また、AlphaFoldは単一のペプチド鎖の形状を予測するように設計されていましたが、AlphaFoldのオープンソース化からわずか数日後には、東京大学のタンパク質研究者である森脇由隆氏が「AlphaFoldでも、2つのタンパク質配列間の相互作用を予測できる」とツイート。後にDeepMindは、タンパク質複合体の構造を予測するAlphaFold-Multimerという機能をリリースしています。

AlphaFold2 can also predict heterocomplexes. All you have to do is input the two sequences you want to predict and connect them with a long linker. pic.twitter.com/BhmWcnlQed

— Yoshitaka Moriwaki (@Ag_smith)


もちろん、AlphaFoldも常に正確な立体構造を予測できるわけではなく、予測に対する信頼性をラベル付けする機能も付いています。以下の3つの立体構造予測図は、「Good」が立体構造予測がうまくいった状態、「Bad」があまりうまくいかなかった場合、「Ugly」がほとんど予測できなかった場合です。立体構造の色分けは、紫色はPBDに存在する立体構造、青色がかなり信頼性の高い立体構造、水色が信頼性の高い立体構造、黄色が信頼性の低い立体構造、オレンジ色がかなり信頼性が低い立体構造を示しています。立体構造予測の信頼性が低いほど、無秩序なスパゲッティのような形を示し、黄色やオレンジ色の部分も多くなっていることがわかります。


AlphaFoldにおける制限としては、「データベースに登録されている既存のタンパク質情報に依存しているため、突然変異の立体構造に対する影響を予測するのは難しい」という点が挙げられます。また、相互作用する他のタンパク質や薬物などの分子といった存在により、タンパク質がどのように形状を変化させるのかという予測もAlphaFoldには困難です。

ノースカロライナ大学チャペルヒル校の構造生物学者であるBryan Roth氏は、確かにAlphaFoldはGタンパク質共役受容体というタンパク質の約半数について正確な予測を行い、研究時間を節約できたとしていますが、残りの半数では役に立たなかったと指摘。また、ラベル付けによる信頼性がかなり高かった場合でも予測に失敗するケースがあったそうです。創薬研究を行うRoth氏は、リガンドや薬物に結合した際の立体構造予測ができないこともあり、AlphaFoldが創薬研究にどれほど役立つのかは疑問だとしています。

依然としてAlphaFoldには問題点もありますが、今後もさらにAlphaFoldを用いた研究が加速し、さまざまな発見がなされることが期待されています。ワシントン大学の生化学者であるDavid Baker氏は、「物事は急速に変化しています。来年にも、AlphaFoldを用いて本当に大きなブレイクスルーが達成されるでしょう」とコメント。また、欧州分子生物学研究所の計算生物学者であるJanet Thornton氏は、AlphaFoldがもたらす最も大きな影響の1つは、生物学者に対して計算的・理論的アプローチからの洞察に変化を促したことだと主張しています。

欧州分子生物学研究所の構造生物学者であるJan Kosinski氏は、AlphaFoldに触発されたツールが個々のタンパク質や複合体にとどまらず、細胞小器官全体からタンパク質分子までのモデル化が可能になることを想像しています。「これは私たちが今後数十年にわたって追求する夢です」とKosinski氏は述べました。

この記事のタイトルとURLをコピーする

Source

タイトルとURLをコピーしました