AIの「マルチモーダル」ってなんだろう? グーグルやOpenAIが大騒ぎしてる理由

5月といえば、スター・ウォーズとゴールデンウィーク。しかし、今年の5月はSWよりもGWよりも、AIな月となりました。OpenAIとGoogle(グーグル)が、次々と大きなAI関連の発表を行なったからです。

近年、テック大手はAIモデルの開発に注力し、より賢く、よりスピーディで、より自然な動きができるようアップグレードを続けています。その中で、バズワードとしてよくでてくる言葉が「マルチモーダル」。

…マルチモーダルって何ですか?

より賢くなるために必要

2022年に登場し一瞬で世界を虜にしたときのあの輝きは、今のChatGPTにはもうありません。いい意味で、ね。ものすごいことになったぞ…!という驚きはすでに落ち着いて、ChatGPTひいてはAIというものに慣れてきた、日常的に使っているという人が増えたからです。

人間とは贅沢な生き物ですから、最初どんなに驚いていたって、慣れたらもっともっと…と欲しがります。

もっと自然に…、もっとリアルタイムで…、もっと賢く…!

その「もっと」を可能にしていくのがマルチモーダル。マルチモーダルの言葉には、マルチ=複数の、モーダル=モードを使いこなすぞという意味があります。

AIの目、口、耳

複数のモードってなんでしょう? シンプルにいえば、形式のことなるデータのことです。文章、画像、音、動画などの異なる情報をそれぞれ理解しつなぎ合わせて、答えを導くことができる。それがマルチモーダルです。

例えるなら、AIの目であり、口であり、耳です。文字を読むことしかできなかった目が、絵も見えるようになり、耳で音を聞き、目と耳で動画を視聴し、口で話すことができる。

…あと、ないのは鼻だね。

GoogleとOpenAIのマルチモーダル

OpenAIが今月発表したGPT-4o。スマホのカメラを目として数学の問題を見て理解し、人間の「解き方教えて?」の声をマイクを耳として聞き、スピーカーを口としてその答えやヒントを伝えました。

その翌日に発表されたGoogleのプロジェクトAstra。こちらも同じく、スマホのカメラを目として周りを見て理解し、テキストや音声で人間に返答しました。

GoogleとOpenAIのマルチモーダルの現時点での大きな違いは、AIモデルを何個使うかというこ。GPT-4oは、過去モデルとは違い1つのAIモデルが音、動画、テキストを処理します。一方で、GoogleはGPT-4o前のOpenAIと同じく、それぞれのモードを得意とする複数AIモデルを組み合わせて力を発揮するタイプ。

プロジェクトAstraのデモに参加した米Gizmodo編集部いわく、感覚としては、AstraよりもGPT-4oの方がレスが早かったような気がする。また、GoogleのAstroの方が声がロボっぽい気がする、とのこと。

マルチモーダルというブレイクスルー

目と口と耳を手に入れ、それらを連携して使うことができるというAI界のブレイクスルー、マルチモーダル。一方で、開発は容易ではなく、開発競争も熾烈です。

今年3月の公式ブログにて、プロジェクトAstraについてGoogleはこう書いていました。

マルチモーダルな情報を理解するAIシステムの開発で大きな進歩はあったものの、レスポンスの時間を短縮し会話に落とすのは難しい開発チャレンジです。

昨年12月に公開されたGoogleのAI、Geminiのデモ動画。あのデモで見せたことは、6ヶ月弱たった今もまだ実現されていません。

猛スピードで巻き返しを図るGoogleですが、現状、OpenAIがまだリードしていると言ってよさそう。

また、ソフトだけでなく、マルチモーダルを乗せたハードも注目したいところ。現時点ではモノとして酷評されていますが、Humane AIRabbit R1もマルチモーダルが可能にしたガジェットです。

タイトルとURLをコピーしました