AIの「マルチモーダル」ってなんだろう？グーグルやOpenAIが大騒ぎしてる理由

5月といえば、スター・ウォーズとゴールデンウィーク。しかし、今年の5月はSWよりもGWよりも、AIな月となりました。OpenAIとGoogle（グーグル）が、次々と大きなAI関連の発表を行なったからです。

近年、テック大手はAIモデルの開発に注力し、より賢く、よりスピーディで、より自然な動きができるようアップグレードを続けています。その中で、バズワードとしてよくでてくる言葉が｢マルチモーダル｣。

…マルチモーダルって何ですか？

より賢くなるために必要
AIの目、口、耳
GoogleとOpenAIのマルチモーダル
マルチモーダルというブレイクスルー
1. 共有:
2. 関連

より賢くなるために必要

2022年に登場し一瞬で世界を虜にしたときのあの輝きは、今のChatGPTにはもうありません。いい意味で、ね。ものすごいことになったぞ…！という驚きはすでに落ち着いて、ChatGPTひいてはAIというものに慣れてきた、日常的に使っているという人が増えたからです。

人間とは贅沢な生き物ですから、最初どんなに驚いていたって、慣れたらもっともっと…と欲しがります。

もっと自然に…、もっとリアルタイムで…、もっと賢く…！

その｢もっと｣を可能にしていくのがマルチモーダル。マルチモーダルの言葉には、マルチ＝複数の、モーダル＝モードを使いこなすぞという意味があります。

AIの目、口、耳

複数のモードってなんでしょう？シンプルにいえば、形式のことなるデータのことです。文章、画像、音、動画などの異なる情報をそれぞれ理解しつなぎ合わせて、答えを導くことができる。それがマルチモーダルです。

例えるなら、AIの目であり、口であり、耳です。文字を読むことしかできなかった目が、絵も見えるようになり、耳で音を聞き、目と耳で動画を視聴し、口で話すことができる。

…あと、ないのは鼻だね。

GoogleとOpenAIのマルチモーダル

OpenAIが今月発表したGPT-4o。スマホのカメラを目として数学の問題を見て理解し、人間の｢解き方教えて？｣の声をマイクを耳として聞き、スピーカーを口としてその答えやヒントを伝えました。

その翌日に発表されたGoogleのプロジェクトAstra。こちらも同じく、スマホのカメラを目として周りを見て理解し、テキストや音声で人間に返答しました。

GoogleとOpenAIのマルチモーダルの現時点での大きな違いは、AIモデルを何個使うかというこ。GPT-4oは、過去モデルとは違い1つのAIモデルが音、動画、テキストを処理します。一方で、GoogleはGPT-4o前のOpenAIと同じく、それぞれのモードを得意とする複数AIモデルを組み合わせて力を発揮するタイプ。

プロジェクトAstraのデモに参加した米Gizmodo編集部いわく、感覚としては、AstraよりもGPT-4oの方がレスが早かったような気がする。また、GoogleのAstroの方が声がロボっぽい気がする、とのこと。