チャットAIに関する研究が活発に行われている中、誰でも無料で使えるオープンソースのチャットAIも数多く登場しています。Microsoftやウィスコンシン大学マディソン校などの研究チームが開発した「LLaVA」は、画像を入力することで画像をお題にした会話を楽しめるとのこと。どんな会話ができるのか、実際に使って確かめてみました。
LLaVAを使うには、まず上記のURLをクリックしてデモページにアクセスします。
デモページの左上には画像入力エリアが用意されているので、まずはここに会話のお題となる画像を入力します。
今回はイーロン・マスク氏が2014年に来日した際の写真を使ってみます。
画像を入力エリアにドラッグ&ドロップ。
画像の入力が完了したら、画面右側の入力欄に文章を入力して「送信」をクリックします。今回は「この写真には何が写っていますか?」と聞いてみることにします。
LLaVAの回答が以下。「スーツを着た男性がガソリンスタンドで給油中」「車が複数台写っているので、混んでいるガソリンスタンドか駐車場だと思う」という回答が返ってきました。実際は「電気自動車に充電しようとするシーン」を撮影したものですが、ガソリン給油中の写真に見えなくもないのでAIが勘違いするのも仕方ないかも。
次に「この写真に写る人物は誰ですか?」と聞いてみました。
すると「テスラのイーロン・マスクCEO」という正しい回答が返ってきました。
しかし、同じ質問でも文章を書き換えると正しく答えられない場合もあります。例えば「写真に写る人物の名前は分かりますか?」と尋ねた結果、「マーク・ザッカーバーグ」という誤った解答が返ってきました。
今度は、某CEOにそっくりな人形の写真を入力してみます。
「この人形のモチーフは誰ですか?」と尋ねたところ、見事に「スティーブ・ジョブズ」と回答してくれました。「スティーブ・ジョブズがテクノロジー業界に与えたインパクトを称賛する人々にとって、ユニークなコレクターズアイテム」とのこと。
続いて、岐阜名物「冷やしたぬき」の写真を入力。
「この食べ物は何ですか」と聞いてみましたが、「そば」とは答えてくれず「食器に麺が入っており、その上に肉や野菜、オニオンなどがのっている」と回答。LLaVAは日本食には詳しくないようです。
最後に、GIGAZINEで連載していたフルカラーマンガ「姫とゲーマー」のイラストを入力。
主人公「姫宮ありか」の年齢を推測するように言ってみると、「情報不足なので正確な年齢は分からない」としつつ、服装や表情などから「ヤングアダルト(10代後半の若者)」と推測してくれました。姫宮ありかは高校1年生なので、見事に推測できています。
なお、LLaVAの技術的詳細は、以下のリンク先で確認できます。
LLaVA
https://llava-vl.github.io/
この記事のタイトルとURLをコピーする