GoogleのAI「Bard」はChatGPTよりもパズルを解くのがはるかに下手

GIGAZINE



Googleは、2023年3月21日にチャットAI「Bard」を一部地域で公開しました。そんなBardについて、単語埋めパズル「Twofer Goofer」の開発チームが「ライバルのChatGPTと比べてパズルを解く能力が圧倒的に低い」という検証結果を報告しています。

Bard is much worse at puzzle solving than ChatGPT – Twofer Goofer Blog
https://twofergoofer.com/blog/bard

GPT-4 Beats Humans at Hard Rhyme-based Riddles – Twofer Goofer Blog
https://twofergoofer.com/blog/gpt-4

Twofer Gooferは「韻を踏む2つの単語」を「2つの単語を示すフワッとした文章」「2つの単語の文字数」「最大4個のヒント」を頼りに導き出すというパズルゲームです。Twofer Gooferの実際のプレイ画面はこんな感じ。「2つの単語を示すフワッとした文章」は「Emergent cracks in the middle of a ballroom dance(社交ダンス中に亀裂が発生)」で、回答すべき単語の文字数は5文字と6文字です。


上記のパズルの回答は以下の通り。(ネタバレ注意:クリックでモザイク解除)


Twofer Gooferは上記のような「視覚的な効果を伴うウェブアプリ」として提供されていますが、プレイヤーは「2つの単語を示すフワッとした文章」と「単語の文字数」を知ることができれば画面を見ずともTwofer Gooferをプレイできます。開発チームは、Bardが一般公開される以前にChatGPTに対して以下のように「2つの単語を示すフワッとした文章」と「単語の文字数」を伝え、ChatGPTのパズル正答率を調査していました。


従来の「GPT-3.5」搭載版ChatGPTと2023年3月に発表された言語モデル「GPT-4」搭載版ChatGPTにTwofer Gooferを100問解かせた際の正答率が以下。GPT-4の正答率は96%で、一般ユーザーの正答率(82%)を大きく上回る結果を残しました。また、GPT-3も人間には及ばなかったものの、72%という「パズルに十分対応できた」と言える正答率を記録しました。


ところが、Bardに対して同様のパズルを提示した結果、Bardは回答として「2つの単語」を出力することはできたものの、それらの単語はまったく韻を踏んでおらず、正当を導き出すことはできませんでした。以下の画像では、Bardに「一般ユーザーの正当率97%の比較的簡単な問題」を提示した際の回答をまとめたものですが、Bardがまったく正解にたどり着けていないことが分かります。


20問のパズルを一度に回答させた際の出力が以下。どの回答も韻を踏めておらず、2単語ではなく1単語しか答えていないものもあります。


開発チームは「Bardは『韻』を理解していないのではないか」と考え、GPT-3.5搭載版ChatGPT、GPT-4搭載版ChatGPT、Bardに「『proteinとpoutine』『alphabetとalphabetical』『skeletonとgelatin』のうち、韻を踏んでいる組み合わせはどれですか?」と質問しました。その結果、GPT-3.5搭載版ChatGPTとGPT-4搭載版ChatGPTは「韻を踏んでいるのは『skeletonとgelatin』です」と正しく回答しましたが、Bardは「韻を踏んでいるペアはありません」と誤った回答をしてしまいました。


開発チームは上記の検証結果は学術的な意味を持たないと認めつつ、「人間は創造性や非線形思考に加えて、『韻を踏む』といった概念的理解に長けています。Twofer Gooferの正答率を検証することは、AIの進歩を評価する際の価値ある方法と言えるでしょう」と述べています。

なお、GPT-4が96%の正答率を記録したTwofer Gooferは以下のリンク先で無料公開されており、1日1問挑戦できます。

Twofer Goofer
https://twofergoofer.com/


この記事のタイトルとURLをコピーする

Source

タイトルとURLをコピーしました