【やったぜ】肉めしの『岡もと』が御徒町に進出！絶滅した肉めしが着々と勢力を拡大中!!

【ポケモンGO】おめでたい「旧正月イベント」開幕！年に1度のキラキラ祭り待ったなし!!

「持続可能性だけでなく、再生の必要性。時代を先取りし、コスメの革命を目指す」：ラッシュ共同創設者ロウェナ・バード氏

明日花キララ整形揶揄で謝罪も…直後に「再モノマネ」　炎上YouTuberが煽り連発「法的措置で整形代稼ぐぞ～」

☆型に抜いて和食をだいなしにしてみる（デジタルリマスター）

運動時も安心して持てるアンダーアーマーの「ちょっと入るボディバッグ」が30％ポイントバック【楽天セール】

日銀の金融政策”現状維持”を決定この判断ははたして？

コロナワクチン職域接種の当社グループ分析

政治家の基礎力（情熱・見識・責任感）⑥：家族と支援

ViewSonic、ドスパラ専売の144Hz駆動対応液晶

「垢抜け方凄すぎ」テレ東人気アナの変化が話題　7年前とのビフォーアフターに「もはや別人」

「昇降デスクの上に置けるブラビア」のロマンがたまらんよ

「ヴィーガンや菜食主義者は肉を食べる人より健康で長生き？」を栄養の専門家が解説

衰退のラジオ業界課金で支えろ – 土屋礼央

「スタイルオバケ」「理想の足」「憧れです」…　前田敦子のミニワンピ美脚に絶賛相次ぐ

『iPad Pro』上でもWindows 365のクラウドPCは正常に動作、OfficeソフトやXboxアプリも使用可能

市立船橋を「しりつ」呼び…甲子園実況に違和感も　なぜ「いちりつ」じゃない？NHKと高校に聞いた

あのシロノワールにブラックモンブランのザクザク食感が合体した「シロノワールブラックモンブラン」をコメダ珈琲店で食べてきた

AIチャットボットの能力を比較評価できる「Chatbot Arena」–ユーザーの判定を反映

CNET Japan

2023.06.23

　生成型の人工知能（AI）を搭載したチャットボットサービスの「ChatGPT」が2022年11月に公開され、爆発的な人気を博して以来、類似サービスの投入が相次いでいる。これらのチャットボットは、利用している大規模言語モデル（LLM）や、価格、ユーザーインターフェース、インターネットへのアクセスといった点でさまざまであり、どれを使うか悩ましい状況だ。

ChatGPT AIと表示されたデバイス

提供：Olemedia/Getty Images

　これらのチャットボットを簡単に比較できるようにするべく、カリフォルニア大学バークレー校の学生と教授陣らが設立したオープンな研究組織Large Model Systems Organization（LMSYS Org）は「Chatbot Arena」（チャットボット競技場）を作り出した。

　Chatbot ArenaはLLMのベンチマークプラットフォームで、ユーザーはランダムに選択された2つのモデルに対してプロンプトを入力し、どのLLMが回答しているか明かされない状態で、どちらが優れているかを選択するようになっている。

　ユーザーが優れていると判断した方を選択すると、出力を生成するためにどのLLMが使われたかが表示される。

　LMSYS Orgによると、ユーザーが評価した結果は、チェスの公式記録で用いられているイロレーティング（Elo rating）システムに基づいて順位付けされ、リーダーボード（順位表）に反映される。

　筆者はChatbot Arenaを自ら試すべく、「何カ月も前から計画していた休暇を取得するため、しばらく職場を離れることを上司に伝える電子メールを書いてください」というプロンプトを入力した。

　返ってきた2つの回答は大きく異なるものだった。一方はこういった電子メールにふさわしい文脈と長さになっており、埋めるべき空欄も用意されていた。

Chatbot Arenaの画面

提供：Screenshot by Sabrina Ortiz/ZDNET

　「モデルB」を勝者に選んだ後、それがMetaの「LLaMA」モデルをベースにしてLMSYS Orgが開発した「vicuna-7b」であることが分かった。そして敗者はNomic AIが「LLaMA 13B」に微調整を加えて開発した「GPT4All-13b-snoozy」だった。

　リーダーボードによると本記事執筆時点では、OpenAIの最新LLMである「GPT-4」が1227というArena Eloレーティングを獲得し、予想に違わず首位に立っている。2位は1178というレーティングを獲得した、Anthropicが開発した「Claude-v1」だ。

提供：LMSYS Org

　GPT-4は「Bing」のチャット機能と「ChatGPT Plus」の双方に搭載されており、両者は現時点で利用可能な最高のチャットボットと言えそうだ。また、この結果は米ZDNetが独自に評価したAIチャットボットのランキングとも一致している。

　2位にランクインしたAnthropicのClaude-v1は現時点では一般公開されていないが、先行アクセスのための順番待ちリストに登録できる。

この記事は海外Red Ventures発の記事を朝日インタラクティブが日本向けに編集したものです。

関連

タイトルとURLをコピーしました