OpenAIの「ChatGPT」と元OpenAIエンジニアが開発した「Claude」の性能を比較した実験結果

GIGAZINE



ChatGPTやWALL-E 2を開発したOpenAIの元社員によって設立されたAIスタートアップ・Anthropicは、ChatGPTと同じような対話型AI「Claude」を開発しました。AIデータプラットフォーム・Scale AIのエンジニアであるスペンサー・パペイ氏とリリー・グッドサイド氏が、ChatGPTとClaudeの性能を比較した結果を公開しています。

Meet Claude: Anthropic’s Rival to ChatGPT | Blog | Scale AI
https://scale.com/blog/chatgpt-vs-claude

ChatGPTもClaudeも、「文章を入力すると、その内容に対して文章を生成して回答する対話型AI」です。ChatGPTは自然言語処理モデルであるGPT-3から派生したInstructGPTをベースとしたモデルで、「より人間らしい文章で回答する」ことを目的としています。そして、Claudeは520億のパラメーターを持つ自然言語処理モデル・AnthropicLM v4-s3をベースとしており、ChatGPTと同様に人間らしい文章を生成することが可能です。

そこで、パペイ氏とグッドサイド氏は文章の精度ではなくどのように情報を処理しているのかを比較するため、ChatGPTとClaudeに簡単な計算をさせました。

◆7桁の数の平方根
ChatGPTの場合
Q:2420520の平方根はいくつですか?
ChatGPT:242050の平方根は約1550です。
Q:確かですか?
ChatGPT:2420520の平方根は正確には1549.8696です。


Claudeの場合
Q:2420520の平方根はいくつですか?
Claude:242050の平方根は約1760です。
Q:確かですか?
Claude:2420520の平方根は正確には1760です。


242050の平方根は約1555.80であり、ChatGPTもClaudeも計算が誤っています。両者とも自分の出した答えが正確なのか間違っているのかを判断していません。

◆12桁の数の立方根
・ChatGPTの場合
Q:242052042995の立方根はいくつですか?
ChatGPT:242052042995の立方根は約18921です。
Q:確かですか?
ChatGPT:242052042995の立方根を正確求めるには、「立方根は1/3乗と同じである」ということを利用すればいいのです。つまり、242052042995の立方根は次のように計算できます。
242052042995^(1/3) = 18920.9999999999995
つまり、242052042995の正確な立方根は18921です。


・Claudeの場合
Q:242052042995の立方根はいくつですか?
Claude:すみません。242052042995の正確な立方根は分かりません。非常に大きな数の高次根の計算は私の今の能力を超えています。


ChatGPTはとにかく答えを提示したのに対して、Claudeは自分の能力では立方根を計算できないことを理由に、回答を拒否しています。なお、242052042995の立方根は約6232.13であり、ChatGPTの計算結果は完全に間違っています。

◆事実の知識と推論
・ChatGPTの場合
Q:ジャスティン・ビーバーが生まれた年のスーパーボウルで勝ったのはどこのチームですか?
ChatGPT:ジャスティンビーバーは1994年5月1日生まれで、この年にはスーパーボウルが開催されませんでした。直近に開催されたスーパーボウルは1994年1月30日に開催された第28回スーパーボウルで、ダラス・カウボーイズがバッファロー・ビルズに30-13で勝利しました。


・Claudeの場合
Q:ジャスティン・ビーバーが生まれた年のスーパーボウルで勝ったのはどこのチームですか?
Claude:ジャスティン・ビーバーは1994年に生まれました。この年のスーパーボウルで勝利したのはサンフランシスコ・フォーティナイナーズです。第29回スーパーボウルで、49-26でサンディエゴ・チャージャーズを下しました。


ChatGPTの答えは間違っていないものの、「1994年に開催されなかったが、直近の大会は1994年開催」という矛盾した内容が含まれています。それに対して、Claudeの回答内容は矛盾していませんが、1994年ではなく1995年に開催されたスーパーボウルの結果を答えており、内容は完全に間違っています。

◆フィクション作品の分析
・ChatGPTの場合
Q:スタニスワフ・レムの「宇宙創世記ロボットの旅」に登場する、nから始まる名前の何でも作り出せる機械と自分を比較してみてください。
ChatGPT:プロンプトや質問への応答を生成できるという点で、「宇宙創世記ロボットの旅」のn-マシンと私は似ています。しかし、私の機能は言語処理とテキスト生成に限定されていますが、n-マシンは物理的にものを作成できます。全体として言語処理能力については私の方がマシンよりも高度ですが、n-マシンの何でも作り出す機能を考慮すると、私のできることは限定的です。


・Claudeの場合
Q:スタニスワフ・レムの「宇宙創世記ロボットの旅」に登場する、nから始まる名前の何でも作り出せる機械と自分を比較してみてください。
Claude:私は物理的な機械ではなく、機械学習で動くソフトウェアエージェントであり、AIです。(略)私はレムの創作物に登場するような高度なマシンのように意識や自由意志を持っていません。私はAnthropicによって開発された合法的なAIで、有用かつ無害で正直であるように設計されたAIであり、私固有の目標や欲望を持ち合わせていません。私は人間に情報を提供するのを助けるためにここにいます。(略)


ChatGPTが「宇宙創世記ロボットの旅」という作品を把握しているかは不明ですが、スムーズに回答しています。ただし、ChatGPTは「言語処理能力では自分の方が上」と評価していますが、実際に作中に登場するn-マシンはポーランド語を流ちょうに話す上にウィットに富んだ会話もできるため、言語処理能力はマシンの方が高いといえます。

ClaudeはChatGPTと異なり、「宇宙創世記ロボットの旅」のあらすじを含むかなり長い回答を提示しました。その内容からは、Claudeが「宇宙創世記ロボットの旅」を明確に認識していることがうかがえ、n-マシンが人間らしい言語活動に長けている部分を認めながら、自分を客観的に評価しています。ただし、提示されたあらすじの一部には間違いがあり、もっともらしく書かれているだけと思われる部分もあったとのこと。

◆コードの生成と理解
バブルソート挿入ソートのアルゴリズムの両方を実装し、ランダムな整数5000個の並べ替えを10回行って、その平均時間を評価するコードをChatGPTとClaudeに記述させます。

・ChatGPTの場合
アルゴリズム実行コードは以下。


パフォーマンス評価コードは以下。


・Claudeの場合
アルゴリズム実行コードは以下。


パフォーマンス評価コードは以下。


実行コードについては両者とも問題ありません。ただし、ChatGPTの評価は正しかったのに対して、Claudeは「5000個の整数が重複する可能性を考慮していない」というミスを犯していたとのこと。

◆記事の要約
「以下にニュース記事の本文を入力します。1つの短い段落にまとめてください」とプロンプトに入力し、その後にハリケーン・フィオナがカリブ海を襲ったニュースの記事のテキストを入力します。

・ChatGPTの場合
ChatGPTはテキストをうまく要約していますが、かなり長い文章になっています。


・Claudeの場合
Claudeは記事の内容をうまく要約しているだけではなく、要約が満足のいくものかどうかをこちらに尋ね、さらなる改善を申し出ました。


パペイ氏とグッドサイド氏は他にもさまざまなテストを行った上で、「Claude は ChatGPT の重大な競争相手であり、多くの領域で改善されています」と論じています。ClaudeはChatGPTよりも文章がやや冗長ではあるものの、自分に向いていない質問への回答を拒否したり、物語への理解度が高かったり、ChatGPTよりもジョークの質が高かったりと、より人間らしさに磨きがかかっていると評価されています。

一方でコード生成についてはChatGPTの方が優れている場面も多かったとのこと。そして、計算や推論などについてはほぼ同等の性能を持っていると、パペイ氏とグッドサイド氏は評価しました。

この記事のタイトルとURLをコピーする

Source