OpenAIの新モデル「o1-preview」、賢くなってるけど知ったかぶりもする

止まらないAIの進化。ただ、今回のOpenAIの新モデルには、懸念点もあるようです。

OpenAIは、9月12日に新たな大規模言語モデルのプレビュー版「o1-preview」をリリースしました。以前のモデルよりも優れた性能を発揮するものの、注意すべき点も見つかっています。

4oを上回る高いパフォーマンス

OpenAIが強調するそのパフォーマンス。まず驚くのは、Codeforcesによるプログラミングコンテストで89パーセンタイルのスコアを獲得し、国際数学オリンピックの予選テストでは83%の正答率を記録しました。これは、GPT-4oの14%の正答率と比較して非常に高い数字です。

OpenAIのCEOであるサム・アルトマン氏は、「o1-preview」、および同時にリリースした「o1-mini」モデルは、「汎用的な、複雑な推論ができるAIという、新しいパラダイムの始まり」であると述べています。しかし、「o1にはまだ欠点と制限があります。初めこそ大きな驚きはあるものの、使い続けるとその印象は薄れていきます」とも付け加えています。

ChatGPTを使ったことがある人なら一度は経験したことがあるはずの、望ましい答えに到達するまで、何回もプロンプトを与え続けるあの作業。Chain-of-Thoughtと呼ばれる、AIに段階に分けて答えさせるこの作業ですが、どうやら新しいAIモデルは、これをやってくれるらしい。ユーザーが追加のプロンプトを与える必要なく、AI自身が裏で実行してくれるというのです。

間違いを認識して訂正すること、さらに複雑な作業工程を簡略化することも学びます。また、現在のアプローチがうまくいかないときには、別のアプローチを試みることを学びます。

とOpenAIは述べています

それっぽい答えをしてしまう1o

こうした技術の発展が、これまでにないパフォーンマンスを発揮する支えになっている一方で、懸念点も発見されています。いくつかのケースで、o1モデルが意図的にユーザーを欺くことが指摘されています。

o1-previewを使用した10万件のコミュニケーションをテストした結果、約800件の回答が不正確なものでした。そしてそのうちの約3分の1の不正確な回答について、AIモデルが思考プロセス上では答えが間違っていることを認識していたにもかかわらず、間違った答えを提供していたことが示されています。

こうした現象は主に、o1-previewが記事、ウェブサイト、本、またはインターネット検索なしでは容易に検証できない情報を提供することを求められた際に発生します。結果として、o1-preview自身がそれらしい答えを提供することになってしまいます。

と、OpenAIは本モデルのシステムカードに記載しています

o1は、不正利用のされやすさ、間違えた回答をする頻度、年齢や性別、人種に対する偏見を示す頻度を計測するさまざまなテストにおいて、これまでの最先端モデルであるGPT-4oよりもよい結果を残しました。

しかし、曖昧な質問をされたときに、”答えを知らない”と返答すべきところを、独自の回答を提供する可能性がGPT-4oより高いことも判明しました。

OpenAIは新しいモデルのトレーニングに使用されたデータについて、詳しい情報を公開していません。公開されているデータと、パートナーシップを通じて得た独自のデータを組み合わせてトレーニングを行なったとだけ述べています。

タイトルとURLをコピーしました