OpenAIの新モデル「o1-preview」、賢くなってるけど知ったかぶりもする

止まらないAIの進化。ただ、今回のOpenAIの新モデルには、懸念点もあるようです。

OpenAIは、9月12日に新たな大規模言語モデルのプレビュー版｢o1-preview｣をリリースしました。以前のモデルよりも優れた性能を発揮するものの、注意すべき点も見つかっています。

4oを上回る高いパフォーマンス
それっぽい答えをしてしまう1o
1. 共有:
2. 関連

4oを上回る高いパフォーマンス

OpenAIが強調するそのパフォーマンス。まず驚くのは、Codeforcesによるプログラミングコンテストで89パーセンタイルのスコアを獲得し、国際数学オリンピックの予選テストでは83％の正答率を記録しました。これは、GPT-4oの14％の正答率と比較して非常に高い数字です。

OpenAIのCEOであるサム・アルトマン氏は、｢o1-preview｣、および同時にリリースした｢o1-mini｣モデルは、｢汎用的な、複雑な推論ができるAIという、新しいパラダイムの始まり｣であると述べています。しかし、｢o1にはまだ欠点と制限があります。初めこそ大きな驚きはあるものの、使い続けるとその印象は薄れていきます｣とも付け加えています。

ChatGPTを使ったことがある人なら一度は経験したことがあるはずの、望ましい答えに到達するまで、何回もプロンプトを与え続けるあの作業。Chain-of-Thoughtと呼ばれる、AIに段階に分けて答えさせるこの作業ですが、どうやら新しいAIモデルは、これをやってくれるらしい。ユーザーが追加のプロンプトを与える必要なく、AI自身が裏で実行してくれるというのです。

間違いを認識して訂正すること、さらに複雑な作業工程を簡略化することも学びます。また、現在のアプローチがうまくいかないときには、別のアプローチを試みることを学びます。

とOpenAIは述べています。

それっぽい答えをしてしまう1o

こうした技術の発展が、これまでにないパフォーンマンスを発揮する支えになっている一方で、懸念点も発見されています。いくつかのケースで、o1モデルが意図的にユーザーを欺くことが指摘されています。

o1-previewを使用した10万件のコミュニケーションをテストした結果、約800件の回答が不正確なものでした。そしてそのうちの約3分の1の不正確な回答について、AIモデルが思考プロセス上では答えが間違っていることを認識していたにもかかわらず、間違った答えを提供していたことが示されています。