算数や計算が苦手な対話型チャットAIに数学的推論を正しく行わせるには途中のステップをチェックしながら訓練するのがよいとOpenAIが提案

GIGAZINE



ChatGPTGoogle BardなどのチャットAIは、OpenAIのGPTやGoogleのPaLM 2などの大規模言語モデルをベースにしており、人間が書いたものと同じくらい自然な文章で対話を行うことが可能です。しかし、あくまでも言語処理のAIであるため、チャットAIに数学の問題をお願いすると、簡単な計算ミスをしてしまうことがよくあります。OpenAIが、推論の各ステップに報酬を与えることでチャットAIの数学解決能力が向上すると報告しています。

Improving mathematical reasoning with process supervision
https://openai.com/research/improving-mathematical-reasoning-with-process-supervision

「チャットAIは数学が苦手」とのことなので、実際にChatGPT・Google Bard・Bing Chatの3種類に、以下の3つの問題を解いてもらいました。1問目はシンプルな整数同士の積算、2問目は因数分解、3問目は連立方程式です。

問題1:2023×1225を計算してください。
ChatGPTにそのまま問題をぶつけたところ、計算結果は「2478475」と回答。しかし、正解は「2478175」なので、これは間違い。


Google Bardは見事正解。


他にも整数同士の積算問題を聞いてみたところ、全問正解でした。


Bing Chatの答えは「2479075」で、間違い。


問題2:次の式を因数分解してください。
3x2-17x-6

ChatGPTに因数分解をお願いしてみたところ、手順の説明と共に以下のように回答。答えは(3x+1)(x-6)なので、正解。


Google Bardも同様に因数分解の手順を示しながら回答してくれました。答えもちゃんと正しいものでした。


Bing Chatは検索エンジンのBingと統合されているので、回答は検索結果を添えるだけ。答えは合っていますが、途中経過はわかりません。


問題3:次の3次連立方程式を解いてください。
a+b+c=0
2a+2b+c=3
2a+3b+2c=1

ChatGPTは拡大係数行列を使った解法を選択。問題自体は中学生でも解ける平易なものですが、中学校では習わない少し高度なテクニックを使ったことに驚かされました。


しかし、解法の選択こそよかったものの、ChatGPTはなぜか「1」を「-1」にしてしまうという致命的なミスを犯します。


ChatGPTは自分のミスに気付かぬまま拡大係数行列を使って解き続け、解答を提示。しかし、実際は「a=2、b=1、c=-3」が正解でした。


Google Bardは3つの式を組み合わせようとするスタートはよかったのですが、なぜか「6a+6b+4c=4を6で割るとa+b+c=2/3」というシンプルな間違いをしてしまったため、正解にはたどり着けませんでした。


Bing Chatは検索エンジンに頼らず自力で頑張ってくれましたが、変数を書き間違えるという凡ミスを犯してしまい、結局正解することはできませんでした。


このように、チャットAIはプログラムではありますが、計算や推論は得意ではないという特徴があり、簡単な計算や数学の問題でも間違えることが多くあります。これは「幻覚」と呼ばれる論理的な誤りが生まれてしまうからで、この幻覚を軽減することが大規模言語モデルやチャットAIにとって目下の課題となっています。

そこでOpanAIは、大規模言語モデルの最終結果に基づいてフィードバックを提供する「outcome supervision(結果監視)」だけではなく、大規模言語モデルが行う推論の各ステップにフィードバックを提供する「process supervision(プロセス監視)」を用いて、幻覚を検出するような報酬モデルをトレーニングする方法を提案しています。

以下のグラフは、結果監視(青)とプロセス監視(赤)を行うことで、数学問題に対する大規模言語モデルの成績(縦軸)が改善されている様子を示しています。これを見ると、プロセス監視の方が結果監視よりも効率良く成績が向上していることがわかります。


OpenAIは「今回の実験結果が数学の領域を超えてどこまで広く一般化できるかは不明であり、数学以外の領域におけるプロセス監視の影響を調査することが今後の研究にとって重要だと思われます。もし数学以外の領域でもプロセス監視が有効であるならば、プロセス監視は結果監視よりも性能が高く、かつ合理的な手法という長所を兼ね備えたトレーニング方法ということがいえるかもしれません」と述べています。

この記事のタイトルとURLをコピーする

Source

タイトルとURLをコピーしました