ChatGPTで書かれた科学論文を99%以上の精度で検出できるツールが開発される

GIGAZINE



近年は文章や画像を生成するAIの発展が著しく、スタンフォード大学が行った調査では、学生の約17%が「課題または試験にChatGPTを使っている」と回答しています。カンザス大学のヘザー・デゼール氏らの研究チームはChatGPTを使って書かれた論文を検出するツールを開発しました。研究チームによると、検出の精度は99%以上とされています。

Distinguishing academic science writing from humans or ChatGPT with over 99% accuracy using off-the-shelf machine learning tools: Cell Reports Physical Science
https://doi.org/10.1016/j.xcrp.2023.101426


AI-generated academic science writing can be | EurekAlert!
https://www.eurekalert.org/news-releases/991128


Scientists claim over 99 percent identification of ChatGPT • The Register
https://www.theregister.com/2023/06/08/scientists_ai_recognition/

従来の人間が書いた文章かAIが生成した文章かを見分けるツールの多くは、専門的な科学論文用に特別に構築されたものではありませんでした。そのためデゼール氏らの研究チームは、科学論文用に正確に人間とAIを見分けることができるツールの開発を行いました。

研究チームは生物学や物理学などさまざまな分野から64個の論文を選択し、ChatGPTに対して同じ内容を説明するための文章を128個生成させました。合計1276もの段落がChatGPTによって生成され、アルゴリズムの学習に利用されました。

研究チームによると、人間が書いた論文かChatGPTが生成した論文かを判断するにあたって基準となるのは、人間とChatGPTの文章の間にある「文体の違い」だそうです。論文を発表するような科学者はChatGPTよりも専門的な単語やフレーズを知っていることが多く、多様な単語を含む長い段落を書く可能性があるとされています。また、人間が書いた論文にはChatGPTによって生成された文章にあまり含まれない、疑問符や括弧、セミコロンなどが多く含まれることが指摘されています。


また、段落当たりの文字数や単語数が一定になりやすいChatGPTに対して、人間が書く論文は段落当たりの文字数や単語数、文の長さが一定ではありません。また人間が書いた論文では「しかし」「ただし」「なぜなら」といった単語が論文内に多く登場する一方で、ChatGPTが生成した論文では、「その他」や「研究者は」といったフレーズを多く使用するとされています。

その後、人間によって書かれた30個の論文と論文の要旨を基にChatGPTが生成した60個の文章を用いてアルゴリズムのテストが行われました。実験の結果、研究チームが開発したツールは人間が書いた論文とAIが生成した論文をほぼ100%の精度で識別できたことが報告されています。また論文における個々の段落ごとにツールを使用すると、検出の精度はわずかに低下し、約92%の精度で識別に成功しました。研究チームによると、今回のツールは市場で入手可能なAIテキスト検出ツールの精度を大幅に上回っているとのこと。


今後の目標として研究チームは、より広範な種類の学術論文でのツールの使用を検討しているとともに、AIが進歩してさらに人間に近い文章を生成するようになった際に、自分たちのツールが役立つかどうかについて調査を行うことを挙げています。

一方で海外メディアのThe Registerは「AIで生成されたテキストを検出するように設計された多くのソフトウェアは、信頼性の低さが問題となっています」と述べ、「ChatGPTで生成されたにもかかわらず、人間の手で軽く編集された論文に対して、今回のツールがどれほど正確な検出ができるかどうかは明らかにされていません。そのため、ツールによって示された結果はあくまで参考程度に受け取るべきです」と主張しています。

文章を書いたのが人間なのかAIなのかを見分けるツール「GPTZero」の精度はどれほどなのか? – GIGAZINE


また、デゼール氏は「このツールを使って、学生がChatGPTを用いて論文を書いたかどうかを判断できますか」という質問に対して、「このツールはAIと専門的な科学者を判断することに長けている一方で、学生が書いた論文やエッセイを判断するように設計されていません」と述べています。

この記事のタイトルとURLをコピーする

Source

タイトルとURLをコピーしました