ChatGPTで生成された文章がすぐわかるように透かしを入れる試み

OpenAIが発表した対話型チャットAI「ChatGPT」は文章生成能力が非常に高い一方で、「それっぽい無意味な文章」を作ってしまうこともあることから、コーディングQ＆AサイトのStack Overflowでは一時的に使用が禁止になっています。こうした状況を踏まえて、OpenAIの技術者スコット・アーロンソン氏が、生成されたテキストに透かしを入れるツールを開発していることを明らかにしました。

Shtetl-Optimized » Blog Archive » My AI Safety Lecture for UT Effective Altruism
https://scottaaronson.blog/?p=6823

OpenAI’s attempts to watermark AI text hit limits | TechCrunch
https://techcrunch.com/2022/12/10/openais-attempts-to-watermark-ai-text-hit-limits/

ChatGPTは文章生成AIとして精度が非常に高く、大学生レベルの試験の自由記述問題に合格したという事例が報告されています。これは裏返すと、ChatGPTにテストの問題を伝えることで代わりに回答してもらうカンニングができるということでもあり、このほか、高品質なフィッシングメールやマルウェア作成に悪用されるおそれがあります。

また、ChatGPT使用時の注意事項に挙げられているように、「それっぽい内容に見えるが実際には無意味な回答」を返すことがあります。

こうした問題から、必要だと考えられているのが、ChatGPTなどのAIが生成した文章を判別可能な「透かし」を入れることです。

ChatGPTでも用いられている「GPT(Generative Pre-trained Transformer)」において、「入力」とは一連のN個の単語のことを指し、トークンとも呼びます。「出力」は、トークンの最後に配置される可能性が高いと推測される単語のこと。詳しい仕組みは以下の記事にまとまっています。

OpenAI開発のテキスト生成AI「GPT-3」がどんな処理を行っているのかを専門家が解説 – GIGAZINE

GPTは前のトークンの文字列を条件として、次に生成するトークンの確率分布を常に生成しています。ニューラルネットワークが分布を生成したあと、OpenAIのサーバーが分布に従ってトークンをサンプリングします。あるいはパラメーターに応じて分布に修正を行いサンプリングします。このパラメーターが「0」ではない限り、サンプリング結果はある程度のランダム性があり、毎回異なるトークンを得ることができます。

アーロンソン氏によれば、透かしを入れるときには、次のトークンを完全にランダムに選ぶのではなく、OpenAIだけが秘密鍵を知る暗号疑似ランダム関数を使用して、トークンを疑似ランダムで選ぶことになるとのこと。エンドユーザーが、出力時の乱数が真か疑似ランダムか見分けらることができなくても、秘密鍵を知っていればGPTが生成したものだとわかる、というわけです。

なお、「OpenAIがサーバーを制御しているならわざわざ透かしを入れなくてもよいのでは？」という、当然出てくるであろう疑問に対して、アーロンソン氏は「GPTを誰がどのように利用しているかを秘密にしたまま、GPTが特定のテキストを生成したかしなかったか、どうやって明らかにするのでしょうか？」とその難しさを指摘しています。

アーロンソン氏によれば、すでにOpenAIのエンジニアであるヘンドリック・キルヒナー氏によって透かし入れツールのプロトタイプができており、かなりうまく機能しているとのこと。

また、将来的にはGPTだけではなく、DALL・Eについても透かしを入れたいと考えているそうです。画像への透かしとしては、ぱっと思いつくのはピクセルレベルのものですが、除去するのが簡単なため、概念レベルでの透かしを入れるつもりだとのこと。ただ、うまくいくかどうかはまだ不明だそうです。

この記事のタイトルとURLをコピーする

Source