「Stable Diffusion」のような画像生成AIにバックドアを設けることを義務化するよう呼びかける論文が発表される

GIGAZINE



最新の論文で、Stable Diffusionのような画像生成AIに「バックドア」を設けることを義務化すべきとマサチューセッツ工科大学(MIT)の研究者たちが呼びかけました。画像生成AIにバックドアを設けることで、これらを開発する企業は規制当局と協力してAIアプリが同意のないディープフェイクの作成に利用されることを防ぐことができるようになると主張しています。

Raising the Cost of Malicious AI-Powered Image Editing
https://arxiv.org/pdf/2302.06588.pdf

A Call to Legislate ‘Backdoors’ Into Stable Diffusion – Metaphysic.ai
https://metaphysic.ai/a-call-to-legislate-backdoors-into-stable-diffusion/

MITの研究者たちが発表した論文では、画像生成AIに用いられる最新の拡散モデルでは、これまで有効だった画像データに耐性性を持たせるような方法が効果を発揮しなくなってきていると指摘されています。そのため、MITの研究者たちは「画像生成AIにバックドアを設けることを義務化すべき」と主張。

MITの研究者は、「純粋に技術的な枠組みを超え、大規模な拡散モデルを開発する組織・エンドユーザー・データホスティングサービス・プラットフォームなどによるコラボレーションを政策的な方法で奨励あるいは強制する必要があります。具体的には、開発者がAPIを提供することでユーザーとプラットフォームは拡散モデルによる操作から画像を保護することができるようになります」と記し、拡散モデルに使用される画像を保護するためには政府当局などによる強制が必要になる可能性を示唆しています。

加えて、「重要なのは、このAPIが『前方互換性』すなわち将来開発されるモデルに対して提供される免疫の有効性を保証することにあります。これは、将来的にリリースされるモデルをトレーニングする際に、『敵対的摂動に対する免疫化』をバックドアとして組み込むことで達成できます」と記しました。

「敵対的摂動」とは、学習済みモデルの出力を故意に誤ったものにすることを目的として入力に与えられるノイズです。この敵対的摂動に対する「免疫化」を行うことで、拡散モデルの出力を悪意のあるものに意図的に変えるような行為を防ぐことができます。

以下の画像は上段が免疫化を行っていない拡散モデルで、下段が免疫化を行った拡散モデル。「Immunization(免疫化)」を行うことで、「悪意のある画像の出力(Adversary)」を実行しようとすると、背景がグレーになり正しい画像が出力されなくなってしまいます。研究チームはこのような仕組みを「バックドア」と呼んでおり、これを義務化することで拡散モデルの悪用を防ぐことができるとしています。


なお、研究チームが挙げた「免疫化」のための方法は、ひとつが「エンコーダー攻撃」で、もうひとつが「拡散攻撃」です。

拡散モデルは最初に入力した画像を潜在ベクトル表現にエンコードし、その後、ユーザープロンプトの画像を生成するために使用されます。MITの論文が提唱するエンコーダー攻撃では、勾配降下法を用いることでエンコーダーに画像を非適合させます。これにより、不適切な画像を入力した場合は破壊的な画像にマッピングされ、正しい画像生成ができなくなるわけです。


もうひとつの拡散攻撃は、エンコーダー攻撃が失敗する可能性がある場合に有効な免疫化のための方法です。拡散攻撃では役に立たない無関係な画像、例えば四角い純粋な灰色に特別にマッピングされるコンポーネントを画像に組み込むことで、ユーザーテキストプロンプトを積極的に無視するよう強制するという方法。これは拡散モデルのアーキテクチャに依存するため、手法に大きな変化が加えられれば免疫化が正しく行われなくなる可能性が高いです。

MITの研究者たちは拡散モデルにバックドアを仕込む上で、前方互換性に対応する必要があると述べていますが、これは「システム開発においては旧テクノロジーをサポートしなければいけない」というを意味します。もしそうなれば「開発における制限要因になる可能性がある」とテクノロジーメディアのMetaphysic.aiは指摘。制約の事例としては、「画像生成AIの開発陣がリファクタリングにおいて制約を受ける可能性」や「古いコードをサポートするために専用のサブシステムを構築しなければいけなくなる可能性」などがあります。

なお、前方互換性に対応しようとしたことでシステム開発に影響が出た例として、Metaphysic.aiはDOSに依存していたWindows 95・Windows 98・Windows MEなどを挙げています。

なお、研究チームは論文のアイデアについて、「拡散モデルが不適切な画像でトレーニングされるのを防ぐ方法」ではなく「ユーザーがあらゆるウェブ上のデータを自由に解釈することを阻止するための方法」であると主張しています。

この記事のタイトルとURLをコピーする

Source

タイトルとURLをコピーしました