その学習データ本当に合法?
「Sora」は2024年12月10日にOpenAIがリリースした動画生成AI。プロンプトや参考動画を入れて生成ボタンを押すと、綺麗な動画が出てきます。
OpenAIのアカウントを持っていて、月3,000円からの課金さえしてしまえば、誰でも動画生成ができてしまいます。
そんなホットなSoraについて今議論されているのは「Soraが、なんの動画を見て学習しているか」です。生成された動画を見ると、ゲーム配信のデータを学習に使っている可能性が出てきました。
名作ゲーム映像(のようなもの)を再現
Soraのような大規模言語モデルは、基本的に大量のデータを学習した上でユーザーから打ち込まれたプロンプトを読み取り分析してアウトプットをしています。
ただし、学習した内容をほぼコピーしたアウトプットをしてしまうという欠点もあります。これは無断で作品を学習データとして利用されたクリエイターから大きな反発を受けることもあります。
現在Soraがどんなゲームデータを利用しているかは明らかにされていませんが、OpenAIは2月にSoraを初公開した際にMinecraftの動画でモデルに学習させたことについて言及しています。その他のゲームデータをどれくらい学習しているかわからないものの、Soraはスーパーマリオ風のゲーム映像やCall of DutyのようなFPS、アーケード格闘ゲームを生成することができます。
さらにSoraは、大手のライブ配信プラットフォームTwitchの雰囲気を理解しているようで、有名Twitch配信者の映像を再現できていることも確認されています。
腕のタトゥーまで再現していることから、Twitchのようなゲーム配信のデータも含めて学習していると推測されています。
OpenAIは商標キャラクターを描写することを防ぐフィルタリングを導入しており、直接的に権利侵害するプロンプトで関連する動画は生成されません。しかし、実際には名作ゲームの映像が再現できているということは、Soraの学習データに含まれている可能性が十分考えられるということ。
学習データの出典と法的なリスク
過去には出版業界で著者や出版社が知的財産の複製が権利侵害にあたるとしてGoogleを訴えたこともありました。この訴えに対して裁判所はGoogleがGoogle Booksというデジタルアーカイブのために数百万冊の書籍をコピーしたことは許容されると判断し、出版側は敗訴しました。
もし今後権利者側が訴えを起こして裁判所がAI企業に有利な判決を下したとしても、そのAIを利用したユーザーが違法行為で非難されるリスクを完全に免れるわけではありません。
例えば、生成されたモデルが著作権で保護された作品を再現し、それを誰かが公開または商用利用などをした場合、その人は知的財産権の侵害で責任を問われる可能性もあります。
AIの功罪に向き合うべきときが来ている
もちろんSoraがクリエイティブ制作の現場にもたらす影響は大きく、頭の中でイメージしたものをすぐに映像化できるということは非常に有益なことです。誰かに説明する時、映像制作の現場でもそれをプロンプトだけで具現化することができることは制作の時間を圧倒的に短縮することができます。
イメージも映像になれば相手に伝えやすく、一部でも動画生成AIに置き換えればこれまで撮影にかかっていたコストも減らすことができます。映像制作に参入するハードルがぐっと下がることで、多様な好みにマッチした映像作品が手に届く未来もそう遠くはないはずです。
一方で、誰でも利用できる分アウトプットされる映像が既存作品の著作権に抵触していないかを判断するのが難しくなっています。これまでは映像が基本的に人の手によって作られてきたので、それが無意識にパクリだったということはあまり存在しなかった(存在しても公開前のチェックによって防がれる) わけです。
AI企業が訴えるフェアユースはいったいどこまで真実で、グレーで、どこからが違法なのか。私たちはAIの素晴らしいところを享受しながらも、その強烈な光から生まれる影とも向き合わなければいけません。
Source: techcrunch, OpenAI, NIKKEI