動画生成AI「Sora」はゲーム配信のデータをかなり食べてるっぽい

その学習データ本当に合法？

｢Sora｣は2024年12月10日にOpenAIがリリースした動画生成AI。プロンプトや参考動画を入れて生成ボタンを押すと、綺麗な動画が出てきます。

OpenAIのアカウントを持っていて、月3,000円からの課金さえしてしまえば、誰でも動画生成ができてしまいます。

そんなホットなSoraについて今議論されているのは｢Soraが、なんの動画を見て学習しているか｣です。生成された動画を見ると、ゲーム配信のデータを学習に使っている可能性が出てきました。

名作ゲーム映像（のようなもの）を再現

Soraのような大規模言語モデルは、基本的に大量のデータを学習した上でユーザーから打ち込まれたプロンプトを読み取り分析してアウトプットをしています。

ただし、学習した内容をほぼコピーしたアウトプットをしてしまうという欠点もあります。これは無断で作品を学習データとして利用されたクリエイターから大きな反発を受けることもあります。

現在Soraがどんなゲームデータを利用しているかは明らかにされていませんが、OpenAIは2月にSoraを初公開した際にMinecraftの動画でモデルに学習させたことについて言及しています。その他のゲームデータをどれくらい学習しているかわからないものの、Soraはスーパーマリオ風のゲーム映像やCall of DutyのようなFPS、アーケード格闘ゲームを生成することができます。

さらにSoraは、大手のライブ配信プラットフォームTwitchの雰囲気を理解しているようで、有名Twitch配信者の映像を再現できていることも確認されています。

腕のタトゥーまで再現していることから、Twitchのようなゲーム配信のデータも含めて学習していると推測されています。

OpenAIは商標キャラクターを描写することを防ぐフィルタリングを導入しており、直接的に権利侵害するプロンプトで関連する動画は生成されません。しかし、実際には名作ゲームの映像が再現できているということは、Soraの学習データに含まれている可能性が十分考えられるということ。