画像生成AIは「手」を描くのが苦手。では、動画生成AIが苦手なものは?

Microsoft(マイクロソフト)のリサーチチームが、新たなAIツール「VASA-1」に関するレポートを公開。VASA-1は、1枚の画像から動画を生成することができます。その性能はなかなかのもの。…よーく見なければ、の話ですけどね。

VASA-1とは?

VASA-1は、1枚の写真(人の顔)から、その人が話している動画を生成します。元になる画像も実在する人物である必要はなく、AI生成された架空の人物の画像でもOK。生成された動き話す動画は、表情や瞬きなど非常にリアルです。

画像を生成するAIは、現時点では手・指の描写が不得意だと言われていますが、動画生成AIにも、どうやら苦手なことがあるようです。

VASA-1サンプル動画を見て、何か気づきますか?

歯がヘンテコ

動画全体を見ていると気づきません。話し手の目を見ていると気づきません。が、1つ1つ細かく見ているとヘンテコなところがあるんです。

それは、

どうやら、VASA-1は歯の描写が不得意のようです。

Gif: Microsoft / Gizmodo US

歯の大きさや並びが定まらず、口の開閉によって伸びたり縮んだりしているように見えます

VASA-1による別のサンプル動画を見ると、顔全体はリアルなのに、歯だけやっぱりどこかヘンテコ。

また別のサンプルの男性の場合、歯問題が軽減されているようですが、これは口を大きく開けずに話している影響なのかも。

高性能AI生成のリスク

VASA-1が優れていることの1つに、そのスピードがあります。OpenAIの動画生成AI Soraと比較すると、Microsoftいわく、レイテンシーはわずか0.17秒(NVIDIA RTX 4090 GPU搭載のデスクトップを使用)。現段階では、そのスピード感で動画サイズ512×512を最大50fpsで生成可能。ほぼリアルタイムで精度の高い生成動画を作れるということです。

リサーチチームは、VASA-1の性能の高さによって起こり得るフェイク動画問題も念頭においており、だからこそデモツールやAPI含め、一般公開には慎重な姿勢をとっています。(現段階ではVASA-1の一般公開予定なし。)

一方で、コミュニケーションの方法に問題を抱える人々のアクセサビリティの向上、必要な場合はセラピー視点での提供、教育の平等性の強化など、社会にとってプラスとなる使用シーンもレポートでは指摘しています。

Source: CB