Stable Diffusionの改良版「Stable Diffusion XL(SDXL)」の技術レポートが公開

画像生成AI・Stable Diffusionからパラメーター数が大幅に増加した新モデル「Stable Diffusion XL(SDXL)」の技術レポートが公開されました。

generative-models/assets/sdxl_report.pdf at main · Stability-AI/generative-models · GitHub
https://github.com/Stability-AI/generative-models/blob/main/assets/sdxl_report.pdf

Stable Diffusion XL technical report [pdf] | Hacker News
https://news.ycombinator.com/item?id=36586079

SDXLは従来のStable Diffusionと比べて3倍の大きさのUNetバックボーンを備えています。モデルパラメーターの増加により、SDXLではアテンションブロックや大規模なクロスアテンションコンテキストを利用することができるようになっており、これを用いてSDXLは複数のアスペクト比でのトレーニングが可能となっています。

また、SDXLにより生成されたサンプルの視覚的な忠実度を向上させるために、画像をプロンプトとして入力して新たな画像を生成する技術「image-to-image(img2img)」を使用してモデルを改良しているそうです。

以下のグラフは画像生成AIが作成した画像がどの程度ユーザーの嗜好(し好)に合致していたかをまとめたグラフ。縦軸が高いほどユーザーに好まれる画像を生成できたということを意味します。SDXLはすでにStable Diffusion 1.5や2.1よりも明らかに優れたパフォーマンスを示しており、リファインメントステージを追加(SDXL w/Refiner)することで、パフォーマンスをさらに向上させることも可能であることが示されました。

また、これまでのバージョンのStable Diffusionでは被写体の頭や足がフレームから切り取られた半端な画像が生成されることが頻繁にありました。これはトレーニングデータに任意のトリミング画像(被写体の一部が正しくフレームに入りきっていない画像)が含まれることで、AIが「被写体の頭や足がフレームから切り取られた画像」を作成することを覚えてしまったためです。

SDXLではこの問題を解決するために、トレーニング中にランダムなトリミング画像を使用しながら、AIモデルに「トレーニングに使用している画像が一部トリミングされてしまったもの」であることを認識させられるように、モデルに座標を追加しています。座標情報を追加することで、AIモデルは被写体を中心に保ちながらさまざまなサイズの画像を生成することが可能になる模様。

以下はStable Diffusionのバージョン1.5、2.1、SDXLで同じプロンプトで画像を生成し、それぞれの生成画像を比較したもの。左が「フランスのナポレオンに扮した猫がチーズを持っているプロパガンダポスター」というプロンプトで画像を生成した場合で、右が「火を吐くドラゴンのアップ、映画のようなショット」というプロンプトで画像を生成した場合。Stable Diffusionのバージョン1.5や2.1では猫やドラゴンが見切れているケースが散見されますが、SDXLではきれいに猫やドラゴンがフレーム内に収まっているのがわかります。

SDXLは単一のモノリシックモデルではなく、2段階のモデルを採用しています。2段階のモデルのうち1つは「『画像のほとんどの部分』を取得するようにトレーニングされたモデル」で、もう1つが「1つ目のモデルの出力を改良し、テクスチャや細部を修正するモデル」です。これらのモデルは別個にトレーニングすることが可能なので、学習効率も向上します。