Stability AIは23日、画像生成AIの最新版「Stable Diffusion XL 0.9(SDXL 0.9)」をリリースした。4月にリリースし好評を得たStable Diffusion XLのベータ版に続くもので、画像と構図の詳細が大幅に改善されたという。このモデルはClipDropからアクセスでき、APIも近日公開予定。7月中旬にはバージョン1.0としてオープンリリースを予定している。
SDXL 0.9ではパラメータ数(モデルがトレーニングされたニューラルネットワークすべての重みとバイアスの合計)が大幅に増加したことにより、詳細が改善された。35億のパラメータを持つ単一モデルと、58億のパラメータを持つ複数モデルによるアンサンブルパイプラインからなり、オープンソースモデルの中で最大級のパラメータ数を持つという。
この2つのモデルのアンサンブルパイプラインの第2ステージモデルは、第1ステージで生成された出力により細かいディテールを追加するために使用される。また、これまで使用していた最大級CLIPモデルの1つである「CLIP ViT-g/14」を含む2つのモデルを用いることで、処理能力に加え、奥行き感のある、1,024×1,024の高解像度のリアルな画像生成を実現したという。
対応PC環境は、16GB以上のメモリ、最低8GB以上のVRAMを持つGeForce RTX 20以降のビデオカード、Windows 10/11、もしくはLinux。Linuxユーザーなら16GBのVRAMを持つ対応AMDビデオカードも利用できる。
モデルの詳細とテストについては、近日中にブログで公開する。
コメント