「Stable Diffusion XL 0.9」リリース。画像/構図の詳細が大幅向上

SDXLベータ版(左)とSDXL 0.9(右)の出力比較

　Stability AIは23日、画像生成AIの最新版「Stable Diffusion XL 0.9(SDXL 0.9)」をリリースした。4月にリリースし好評を得たStable Diffusion XLのベータ版に続くもので、画像と構図の詳細が大幅に改善されたという。このモデルはClipDropからアクセスでき、APIも近日公開予定。7月中旬にはバージョン1.0としてオープンリリースを予定している。

　SDXL 0.9ではパラメータ数(モデルがトレーニングされたニューラルネットワークすべての重みとバイアスの合計)が大幅に増加したことにより、詳細が改善された。35億のパラメータを持つ単一モデルと、58億のパラメータを持つ複数モデルによるアンサンブルパイプラインからなり、オープンソースモデルの中で最大級のパラメータ数を持つという。

　この2つのモデルのアンサンブルパイプラインの第2ステージモデルは、第1ステージで生成された出力により細かいディテールを追加するために使用される。また、これまで使用していた最大級CLIPモデルの1つである「CLIP ViT-g/14」を含む2つのモデルを用いることで、処理能力に加え、奥行き感のある、1,024×1,024の高解像度のリアルな画像生成を実現したという。

　対応PC環境は、16GB以上のメモリ、最低8GB以上のVRAMを持つGeForce RTX 20以降のビデオカード、Windows 10/11、もしくはLinux。Linuxユーザーなら16GBのVRAMを持つ対応AMDビデオカードも利用できる。

　モデルの詳細とテストについては、近日中にブログで公開する。

SDXLベータ版(左)とSDXL 0.9(右)の出力比較その2。プロンプト: ✨aesthetic✨ aliens walk among us in Las Vegas, scratchy found film photograph

SDXLベータ版(左)とSDXL 0.9(右)の出力比較その3。プロンプト: *~aesthetic~*~ manicured hand holding up a take-out coffee, pastel chilly dawn beach instagram film photography ネガティブプロンプト: 3d render, smooth, plastic, blurry, grainy, low-resolution, anime

プロンプト: beautiful scenery nature glass bottle landscape, purple galaxy bottle (SDXL 0.9 – 1024×1024)

プロンプト: magical realism; manicured fingers holding a piece of white heart-shaped sea glass up against the setting sun realistic film photography (SDXL beta – 480×480)

Source