画像生成AI「Stable Diffusion(AUTOMATIC1111版)」で生成した画像の種類に合わせて「Extras」からキレイに拡大する方法まとめ

GIGAZINE



画像生成AI「Stable Diffusion」をブラウザ上で簡単に操作できるウェブUIパッケージ「AUTOMATIC1111版Stable Diffusion web UI」は、超解像アルゴリズムのESRGANを使って低解像度の画像を高解像度にしながら拡大するアップコンバートの機能「Extras」が搭載されています。また、アルゴリズムに利用できるESRGANにはさまざまな種類があり、簡単に追加することも可能。そこで、実際に公開されているReal-ESRGANを導入して、手元にある画像がどれだけキレイに拡大できるか試してみました。

Dependencies · AUTOMATIC1111/stable-diffusion-webui Wiki · GitHub
https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Dependencies#esrgan-upscaling

AUTOMATIC1111版Stable Diffusion web UIをローカル環境に導入するやり方は以下の記事にまとめられています。

画像生成AI「Stable Diffusion」を4GBのGPUでも動作OK&自分の絵柄を学習させるなどいろいろな機能を簡単にGoogle ColaboやWindowsで動かせる決定版「Stable Diffusion web UI(AUTOMATIC1111版)」インストール方法まとめ – GIGAZINE


また、AUTOMATIC1111版Stable Diffusion web UIの基本的な使い方は以下の記事を読むとよくわかります。

画像生成AI「Stable Diffusion」で崩れがちな顔をきれいにできる「GFPGAN」を簡単に使える「Stable Diffusion web UI(AUTOMATIC1111版)」の基本的な使い方 – GIGAZINE


画像のアップスケーリングに使われるESRGAN系のモデルは、以下のWikiにまとめられています。

Model Database – Upscale Wiki
https://upscale.wiki/wiki/Model_Database

「実写の画像」「絵画」「アニメ」「マンガ」など、拡大する画像によって適したESNGANモデルが異なりますが、今回は最も汎用(はんよう)的なタイプである「Universal Models」からモデルをダウンロードします。各モデルが表になってまとまっていますが、チェックするのは「Model Name(モデル名)」「Scale(拡大倍率)」「License(ライセンス)」「Purpose(用途)」「Sample(サンプル)」でOK。具体的に拡大したい画像が決まっている場合は、PurposeやSampleを見てモデルを選んでください。


今回はこの「realesrgan-x4minus」をダウンロードするため、モデル名である「realesrgan-x4minus」をクリックします。なお、ライセンスの「WTFPL」はパブリックドメインの供与と同等条件のライセンスです。


realesrgan-x4minusはOneDriveで配布されています。ESRGANモデルのファイルは「.pth」という拡張子です。「realesrgan-x4minus.pth」をクリック。


「ダウンロード」をクリックします。


ダウンロードするモデルファイルの保存先は、AUTOMATIC1111版Stable Diffusion webUIのディレクトリ内にある「ESRGAN」フォルダ。


こんな感じでESRGANモデルを手元にダウンロードしたら、AUTOMATIC1111版Stable Diffusion webUIを起動し、上部にある「Extras」をクリック。「Single Image」をクリックして拡大したい画像を選択するか、あるいは拡大したい画像をドラッグ&ドロップします。


今回読み込んだのは、Stable Diffusionで作成した絵を320×320ピクセルに縮小したもの。


画像が読み込まれたら、設定を行い、「Generate」をクリックするだけ。各種設定は以下の通り。
・Resize:拡大率
・Upscaler1:アップスケーリング用アルゴリズム1つ目
・Upscaler2:アップスケーリング用アルゴリズム2つ目
・Upscaler 2 visibility:2つ目のアルゴリズムの可視度
・GFPGAN visibility:顔面修復用アルゴリズムであるGFPGANの可視度
・CodeFormer visibility:Transformerベースの顔面修復アルゴリズムであるCodeFormerの可視度
・CodeFormer weight:CodeFormerの重み、数値が高いほど影響が弱くなる。


すると、こんな感じで拡大した結果が表示されました。


いろいろな設定で拡大してみたので、比較画像を用意してみました。左側の画像がアップスケール前の画像を単純に拡大したもので、右がAUTOMATIC1111版Stable Diffusion web UIのExtrasを使ってアップスケールした後の画像。中央に表示されるスライドバーを左右に動かすことで簡単に見比べることができます。

realesrgan 4xminusと、デフォルトで搭載されているrealesrgan 4x anime 6Bを使ってアップスケーリングしたものが以下。単純拡大した画像と比べると明らかにノイズが低減し、線がハッキリしたものになっているほか、塗りもクッキリしています。


今度はUniversalUpscalerV2のSharp_101000_Gとrealesrgan 4xminusで4倍に拡大してみました。この設定もある程度ハッキリしています。realesrgan 4xminusとrealesrgan 4x anime 6Bで拡大したものよりも、わずかにクールな色合いに調整されている印象。


のNeutral_115000_swaGとSharper_130000_Gで4倍拡大したケース。ノイズは明らかに減っていますが、主線がクッキリしたという感じではなく、少しふわっとした雰囲気があります。


なお、Extrasに任意画像を選択したりドラッグ&ドロップしたりするほかに、AUTOMATIC1111版Stable Diffusion web UIで生成した画像を、出力結果下にある「Send to extras」をクリックすることで直接Extrasに入力することが可能。例えば1920×1920ピクセルという大きなサイズの画像をStable Diffusionで作成しようとすると膨大な時間がかかる上、PC性能によってはエラーを吐いてしまうこともありえます。しかし、例えば最初480×480ピクセルで画像を生成し、その後Extrasで4倍拡大をすれば、大きなサイズで高解像度な画像を簡単に生成することができるようになります。


この記事のタイトルとURLをコピーする

Source

タイトルとURLをコピーしました