2022年8月に一般公開されたStable Diffusionは、入力した言葉に従って画像を自動で生成してくれるAIです。そんなStable Diffusionを画像生成AIだけではなく強力な非可逆画像圧縮コーデックとして使う方法について、ソフトウェアエンジニアのマシュー・ビュールマン氏が解説しています。
Stable Diffusion based Image Compression | by Matthias Bühlmann | Sep, 2022 | Medium
https://matthias-buehlmann.medium.com/stable-diffusion-based-image-compresssion-6f1f0a399202
実際に以下の画像はすべて512×512ピクセルに圧縮した画像で、サンフランシスコ市街を撮影したもの。1枚目がJPEG形式、2枚目がWebP形式、3枚目がStable Diffusionによる圧縮です。
お菓子屋のショーケース。1枚目がJPEG形式、2枚目がWebP形式、3枚目がStable Diffusionによる圧縮です。
アルパカの顔。1枚目がJPEG形式、2枚目がWebP形式、3枚目がStable Diffusionによる圧縮です。
いずれのケースでも、Stable Diffusionを使った圧縮がもっともノイズが少なく、なおかつ圧縮後のファイルサイズが最も小さくなっていることがわかります。
Stable Diffusionで画像を生成する上で、画像を画像空間から何らかの潜在空間にエンコードおよびデコードするのがVariational Auto Encoder(VAE)です。潜在空間表現とは任意のソース画像(3×8または4×8ビットで512×512ピクセル)を低解像度(64×64ピクセル)・高精度(4×32ビット)で表現したものです。
例えば以下の512×512ピクセル・24bppの画像を……
VAEで64×64ピクセル・128bppの画像にエンコードするとこんな感じ。
そしてエンコードした画像を512×512ピクセル・24bppの画像にデコードしたものが以下。一見すると元に戻っただけのように見えますが、実はアルパカの首輪に書かれている文字がやや読みにくくなっているなど、わずかに損失は発生しています。
ビュールマン氏は、Stable Diffusionを画像圧縮コーデックとして利用するために、VAEで生成された潜在画像表現をどこまで効率よく圧縮できるかを検討しました。潜在画像をダウンサンプリングしたり、既存の非可逆画像圧縮方式を適用したりすると、再構成された画像が大きく劣化してしまったとのこと。一方で、VAEのデコードは、潜在画像の量子化に対して非常に強いことがわかったそうです。
VAEで潜在画像を8bitに量子化することで、画像表現のデータサイズは64×64×4×8bit=13万1072bit=約16.4kBとなります。さらにフロイド-スタインバーグ・ディザリングを使って256個のパレット化した表現を使うことで、データサイズは64×64×8ビット+256×4×8ビット=4万960bit=約5.12kBとなります。
潜在パレットにはフロイド-スタインバーグ・ディザリングによってノイズが発生するため、デコード結果には歪みが発生してしまいます。しかし、Stable Diffusionは潜在画像からノイズを除去する仕組みなので、数回の反復を行うことでデコード結果は元画像に近いものになります。
ただし、Stable Diffusionは画質よりも画像コンテンツそのものに影響を与えるという性質があります。Stable Diffusionのバージョン1.4で潜在空間に小さな文字や顔を保持できないため、一見画質がキレイであるように見えても、実際はまったく別の画像になってしまっていることもあるとのこと。ビュールマン氏は、バージョン1.5でこの問題が解決されれば、Stable Diffusionの画像圧縮アルゴリズムとしての有用性がさらに高まるだろうと述べています。
この記事のタイトルとURLをコピーする