画像生成AI「Stable Diffusion」を数枚の画像でファインチューニングする「Textual Inversion」のメリットとデメリットを実例と共に解説

画像生成AIのStable Diffusionに数枚の画像を学習させ、AIモデル全体を再学習させて調整(ファインチューニング)を行う手法が「Textual Inversion」です。このTextual Inversionのメリットとデメリットについて、韓国の掲示板サイトであるArca.LiveのAI学習について語る掲示板でㅇㅇ氏が実例を交えて解説しています。

임베딩(텍스쳘 인버전)에 대해 아라보자 – 파일 첨부 – AI그림 학습 채널
https://arca.live/b/hypernetworks/60910400

Textual Inversionは、Stable Diffusionに数枚の画像を追加学習させて調整し、学習させた画像に近い画像を生成できるモデルを作るというもの。具体的にTextual Inversionでどういう画像が生成できるのかは以下の記事を読むとよくわかります。

「この画像っぽい○○を生成」を画像生成AI「Stable Diffusion」で実現する技術「Textual Inversion」が登場 – GIGAZINE

一方、画像生成AIのNovelAIで画像の品質を上げるために採用されている技術が「Hyper Network」です。これはAIのニューラルネットワーク内の複数のポイントに単一の小さなニューラルネットワークを構築し、画像の精度を上げるというものです。

超高精度なイラストを生成できると話題の「NovelAI」は本家Stable Diffusionにどんな改善を加えたのか？ – GIGAZINE

ㅇㅇ氏によれば、Textual InversionとHyper Networkは駆動原理が異なるそうで、Textual InversionはHyper Networkよりも学習結果物の容量が格段に小さくなるとのこと。

Textual InversionはHyper Networkよりも学習速度が遅いため、絵柄や画風という抽象的なものよりも、特定の物やキャラクター、特徴などを学習させるのに適しています。また、絵柄や画風を覚えさせるためには塗りや色使いなどがある程度統一されたデータを用意する必要があるため、Hyper Networkよりも学習データの準備が難しくなります。

また、Hyper Networkは一度に1つの埋め込みしかできませんが、それでもさまざまなパターンの構図や素材、技法が使われたデータを大量に用意して学習させればOK。そのため、イラストの精度を上げるのであれば、Hyper Networkの方が適しているといえます。ただし、特定の絵柄や特徴を覚えさせるのであれば、Textual Inversionの方が扱いやすいといえます。

以下は流出したNovelAIの軽量化モデルで、プロンプトを「(masterpiece:1.2), cute 1girl, (child:1.05), loli, small breasts, looking at viewer, suspender skirt」、ネガティブプロンプトを「lowres, ((((ugly)))), (((duplicate))), ((morbid)), ((mutilated)), (((tranny))), (((trans))), (((trannsexual))), (hermaphrodite), extra fingers, mutated hands, ((poorly drawn hands)), ((poorly drawn face)), (((mutation))), (((deformed))), blurry, ((bad anatomy)), (((bad proportions))), ((extra limbs)), cloned face, (((disfigured))), (((more than 2 nipples))), extra limbs, (bad anatomy), gross proportions, (malformed limbs), ((missing arms)), ((missing legs)), (((extra arms))), (((extra legs))), mutated hands, (fused fingers), (too many fingers), (((long neck))), picture frame」、生成ステップ数は28、サンプラーはEuler、CFGスケールは11，シード値は3587590841で生成した基本例の画像。

そして以下がTextual InversionによってAs109氏のイラストでファインチューニングしたモデルで、基本例と同じプロンプトに＜As109＞というタグを追加し、同じ設定で生成したイラスト。

同様に武田弘光氏のイラストでTextual Inversionによってファインチューニングしたモデルが生成したイラストはこんな感じ。

また、以下が朝凪氏のイラストでファインチューニングしたモデルによるイラスト。ㅇㅇ氏によると、朝凪氏のモデルで生成した絵はどれもアダルト要素が強くなってしまうため、ネガティブプロンプトにNSFW(職場閲覧注意、アダルト要素)を付け加える必要があったそうです。

さらに、Textual Inversionのメリットが複数の要素で再調整が可能だということ。例えば以下の画像はカントク氏のイラストでファインチューニングしたモデルが生成したイラスト。

そして、カントク氏のイラストと、ビクトリア朝のレース画像でファインチューニングしたモデルで生成したイラストが以下。よく見ると、カチューシャやリボンがレースやフリルのようなデザインで描かれています。Hyper Networkは単一の追加学習しかできませんが、Textual Inversionは複数の埋め込み学習を同時に行えるのが大きなポイント。