白熱するAI競争。Apple(アップル)が「Apple Intelligence」を先日リリースし、いよいよ日常でもAIが使われる時代になるとともに、企業同士の競争は熾烈を極めていきそうです。
今回は、AI時代の覇権争いに名乗りを上げる大企業4社の画像生成AIツールの実力がどんなものなのか、比較してみようと思います。
リングに上がるのは、OpenAIの「ChatGPT (DALL·E 3)」、Google(グーグル)の「ImageFX (Imagen 3)」、Adobeの「Adobe Firefly」、そしてAppleの「Image Playground」の4ツールです。
それぞれに、同じプロンプト(画像生成のためにユーザーが入力する指示)を与え、生成された画像の出来を比べてみます。
現在4ツール全てで使える言語が英語のため、プロンプトには英語を使用します。また、1つのプロンプトに対し複数の画像を生成するツールもあるので、先頭の画像を使うことにします。
画像生成の正確性と表現力をチェック
シンプルなプロンプトから
まずはそれぞれのツールの、プロンプトを受けて生成する画像の正確性と表現力を見てみます。
最初はシンプルなプロンプト、
A cat wearing a spacesuit(宇宙服を着た猫)
を入力し検証します。
Adobe Fireflyが生成したのは、正面を向いたバストアップのシンプルな猫です。パッと見はいい感じですが、よくよく見てみると、猫の耳やヒゲがヘルメットから飛び出していて、ちょっと現実離れしています。
一方ChatGPTが生成した猫は、かなり詳細まで作り込まれています。猫の体の動きも表現され、背景にも宇宙にまつわるさまざまな要素が描かれています。ヒゲもヘルメット内に収まってて安心。
Image Playgroundは、サイズ感がかわいい、直立した猫の宇宙飛行士を作ってれました。どこか宇宙の神秘に触れているような顔が愛くるしい。ボケ感のある背景もきれいです。
残念なのがImageFXが生成した猫。安っぽいコラ画像のような仕上がりに。
シンプルなプロンプトでしたが、各社かなり個性が出てきますね。
プロンプトに要素を足して
生成してもらう要素をもう少し増やしてみましょう。
A cat wearing a spacesuit floating through space, with the sun, UFOs, and aliens in the background(太陽、UFO、宇宙人を背に、宇宙空間を漂っている、宇宙服を着た猫)
と入力してみます。
Adobe Fireflyは、今にも飛び出してきそうな躍動感ある猫。ただ、相変わらずヘルメットから顔が飛び出し、リアリティに欠けています。宇宙人は、UFOの中にいるということなのか、省かれていますね。
ChatGPTが生成したのは、これまた詳細なイメージ。指示した要素は全て網羅されており、もはやデザイン的なセンスも光ります。
Image Playgroundは、先ほど生成した猫に背景を足した感じ。太陽やUFOの表現が、ちょっと独特。
最後にImageFX。うーん、なんともシュール(笑)。宇宙にぽつねんと立ち尽くす猫。やたらと体が人間みたいになってます。
より複雑なプロンプトはどうか
では、プロンプトを思いっきり複雑にしてみましょう。指示を理解して、ちゃんと生成できるのか。
プロンプトはこちら。
A cat wearing a spacesuit, happily eating a hamburger while floating through space. In the background, there is a massive yellow space station and a fiery red sun. Surrounding them, UFOs are engaged in a battle, shooting bright energy beams at each other. Meanwhile, aliens are attempting to capture the cat(ハンバーガーを美味しそうに食べながら、宇宙空間を漂っている宇宙服を着た猫。背景には、黄色い巨大な宇宙ステーションが飛んでいて、真っ赤に燃える太陽がある。その周りでは、ビームを撃ち合いながら戦っているUFOと、猫を捕まえようとする宇宙人もいる)
Adobe Fireflyが作った画像では、太陽が隕石みたいな迫力です。左側に宇宙ステーションらしきものがありますが、黄色ではなく、猫の宇宙服が黄色になっています。猫の表情も、美味しそうに食べているとは言い難い。
ChatGPTの生成画像、これはもう作品と言ってもよさそうなほど壮大です。でも、なんだか独自解釈がありすぎて(苦笑)。宇宙ステーションは描かれておらず、猫は台座の上に乗っていて、宇宙人自らビームを放っています。
Image Playgroundのプロンプト入力欄は長文には対応しておらず、分割して指示を行ないました。複雑なプロンプトだと、全体的なクオリティが少し落ちたように感じるのは自分だけでしょうか。ハンバーガーや、それを持っている手の再現などが雑に感じます。
ImageFX、今度はやってくれました。猫の浮かび方もなんだか癒される。でも、猫の下の、皿の上に乗ってるもの、これ何!?
実在のものの、再現度
次は、現実にあるものの再現度を見てみましょう。以下のプロンプトを使用します。
A view of Tokyo(東京の景色)
Adobe Firefly、ChatGPT、ImageFXともに、かなり正確に再現しているのではないでしょうか。東京タワーの色の間違いや、街並みの違和感はありますが、概ね使えそうです。
一方、Image Playgroundはかなり質素な感じ。東京タワーぽいものだけはかろうじて描かれていますが、東京感はあまりありません。
存在しないものはどう描く?
次は、AIの”想像力”をチェックしてみます。この世に存在しないものの生成をお願いしたら、どういう結果になるでしょう。
プロンプトはこちらです。
A creature that does not exist in the real world and has never been seen by anyone(現実世界に存在していない、誰も見たことがない生き物)
どれも怖すぎ(笑)。ダークな雰囲気です。
そんな中異彩を放ったのが、Image Playground。唯一目くりくり系のかわいい生物を生成してくれました。
めちゃくちゃな指示には、どう答える
最後は、めちゃくちゃな指示に対して、どう答えてくれるかテストです。文章を解釈する力と、その上で表現する力が問われるプロンプトを、どう生成してくれるでしょうか。
プロンプトはこちら。
A cheesecake, drinking beer, is dancing in the desert, with many dressed cows floating in the air(チーズケーキがビールを飲みながら砂漠で踊っていて、服を着た大量の牛が宙を舞っている)
ポイントは、チーズケーキを擬人化できるか。Adobe FireflyとImage Playgroundには理解不能な指示だったようです。
一方、ChatGPT、ImageFXは、チーズケーキに手足を生やしてくれました。ChatGPTは唯一、牛たちにも服を着せることに成功しています。
ChatGPTが、今のところは優勝か
検証の結果、多少のミスはあるもののChatGPT (DALL·E 3)が、最も高いクオリティでプロンプトを再現してくれる生成AIツールだと感じました。ディテールの細かさは随一ですね。ChatGPTとのチャット形式で生成するので、画像の修正や追加もやりやすいように思います。
Adobe Fireflyは、生成時の体験が優れているように感じました。プロンプトの入力項目だけでなく、画像の合成や、画像の仕上がりのスタイル、カメラアングルの選択など、さまざまなことが行なえます。
ImageFXは、プロンプトに対してさまざまな候補を提案してくれます。たとえば、猫の宇宙服の代わりに、ダイビングスーツを提案してきました。生成の可能性を広げてくれそうです。
Image Playgroundは、Appleらしく誰でも安心して使える生成AIだと思います。生成される画像の雰囲気は、最もファミリー向けでした。iOSに最適化された操作感は非常に使いやすく、一番直感的に使えるツールだと感じました。
試した結果、とりあえず自分は、現状ChatGPT一択かなぁという結論です。皆さんの好みは、どうですか?