注目キーワード
  1. AI
  2. 社内SE
  3. パープレ
  4. Gemini
  5. ChatGPT
生成AIについての情報を発信していきます。

Gemini Proを使った画像生成入門 ※ただし英語のみ!

はじめに

本ブログ記事では、Google AI が開発した最新の大規模言語モデルである Gemini Pro を用いた画像生成について解説します。日本語環境ではまだ画像生成機能が利用できないため、英語でのプロンプトを用いた手順、他の生成AIとの比較、メリットとデメリットについて詳しく説明します。

筆者自身は自宅のローカルPCにStable Diffusionの環境を持っており、Stable Diffusionについては少し触ったことがあります。Gemini Pro を用いた画像生成はどうなのでしょうか。ちなみにですが、他の主要画像生成AIとの違いについて簡単に比較してみます。

他の生成AIとの比較

ざっくりと比較すると、以下の様な感じになります。

DALL-E 2: 画像生成に特化した AI モデルで、日本語に対応しています。精度の高い画像生成が可能な一方、無料利用枠が限られていることや、生成された画像の商用利用が制限されている点がデメリットです。

Midjourney: 画像生成に特化した AI モデルで、日本語に対応しています。独特な画風を得意とし、DALL-E 2 と同様に無料利用枠が限られています。

Stable Diffusion: オープンソースの画像生成 AI モデルで、日本語にも対応できます。自由度の高い画像生成が可能な一方、学習データセットや環境構築に専門知識が必要となります。

また、Gemini Proの画像生成におけるメリットとデメリットについて、以下Bardの回答です。

メリット

  • 精度の高い画像生成: 他の生成AIと比較しても、精度の高い画像生成が可能です。
  • 幅広いプロンプト対応: 詳細なプロンプト記述により、より精度の高い画像生成が可能になります。
  • 商用利用可能: 生成された画像を商用利用することができます。

デメリット

  • 日本語環境: 現時点では日本語環境での画像生成がサポートされていません。
  • コスト: Google Cloud Platform の利用料金がかかります。
  • 専門知識: プロンプト作成や実行には、ある程度の専門知識が必要となります。

無料と書いていながらコストがかかるのかは不明ですし、専門知識についても人並みでしかないですが、さっそくGemini Pro を用いた画像生成を試してみたいと思います。

画像生成手順

冒頭でも述べております通り、日本語環境ではまだ画像生成機能が利用できません。そのため、英語にて質問を投げかけてあげる必要があります。試しに以下のようにGemini Proに質問を投げかけてみます。まだ少ししか触っていないので記述の仕方がわかりませんが、どうやらStable Diffusionとは異なるようです。

Stable Diffusionのようにうまい具合のプロンプトを探して何度も試すというよりは、Gemini Proが生成するために必要な情報を教えてあげるようなイメージでしょうか。とりあえず、英語ができない筆者はGoogle翻訳で生成したい画像の情報を打ち込み、Gemini Proで画像生成してみました。以下が原文そのままです。

Please generate an image of a Japanese anime/manga-style girl that meets the following conditions. She has long red hair and blue eyes. She is at the seaside. The upper half of her body is clearly visible.

なるほど。口で伝えるような感じで、生成したい画像の特徴を伝えるのがコツなのでしょうか。Stable Diffusionの時に使っていたプロンプトをいくつか交えながら試行錯誤してみます。どうでしょうか。

Please generate images that are cute, moe, and look like screenshots of Japanese anime, KyoAni, or manga-style girl anime that meet the following criteria. She has long red hair and blue eyes. She is at the seaside. The upper half of her body is clearly visible.

かなり可愛くなりました!なんとなく形はつかめてきたので、何回か「さらに生成」をしてみようと思います・・と思いましたが「さらに生成」をクリックする・・のですが、うまく画像が生成されません。よって、もう一度同じプロンプトを打って画像を生成してみます。

なんとなく操作感がつかめてきたような気がします。Stable Diffusionのようにプロンプトをいろいろ探して調べて組み合わせるというよりは、直感的に使えるようですね。外したくない特徴を抑えたうえでGemini Proに伝えれば、かなり精度の高い画像生成がされるようです。

おわりに

いかがでしたでしょうか。Gemini Proでも英語のプロンプトで画像生成できることがわかりました。Stable Diffusionのように大量の画像を指定したサイズなどで生成しまくることは苦手かもしれません。ただ完全に無料で、ローカルの環境が無くても使えることは大きなメリットだと感じます。

Gemini Proは、画像とテキストを統合的に処理できるマルチモーダルAIモデルです。画像キャプション生成、画像検索、画像翻訳、画像質問応答など、様々な用途で利用できます。日本語環境での利用はまだサポートされていませんが、今後対応される可能性があります。

最新情報をチェックしよう!
>Twitter(X)やってます!

Twitter(X)やってます!

中小企業の一人情シス・社内SEのAsakiが
ブログの更新情報など呟いています!

フォローバックいたします。
お気軽にフォローしてください!