生成AIの種類とその魅力

AI技術の進歩に伴い、さまざまな生成AIが登場し、クリエイティブなプロジェクトに革命をもたらしています。生成AIとは、テキスト、画像、音楽などのコンテンツを生成するAIモデルのことを指します。以下に、代表的な生成AIの種類を紹介します。

  1. GPTシリーズ(OpenAI): 自然言語処理に特化した生成AIで、テキストの生成や会話の応答に利用されます。特にChatGPTは、さまざまな質問に対して高精度な応答を提供します。
  2. DALL-E(OpenAI): テキストから画像を生成するAIモデルで、ユーザーが入力した説明に基づいて独自の画像を作成します。
  3. MidJourney: 芸術的な画像を生成することに特化したAIで、クリエイティブなプロジェクトに最適です。
  4. Stable Diffusion: テキストから高品質な画像を生成するオープンソースのAIモデルで、多様なスタイルの画像生成が可能です。今回は、こちらの紹介になります。

Stable Diffusionの紹介

Stable Diffusionは、テキストから画像を生成する拡散モデルに基づいた生成AIです。このモデルは、テキストプロンプトに基づいてリアルな画像を生成する能力があり、クリエイティブな作業に多用されています。特に、オープンソースで提供されているため、開発者やアーティストが自由に利用・カスタマイズできる点が特徴です。

Stable Diffusionを体験できるサイト

Stable Diffusionを試してみたい方のために、いくつかのオンラインで体験できるサイトを紹介します。

  1. Stable Diffusion Web UI: Stable Diffusionをブラウザ上で操作できるユーザーフレンドリーなインターフェースを提供しています。テキストから画像を生成するだけでなく、画像の編集や加工も可能です。さまざまなパラメータを調整して、スタイルや画質を細かくコントロールできます。
  2. Stable Diffusion Online: 簡単な操作で高品質な画像を生成できるサイトです。最近リリースされたStable Diffusion XLモデルを使用しており、ユーザーのテキストプロンプトに基づいて迅速に画像を生成します。また、プライバシー保護に配慮し、個人情報を収集しないことを特徴としています。
  3. Hugging Faceでのデモ: Hugging Faceで提供されているStable Diffusionのデモを通じて、モデルをテストしながらテキストから画像を生成できます。AIモデルに関心のある開発者や研究者にとっても便利なリソースです。

これらのサイトは、Stable Diffusionを手軽に体験できる優れた選択肢ですが、今回は、ローカル環境でのカスタマイズが可能なStable Diffusion Web UIを利用いたします。

Stable Diffusion Web UIのインストール手順

Stable Diffusion Web UIをインストールするには、以下のPC環境で作業を行いました。

  • PC: MacBook Pro 13-inch, 2020, Four Thunderbolt 3 ports
  • OSバージョン: macOS 14.6.1
  • CPUプロセッサ: 2 GHz クアッドコアIntel Core i5
  • グラフィックス: Intel Iris Plus Graphics 1536 MB
  • メモリ: 16GB

注釈: 以降の手順は、Python3.10(3.9以下でも、3.11以上でも駄目です)がインストール済みであることを前提としています。もし、Python3.10がまだインストールされていない場合は、公式サイトからダウンロードしてインストールしてください。

インストール手順

  1. リポジトリのクローン: GitHubからStable Diffusion Web UIのリポジトリをクローンします。

    git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
    cd stable-diffusion-webui
    
  2. 依存関係のインストール: 必要なパッケージをインストールします。

    pip install -r requirements.txt
    
  3. Web UIの起動: Web UIを起動します。

    ./webui.sh
    

    ※初動時は、いろいろとダウンロードが自動で行われているため、時間がかかります。

ブラウザが自動的に立ち上がり、以下の画面が表示されます。

起動後の動作確認

Web UIが起動したら、ブラウザで http://localhost:7860/ にアクセスします。
(※実際は、`./webui.sh`で自動的にブラウザが起動します。)
正しく起動していれば、Stable Diffusion Web UIのインターフェースが表示されるはずです。

  • 簡単なプロンプトを入力: テキストボックスに簡単なプロンプト(例: “a sunset over the mountains”)を入力し、「Generate」ボタンをクリックしてみてください。数分経過後(PCのパフォーマンスによる)、画像が生成され、画面に表示されます。
  • 生成された画像を確認: 生成された画像がプロンプトに基づいて正しく表示されているか確認します。これにより、Stable Diffusionが正常に動作していることを確認できます。

Stable Diffusionのインストールと設定で遭遇した問題と解決方法

自分の場合、Stable Diffusionの起動時に、次のエラーに遭遇しました。

AssertionError: torch not compiled with CUDA enabled

このエラーは、PyTorchがCUDA(NVIDIA GPUを使用した高速計算の技術)をサポートしていないために発生します。私の環境では、CUDAが有効でないPyTorchがインストールされていたため、CUDA関連の操作ができず、このエラーが発生しました。

解決方法

この問題を解決するために、さまざまな手順を試しましたが、最終的には次のコマンドを使用して解決しました。

./webui.sh --precision full --no-half

このコマンドは、計算精度をフルに保ちながら、半精度演算(half precision)を無効にします。これにより、CUDAがサポートされていない環境や特定のハードウェア設定での問題を回避することができました。結果として、エラーは解消され、Stable Diffusion Web UIを無事に起動できました。

まとめ

Stable Diffusionは、テキストから高品質な画像を生成できる強力なツールです。インストールと設定に少し手間取るかもしれませんが、正しい手順に従うことで、絵心の無い自分にもデザイナーにも負けないような画像生成が可能になります(ただし用法用量を守ること!)。この記事が、同様の問題に直面している方々の助けになれば幸いです。



ギャップロを運営しているアップフロンティア株式会社では、一緒に働いてくれる仲間を随時、募集しています。 興味がある!一緒に働いてみたい!という方は下記よりご応募お待ちしております。
採用情報をみる