Stable Diffusionとは?ローカル・ブラウザでの使い方やモデルのインストール方法を解説

Stable-Diffusion 使い方 料金体系 特徴 解説

Stable Diffusionは、入力されたテキストや画像を基に、自動で新しい構成の絵を生み出す画像生成AIです。
リリースからたったの一年で1,000万以上のユーザーを集め、約6億9,000万枚もの画像を生成してきた、人気のオープンソースソフトウェアなんです!

さらに2023年11月17日には、日本に特化した「Japanese Stable Diffusion XL」も登場。日本での話題はさらに盛り上がる一方です。

この記事ではStable Diffusionの特徴から利用手順まで網羅し、5分後には生成画像を作れるくらいわかりやすい形でまとめました。
ぜひ記事の最後まで目を通してみてください。

なお弊社では、生成画像AIについて無料相談を承っています。こちらからお気軽にご相談ください。
無料相談で話を聞いてみる

目次

Stable Diffusionとは?

Stable Diffusionは入力されたテキストや画像を基に、先進的なアルゴリズムである「深層拡散モデル」を使用して独自の生成画像を生成するAI技術です。そのすごいところは……

● プロンプトを元に、ノイズから画像を描画
● テキストだけで全く新しい画像が生成可能(Text-to-Imageモデル)

というもの。PhotoshopやCanvaのレイヤー透過で無数の画像をかけ合わせていくと最後は判別不能なノイズとなるのですが……その逆処理が深層拡散モデルなんです!

具体的にはプロンプトの命令文に沿ってAIがノイズ除去の制御を行うため、既視感を持ちながらも全く新しい画像が出力できます。

Stable Diffusion XLとは

「Stable Diffusion XL(SDXL)」は、2023年に発表された新モデルです。

2002年にリリースされたStable Diffusionと比較して機能が大きく進化し、高品質の画像生成が可能になりました。

さらにSDXL1.0は、Stable Diffusionの最新画像生成AIモデルです。

開発されたモデルの中でも最高の品質を誇り、他の画像生成AIとの比較テストにおいても高い評価を受けています。

Stable Diffusionの料金は無料?

Stable Diffusionは基本無料で使えます。

ブラウザ版・ローカル環境の2種類ありますが、課金する場合はブラウザ版のみとなります。

下記3つのブラウザ版は無料版もありますが、有料で利用も可能です。

サービス名金額
Stable Diffusion XL1,365/月
Dream Studio10ドル
Mage.space15ドル

※上記情報は2023年11月21日時点

  • ローカル環境(無料):無料で使えるが、ハイスペックなパソコンが必要
  • ブラウザ版(無料):無料で使えるが、機能や枚数に制限がある
  • ブラウザ版(有料):有料にはなるが、環境に関係なくある程度自由に使える

このようなイメージです。

(ブラウザ版・ローカル環境の違いについては、もう少し後で解説しています)

なお、ローカル環境向けの派生モデルについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
【Stable Diffusion WebUI Forge】省エネ・高速・高解像度の画像生成モデルを使ってみた

Stable Diffusionのライセンス

Stable DiffusionではCreativeML Open RAIL M Licenseのもと、商用利用・モデル配布等が許可されています。具体的には……

利用用途可否
商用利用⭕️
改変⭕️
配布⭕️
特許使用⭕️
私的使用⭕️
参考:https://github.com/CompVis/stable-diffusion/blob/main/LICENSE

以上のとおりです。

なお派生モデルの配布時には、ライセンス全文のコピーを添える必要があります!ご注意ください。

Stable Diffusionの特徴3つ

Stable Diffusionの特徴は大きく分けて3つあります。

  1. リアル調からアニメ調まで画像生成が可能
  2. ブラウザ&ローカル環境にて無料で使える
  3. 商用利用も部分的に可能

それぞれの内容について、わかりやすく解説します。

リアル調からアニメ調まで画像生成が可能

上記は筆者が「Cute dog」で生成した犬の画像。

Stable Diffusionはリアルな人物像からアニメ風の美少女まで、多岐にわたる画像を生成できます。
リアル調は映画のVFXやCG技術並の美しさを誇り、遠目から見れば現実と虚構の見分けがつかないほど精密な作りです。
アニメ調は流行りのグラデーションを用いており、イラストレーター風から平坦なVtuber風の色合いまで幅広く対応しています。

Stable Diffusionが画像生成AIの中で人気な理由も、リアル調からアニメ調まで1つの技術で網羅できるからです。

Stable Diffusionは商用利用も可能

Stable Diffusionでは、ユーザーが生成したAI画像の商用利用を認めています。

生成された画像について権利を主張しないと公式に発表しており、間違った使い方をしない限り、Stable Diffusionで作成した画像を商用利用することが可能です。

商用利用する場合の注意点

ただし、全ての生成されたAI画像について商用利用が許可されているわけではありません。

参考記事:AIの無断学習、日本の著作権法ではOK 侵害にあたるケースは

参考記事:文化審議会著作権分科会法制度小委員会(第4回)

著作権フリー素材に関しても、利用する際には細かい区分けがあるため注意が必要です。

  1. すべて放棄
  2. 営利目的は不可
  3. 改変可能、ただし報告必須
  4. 改変不可
  5. 出典明記義務
  6. 利用可能、ただし報告必須
  7. 二次配布禁止

Stable Diffusionは元画像を元にして新たな絵を作り出す技術です。

4番目の「改変不可」が記述されているサイト、または画像はStable Diffusionで利用できません。

そしてStable Diffusionを利用してAI画像を生成する際に使用された画像データが、著作権を侵害しているとわかった場合、生成された画像データは商用利用はできません。

具体的な例として、大手ブランドショップのロゴ、スポーツ選手やハリウッドスターのバストアップ写真などが挙げられます。

ネットで見つけた画像を読み込ませて生成した画像が、実は著作権を侵害していた場合、損害賠償請求を受ける可能性があります。

Stable Diffusionを使用して商用利用可能な画像を作成したい方は、フリー素材や商用利用が許可されている画像を用いてください。

Stable Diffusionの使い方は2通り

Stable Diffusionの使い方は2通りあります。

  • ブラウザ環境で使う
  • ローカル環境で使う

ブラウザを介してWebアプリケーションとして利用できるほか、PCにダウンロードしてローカル環境で実行も可能です。

ブラウザ環境で使用する

生成AIやプログラミング言語に慣れてない方は、ブラウザからStable Diffusionに接続するのがおすすめです。

ただしブラウザ利用は枚数制限と課金要素があり、自由度が低いため注意してください。

ローカル環境で使用する

一方で、ローカル環境がおすすめなのは、ハイスペックなゲーミングPCや動画編集に対応したPCを所有している方です。
ローカル環境では、ブラウザ経由の利用では制限されていた機能が解除され、より高度な画像生成が可能です。

どちらにも一長一短のメリット・デメリットがあります。
一度もAI技術に触れたことがない方やStable Diffusionに興味を持っている方は、ブラウザ版の利用から始めるのがおすすめです。

なお、同Stability AIのローカル環境向けLLMについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
【StableLM 2 1.6B】エロにも使える禁断の小型LLM

【Webブラウザ編】Stable Diffusionの使い方4選!

Stable Diffusionは2023年11月21日時点で4つのブラウザ版があります。

  1. Clipdrop
  2. Hugging Face
  3. Dream Studio
  4. Mage.space

まずは最も有名なClipdropの使い方から説明します。

Clipdropでの使い方基礎

参考:https://clipdrop.co/ja/stable-diffusion

Clipdropは3つの方法で画像を生成できます。

  1. Stable Diffusion XL
  2. Reimagine XL
  3. Stable Doodle

まずは王道のプロンプト記述で画像を生成する「Stable Diffusion XL」からお伝えします。

Stable Diffusion XL

Stable Diffusion XLはプロンプト(指示)を出して、AI画像を生成する方法です。

指示出しが細かくできる方法のため、生成画像の出来にこだわりたい方におすすめ。

対応している指示言語は英語のみでしたが、2023年11月17日より「Japanese Stable Diffusion XL」として日本語対応版もリリースされました。

ただし、2023年11月21日時点では有料化されたため、無料版の利用ができません。

ブラウザ版を使いたい方は、1ヶ月または1年の有料課金が必要です。

Reimagine XL

Reimagine XLは画像をアップロードして、類似した画像をAIで生成する方法です。

3つの方法の中では、最も手軽なため初心者におすすめの手法です。

フリー画像サイトで取得した画像、ご自身の手元にある写真、オリジナルで描いた絵をアップロードすると、Stable Diffusionが自動で変換してくれます。

ただしStable Diffusion XLやStable Doodleとは違い、細かい指定ができません。

AIが生成した画像を出力するだけなので、こだわりたい方には不向きです。

Stable Doodle

Stable DoodleはStable Diffusion XLより直感的な手法です。

スケッチしたラフ絵を元に、ご自身が描いた絵の内容をプロンプトで説明し、AIで生成させます。

生成する際もピクセルアート、3D、写真、ファンタジーなど複数の描き方から選べます。

しかしStable DoodleはStable Diffusion XLと同じく、2023年11月20日時点では有料化されています。

Hugging Faceでの使い方基礎

Hugging Faceの使い方は簡単です。

  1. Hugging Face(https://huggingface.co/spaces)にアクセス
  2. 検索窓に「Stability AI」と入力
  3. 「stable-diffusion-2」を探す
  4. Inputの箇所にプロンプトを英語で記述
  5. 送信ボタンを押す

上記手順で画像が自動で生成されます。

実際に上記手順に従い、画像を自動生成する流れを示します。

1:Hugging Faceトップページを開き、検索窓にStability AIと入力

2:stable-diffusion-2のアイキャッチをクリック

3:Inputの箇所にプロンプトを英語で記述

4:プロンプトを送信したら自動で画像が生成される

Dream Studioでの使い方基礎

DreamStudioはStable Diffusionのオープンβ版として公開されたサービスです。

使い方も簡単で、以下の手順を踏んでください。

  1. DreamStudioにアカウントを作ってログイン
  2. 画像生成のスタイルを選択
  3. プロンプトを入力
  4. ネガディブプロンプトを入力
  5. イメージ画像をアップロード
  6. 解像度の調整
  7. 生成枚数や大きさなど微調整
  8. 所持クレジットを消費して画像を生成

複雑なように見えますが、一連の手順自体は簡素です。

一度操作に慣れれば、簡単に感じられるでしょう。

1:DreamStudioトップページに遷移

2:アカウント作成

Googleアカウント、Discord、新規作成から選びましょう。

筆者はGoogleアカウントでログインしました。

3:画像生成を開始

無事にログインすると、画面右上に「25」と「アカウントマーク」が出ます。

「25」という数字はクレジットです。

DreamStudioは画像生成する度に、一定のクレジット数を消費していくシステム。

ゼロになれば画像が生成できません。

Mage.spaceでの使い方基礎

Mage.spaceもStable Diffusionをオンライン上で使えるサービスの一つです。

使い方もシンプルで、以下の手順を踏めば、すぐに画像が生成できます。

  1. 「https://www.mage.space/」へアクセス
  2. 「create anything」の下にプロンプトを記述
  3. 「→」マークを押せば画像生成開始

Mage.spaceも無料版、有料版の2つがあります。

有料版は月額15ドルになりますが、切り替えるとモデル数も136に増えます。

【GoogleColab編】Stable Diffusionの使い方

ここではGoogle Colabで Stable Diffusionを使う方法を解説します。まずはStable Diffusionの動作に必要な環境から、みていきましょう!

Stable Diffusionを動かすのに必要なPCのスペック

Stable DiffusionをGoogle Colab上で動かすには、以下の環境が必要です。

■Pythonのバージョン
Python 3.8.5以上

■使用ディスク量
50.8 MB

■RAMの使用量
8~16GB

したがって、今回使用したプロセッサはGoogleColabProのGPU:T4となります。

ちなみに「同じT4のGPUなら無料版でも使えるのでは?」と試してみたのですが、下記のようなエラーが出て動きませんでした。

GoogleColabでStable Diffusionを使う場合はColab Pro以上でないと動作しないようです。

なお、下記の手順は2023年12月5日現在の情報となりますので、導入時点での各パッケージのバージョンにご注意ください。

参考記事:CompVis/stable-diffusion
参考記事:Troubleshooting

初期設定

まず、最新のColabだとtorchのバージョンが高く、Stable Diffusionが動かないため下記コマンドでtorchのバージョンを下げます。

!pip install -q torch==2.0.0+cu118 torchvision==0.15.1+cu118 torchaudio==2.0.1+cu118 torchtext==0.15.1 torchdata==0.6.0 –extra-index-url https://download.pytorch.org/whl/cu118 -U

次に、Gitからソースコードをダウンロードし、そのディレクトリに移動します。

!git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui
%cd /content/stable-diffusion-webui

Checkpointモデルのダウンロード

今回はCivitaiの中から、「DivineEleganceMix」というモデルをお借りしました。

wgetコマンドで指定のディレクトリにモデルをダウンロードします。

!wget https://civitai.com/api/download/models/238656 -O /content/stable-diffusion-webui/models/Stable-diffusion/dem.safetensors

コマンドの最後にある「dem.safetensors」の「dem」の部分には任意の名前を入力します。

Loraのダウンロード

使用したLoRaは同じくCivitaiから「8bitdiffuser 64x | a perfect pixel art model」です。

最初にLoRaを格納するディレクトリを作成したあと、ファイルをダウンロードします。

Chackpointと同じく「8bit.safetensors」の「8bit」の部分は任意で大丈夫です。

%mkdir -p /content/stable-diffusion-webui/models/Lora/
!wget https://civitai.com/api/download/models/231819 -O /content/stable-diffusion-webui/models/Lora/8bit.safetensors

モデルやLoraをダウンロードするリンクの取得方法

CivitaiからモデルやLoraをダウンロードする際に、ログインが必要になるケースがあります。

その場合、Colabから直接ダウンロードすることができないのでアカウントを作成後、ダウンロードしたファイルをColab上にアップロードするか、ログインが必要のないものを選択するようにしてください。

ログインが必要のないモデル/Loraはダウンロードのリンクを右クリックし、表示されたメニューから「リンクアドレスをコピー」をクリックすればOKです。

Downloadではなく、「Create」と表示されている場合はその右のダウンロードボタンをクリックしたあと、表示されるメニュー内でリンクアドレスのコピーを行ってください。

もし、コピーしたアドレスが下記のようになっている場合があります。

あわせて読みたい

その場合は「?」以降の文字を削除してからwgetコマンドに渡してあげましょう。

あわせて読みたい

Stable Diffusionの起動

では下記コマンドを実行してStable Diffusionを起動します。

!python launch.py –share –xformers –enable-insecure-extension-access

正常に起動できれば下の方に表示されている「Running on public URL:」のあとに記載されているURLをクリックすると、ブラウザが立ち上がりStable Diffusion web UIへアクセスできます。

では実際にStable Diffusionを使っていきましょう!

Stable Diffusionを使う時のテクニック

問題なくStable Diffusionが起動したら下記の様になっていると思います。

基本的な使い方としては、「Prompt」にプロンプトを、「Negative prompt」にネガティブプロンプトを入力します。

複数のプロンプトを入力する際はコンマで区切るのを忘れないようにしましょう。

最後に右の「Generate」ボタンをクリックして画像を生成します。

優先させたい内容から順に記入する

入力するプロンプトの順番は決まったものはありませんが、一般的には下記の順番で入力することが多いとされています。

  1. 画質など全体に関わる要素
  2. 人物に関する要素
  3. 髪型、服装などの外観
  4. 画像の構図やシーン

ただ、Stable Diffusionは入力されたプロンプトの順番に処理していきます。

もし、優先度が高めの指示があれば一番最初に入力しておきましょう。

重要箇所は括弧とコロンで強調する

プロンプト内の要素を()でくくり、コロンでの後に数字を指定する事により、その要素を強調することができます。

例として、smile要素の数字を変えて生成された画像を比較してみましょう。

1.0をベースに、0.5に下げたものは笑顔がなく、1.5に上げたものは笑顔が強調されていますね。

同じモデルを使用したのですが、値を変えるとキャラクターに若干の変化があるところも注意が必要です。

単語を75個以内に抑える

Stable Diffusionのプロンプトに入力するトークン数は75個を超えても入力できるようになっていますが、その分精度が落ちると言われていますので、75個以内に収めるようにしましょう。

現在のトークン数は入力フォームの右側に表示されているので確認しておきましょう。

ネガティブプロンプトで除きたい要素を指定する

ネガティブプロンプトとは大きく分けて「品質に関わるもの」と「生成したくないもの」の2つにわけられます。

例えば、低品質を避ける「low quality」やピンボケ対策の「out of focus」などは品質に関わるものになります。

生成したくないものには指の欠損を意味する「missing fingers」や意図しない切り取りを防ぐ「cropped」などが挙げられます。

プロンプトとネガティブプロンプトを組み合わせることによって、理想の画像を生成することができるのでいろいろ試してみてください。

モデル&Loraは生成したい画像に合わせる

Stable Diffusionにはアニメ調のものからリアル調のものまで様々なモデルを利用することができます。

同じプロンプトを入力しても、モデルによって生成される画像がガラッと変わるので目的に応じたモデルを探してください。

下の画像は先程と同じプロンプトで違うモデルを選択して生成したものです。

さらに、モデルごとに推奨されるプロンプト/ネガティブプロンプトや設定が存在します。

例えば今回使用したDivineEleganceMixには下記のような記述がありました。

プロンプトだけでなく、おすすめのサンプラーなど、詳細に書かれていますね。

利用しているモデルのサンプルのような画像を生成したい場合は推奨の設定を反映させるようにしましょう。

また、Loraという追加学習ができるパッケージを使うことで、より柔軟に画像を生成することができます。

Loraを利用するには、指定ディレクトリにLoraのファイルを設置したあと、web UIの「Lora」のタブをクリックします。

正常にファイルが設置されていれば、表示されているLoraを選択するとプロンプトに自動で入力されるので、あとはGenerateボタンを押すだけです。

今回は8bitとkimonoというLoraを使ってみました。

8bitはドット絵みたいになる予定だったのですが、プロンプトをいじっていないので微妙にしか反映されていませんね。
kimonoはキャラクターの雰囲気はそのままで少し着物っぽい感じになったかな?という仕上がりになりました。

用途にあったモデルやLoraを選択するのは大切ですが、それ以上にプロンプトや設定もしっかり勉強しないといけないようです。

なお、モデルやLoraを利用する際にはそれぞれのライセンスを十分ご確認ください。

特に、Loraに関しては既存のアニメっぽくするようなものもあり、Lora自体は利用フリーでも商用利用不可などが記載されている場合がありますのでご注意ください。

画像入力での生成機能「img2img」も駆使する

Stable Diffusionはテキストから画像を生成するだけでなく、画像から画像を生成することができます。

画像から画像を生成・・・?
文字にするとよくわからないので実際に試してみましょう!

使い方は上部のタブより「img2img」を選択し、画像をアップロードしたあと、プロンプトを入力してGenerateするだけ。簡単ですね!

今回はリアル風の画像をアニメ風に再生成してもらいましょう!

生成結果はこちら!

構図や服装の雰囲気まで完璧ですね!

img2imgはゼロから何かを生成するよりは、手元にある素材を使って新たなものを創り出すという使い方があっているようです。

Stable Diffusionのメリットとデメリット

最後に、Stable Diffusionを使う際のメリット・デメリットを解説します。

わかりやすくするために、同じく画像生成AIとして有名な「Midjourney」と比較してみましょう。

ざっくり比較すると

  • Midjourney:プロンプトのみで、直感的にクオリティの高い画像生成ができる
  • Stable diffusion:細かい設定で、より精度の高い画像生成ができる

このようなイメージです。

Stable Diffusionのメリット

具体的なメリットとしては、以下のようなものが挙げられます。

  • 基本的に無料で利用できる
  • ローカル環境で実行できるため、処理速度が速い
  • 細かい設定が可能で、より自由度の高い画像生成が可能

Stable Diffusionのデメリット

デメリットは以下のとおりです。

  • 使いこなすには、ある程度の知識や経験が必要
  • 初心者には難しいと感じられる可能性がある

Midjourneyを使うためには課金も必要になるので、それも含めて判断が必要かもしれません。

どちらにもメリット・デメリットがあるので、用途によって使い分けるようにしましょう。

なお、Stable Diffusionを応用した動画生成AIについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
【Stable Video Diffusion】ローカルでの使い方や料金体系、商用利用について解説

まとめ

Stable Diffusionは革新的な技術であり、初めて使う人でも直感的に利用できる優れた画像生成AIです。

まずお試しで使いたい方はブラウザ版、慣れてきたりゲーミングPCのようなハイスペックパソコンを持つ方はローカル環境で作ってみましょう。

SNS上ではさっそく、Stable Diffusion製のイラストで稼いでいる人が出てきているようですよ!

最後に

いかがだったでしょうか?

弊社では

・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
ハルシネーション対策AIツールの開発
自社専用のAIチャットボットの開発

などの開発実績がございます。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。

セミナー内容や料金については、ご相談ください。

また、弊社紹介資料もご用意しておりますので、併せてご確認ください。

投稿者

  • Hiromi Sai

    ChatGPTメディア運営 / テクニカルライター リベラルアーツ専攻。大学休学中は、Webマーケティング会社のマネージャーとしてライター、ディレクター100名のマネジメントをする。南米のチリとタイでの長期居住歴を持つ。

  • URLをコピーしました!
  • URLをコピーしました!
目次