WindowsでStable Diffusion 2.1を使用する(xFormersあり)

公開日:2022年12月10日
最終更新日:2023年1月8日

はじめに

WindowsでStable Diffusion 2.1を使用する方法を書きます。

PC環境

Windows 11
RTX 3080(VRAM 12GB)
CUDA 11.6.2
Git for Windows 2.37.3
Python 3.10.9



もしVRAMが少ない場合はこちらをどうぞ。
touch-sp.hatenablog.com

環境構築

あらかじめCUDAのインストールは済ませておいて下さい。
cuDNNのインストールは不要です。

Python環境へのライブラリインストールはすべてpipで可能です。

インストールを簡単にするために「requirements.txt」にまとめました。自分のGitHubに公開しているのでだれでも利用可能です。

それを使うと以下の2行で環境構築は終了します。「xFormers」もインストールされます。

pip install torch==1.13.1 torchvision==0.14.1 --extra-index-url https://download.pytorch.org/whl/cu116
pip install -r https://raw.githubusercontent.com/dai-ichiro/env4stable-diffusion/main/v2.1/requirements.txt

非推奨(DEPRECATION)の警告が出ますが無視して問題ありません。

実行方法

リポジトリのクローン

git clone https://github.com/Stability-AI/stablediffusion.git
cd stablediffusion

いよいよ実行

Text-to-Image

こちらのサイトから「v2-1_768-ema-pruned.ckpt」をダウンロードします。
保存先は「stablediffusion」フォルダ直下としました。

その後以下を実行します。

python scripts/txt2img.py --prompt "a professional photograph of an astronaut riding a horse" --ckpt v2-1_768-ema-pruned.ckpt --config configs/stable-diffusion/v2-inference-v.yaml --H 768 --W 768 --n_samples 2

Classic Img2Img

Stable Diffusion 2.1-base(512x512)の方が良い結果が得られたのでそちらを使う方法を紹介します。

こちらのサイトから「v2-1_512-ema-pruned.ckpt」をダウンロードします。
保存先は「stablediffusion」フォルダ直下としました。

元画像はこちらからダウンロードさせて頂きました。
Ben ThaiによるPixabayからの画像)

python scripts/img2img.py --prompt "A photo of Mt. Fuji, a five-storied pagoda and cherry blossoms" --init-img mount-fuji_trim.jpg --ckpt v2-1_512-ema-pruned.ckpt --strength 0.6 --config configs/stable-diffusion/v2-inference.yaml
元画像
加工後画像