公開日:2022年12月10日
最終更新日:2023年1月8日
はじめに
WindowsでStable Diffusion 2.1を使用する方法を書きます。PC環境
Windows 11 RTX 3080(VRAM 12GB) CUDA 11.6.2 Git for Windows 2.37.3 Python 3.10.9
もしVRAMが少ない場合はこちらをどうぞ。
touch-sp.hatenablog.com
環境構築
あらかじめCUDAのインストールは済ませておいて下さい。cuDNNのインストールは不要です。Python環境へのライブラリインストールはすべてpipで可能です。インストールを簡単にするために「requirements.txt」にまとめました。自分のGitHubに公開しているのでだれでも利用可能です。
それを使うと以下の2行で環境構築は終了します。「xFormers」もインストールされます。
pip install torch==1.13.1 torchvision==0.14.1 --extra-index-url https://download.pytorch.org/whl/cu116 pip install -r https://raw.githubusercontent.com/dai-ichiro/env4stable-diffusion/main/v2.1/requirements.txt
非推奨(DEPRECATION)の警告が出ますが無視して問題ありません。
実行方法
リポジトリのクローン
git clone https://github.com/Stability-AI/stablediffusion.git cd stablediffusion
いよいよ実行
Text-to-Image
こちらのサイトから「v2-1_768-ema-pruned.ckpt」をダウンロードします。保存先は「stablediffusion」フォルダ直下としました。
その後以下を実行します。
python scripts/txt2img.py --prompt "a professional photograph of an astronaut riding a horse" --ckpt v2-1_768-ema-pruned.ckpt --config configs/stable-diffusion/v2-inference-v.yaml --H 768 --W 768 --n_samples 2
Classic Img2Img
Stable Diffusion 2.1-base(512x512)の方が良い結果が得られたのでそちらを使う方法を紹介します。こちらのサイトから「v2-1_512-ema-pruned.ckpt」をダウンロードします。保存先は「stablediffusion」フォルダ直下としました。
元画像はこちらからダウンロードさせて頂きました。
(Ben ThaiによるPixabayからの画像)
python scripts/img2img.py --prompt "A photo of Mt. Fuji, a five-storied pagoda and cherry blossoms" --init-img mount-fuji_trim.jpg --ckpt v2-1_512-ema-pruned.ckpt --strength 0.6 --config configs/stable-diffusion/v2-inference.yaml