はじめに
Stable Diffusion 2.1用のControlNetが公開されていました。→こちらです。
Stable Diffusion 2.1をベースとしたモデルを探していたらWaifu Diffusion 1.5 Betaに行きつきました。
中でもBeta 2 - Frosty Aesthetic Verはリアルに近い画像が出力されるモデルのようです。
さっそくDiffusersを使って Waifu Diffusion 1.5 Beta + ControlNet に挑戦しました。
元画像
元画像はぱくたそから使わせて頂きました。
こちらの画像です。
結果
かなり良い出来です。高確率できれいな画像が出力されました。その中から厳選したものが上記結果です。
似たような画像になるのはエッジ検出の閾値を低めに設定したためです。(こちらを参照)
今回はlow 50, high 100に設定しています。
Pythonスクリプト
こちらを使いました。以下のコマンドでいっきに30枚の画像が作成されます。
python canny2image.py ^ --controlnet controlnet\controlnet-sd21-canny-diffusers ^ --model model\wd15-beta2-extra ^ --vae vae\anime2_vae ^ --prompt prompt.txt ^ --image canny_results\50_100.png ^ --from_canny ^ --n_samples 30
以下を記入した「prompt.txt」というテキストファイルを用意してスクリプトから読み込んでいます。
photo of kawaii 1girl, turtleneck_sweater
Multi-ControlNet
Multi-ControlNetも試しましたが今のところcanny2image単独に勝る結果が得られていません。Waifu Diffusion 1.5 Beta 2 - Frosty Aesthetic Verについて
こちらから「wd15-beta2-frosty-aesthetic-fp32.safetensors」をダウンロードしてDiffusers用に変換しました。変換方法はこの記事通りです。
touch-sp.hatenablog.com