はじめに
MasaCtrlは一貫性のある画像(例えば同じキャラクターの姿勢違いなど)を生成することが可能です。ReferenceOnly + ControlNet のようなものと思って使いました。間違っていたらごめんなさい。なにができる?
結果を示した方が分かりやすいと思います。結果1(Consistent Synthesis)

こちらの結果は二つのプロンプトをモデルに与えて同時に画像生成した例です。
プロンプトは以下の二つです。
1boy, casual, outdoors, sitting 1boy, casual, outdoors, standing
たしかに一貫性のある画像が作成されました。
結果2(Real Image Editing )
結果1と違ってこちらは元画像がすでに存在する場合です。元画像とプロンプトをモデルに与えて新たな画像を生成する例です。あまりうまくいっていません。うまくいったら結果を載せます。結果3(MasaCtrl with T2I-Adapter)
別記事を書きました。touch-sp.hatenablog.com
環境構築
pip install torch==2.0.1+cu117 torchvision==0.15.2+cu117 --index-url https://download.pytorch.org/whl/cu117 pip install -r requirements.txt pip install accelerate pip install gradio
T2I-Adapterを使うならpytorch_lightningは1.9.5以下である必要があります。
そうでないと以下のエラーが出ます。
ModuleNotFoundError: No module named 'pytorch_lightning.utilities.distributed'
簡単に環境構築ができるようにGitHubにrequirements.txtを挙げておきました。
1行で完了できます。
pip install -r https://raw.githubusercontent.com/dai-ichiro/myEnvironments/main/MasaCtrl/requirements.txt
実行
git clone https://github.com/TencentARC/MasaCtrl cd MasaCtrl python app.py
