実行
動画の準備
今回はこちらからダウンロードした「dance26.mp4」という動画を使わせて頂きます。600x600で75フレームある動画です。
Configファイルの書き換え
こちらから「anythingv3_config.py」をダウンロードして一部を書き換えます。書き換え前
control_detector = 'lllyasviel/ControlNet'
書き換え後
control_detector = 'lllyasviel/Annotators'
実行ファイル
from mmagic.apis import MMagicInferencer editor = MMagicInferencer( model_name="controlnet_animation", model_config="anythingv3_config.py" ) prompt = "a girl, dancing, blue denim, white plain t-shirt, best quality, extremely detailed" negative_prompt = ( "longbody, lowres, bad anatomy, bad hands, missing fingers, " "extra digit, fewer digits, cropped, worst quality, low quality" ) editor.infer( video="dance26.mp4", prompt=prompt, negative_prompt=negative_prompt, save_path="output.mp4" )
パラメータはこのような感じです。
prompt=None, video=None, negative_prompt=None, controlnet_conditioning_scale=0.7, image_width=512, image_height=512, save_path=None, strength=0.75, num_inference_steps=20, seed=1, output_fps=None, reference_img=None, **kwargs
結果
動画はGoogle Bloggerに載せています。
support-touchsp.blogspot.com
VRAM使用量
10.5GB使用していました。12GBあれば実行可能だと思います。環境
WIndows 11 CUDA 11.7 Python 3.10
Python環境構築
pip install torch==2.0.1+cu117 torchvision==0.15.2+cu117 --index-url https://download.pytorch.org/whl/cu117 pip install mmcv==2.0.1 -f https://download.openmmlab.com/mmcv/dist/cu117/torch2.0.0/index.html pip install openmim==0.3.9 pip install mmagic==1.1.0 pip install accelerate==0.23.0