一番左が用意されたサンプル動画。
真ん中がサンプル動画から作成されたポーズ動画。
一番右がポーズ画像とテキスト(プロンプト)から作成された動画。
背景の一貫性、服装の一貫性はしっかり保たれている印象です。
512x512のサイズですが顔がはっきり描画されていません。このサイズでVRAM 18GB以上使用します。
解像度をあげると顔はきれいになると思いますがさらにVRAMが必要になります。
はじめに
以前動かせなかった動画生成モデルがあります。touch-sp.hatenablog.com
RTX 4090を買ったので試してみました。
touch-sp.hatenablog.com
環境構築
Ubuntu 20.04 on WSL2 Python 3.9 CUDA 11.6
簡単に環境構築できるように「requirements_cu116.txt」を作成しました。
pip install -r https://raw.githubusercontent.com/dai-ichiro/myEnvironments/main/controlvideo_2/requirements_cu116.txt
実行
python main.py \ --control_type pose \ --video_path videos/dance26.mp4 \ --source 'a person is dancing' \ --target 'a pretty japanese woman is dancing, plain white T-shirt, blue jeans' \ --out_root outputs/ \ --max_step 300
プロンプトは「a pretty japanese woman is dancing, plain white T-shirt, blue jeans」です。