【ControlVideo】VRAM 18GBも使用するため動かせなかった動画生成モデルが RTX 4090 で動かせました




一番左が用意されたサンプル動画。

真ん中がサンプル動画から作成されたポーズ動画。

一番右がポーズ画像とテキスト(プロンプト)から作成された動画。

背景の一貫性、服装の一貫性はしっかり保たれている印象です。

512x512のサイズですが顔がはっきり描画されていません。このサイズでVRAM 18GB以上使用します。

解像度をあげると顔はきれいになると思いますがさらにVRAMが必要になります。

はじめに

以前動かせなかった動画生成モデルがあります。
touch-sp.hatenablog.com
RTX 4090を買ったので試してみました。
touch-sp.hatenablog.com

環境構築

Ubuntu 20.04 on WSL2
Python 3.9
CUDA 11.6

簡単に環境構築できるように「requirements_cu116.txt」を作成しました。

pip install -r https://raw.githubusercontent.com/dai-ichiro/myEnvironments/main/controlvideo_2/requirements_cu116.txt

実行

python main.py \
  --control_type pose \
  --video_path videos/dance26.mp4 \
  --source 'a person is dancing' \
  --target 'a pretty japanese woman is dancing, plain white T-shirt, blue jeans' \
  --out_root outputs/ \
  --max_step 300

プロンプトは「a pretty japanese woman is dancing, plain white T-shirt, blue jeans」です。


このエントリーをはてなブックマークに追加