結果
元画像はこちらを使いました。「haduki_mix v1.0」で作成したものです。顔写真1枚しか使っていません。
音声は「ESPnet」で作成したものです。こちらを参照して下さい。
結果はGoogle Bloggerに載せています。
support-touchsp.blogspot.com
今回試したOS環境
Ubuntu 22.04 on WSL2 CUDA 11.8 Python 3.10
Python環境の構築
CUDA 11.8 + Torch 2.0.1
pip install wheel pip install -r https://raw.githubusercontent.com/dai-ichiro/myEnvironments/main/SadTalker/requirements_cu118_torch201.txt
リポジトリのクローンと学習済みモデルのダウンロード
git clone https://github.com/OpenTalker/SadTalker cd SadTalker bash scripts/download_models.sh
実行
サンプル写真とサンプル音声はリポジトリに含まれています。そのため、とりあえず試したい場合は以下を実行するだけで動画が作成できます。python inference.py \ --driven_audio examples/driven_audio/japanese.wav \ --source_image examples/source_image/art_1.png \ --enhancer gfpgan
VRAM使用量
VRAM 12GBのRTX 3080で動作しました。追記
さまざまな設定について調べた記事を書きました。touch-sp.hatenablog.com