【SadTalker】1枚の顔写真と音声データだけでしゃべっている動画を作成

github.com

結果

元画像はこちらを使いました。「haduki_mix v1.0」で作成したものです。

顔写真1枚しか使っていません。

音声は「ESPnet」で作成したものです。こちらを参照して下さい。

結果はGoogle Bloggerに載せています。
support-touchsp.blogspot.com

今回試したOS環境

Ubuntu 22.04 on WSL2
CUDA 11.8
Python 3.10

Python環境の構築

CUDA 11.8 + Torch 2.0.1

pip install wheel
pip install -r https://raw.githubusercontent.com/dai-ichiro/myEnvironments/main/SadTalker/requirements_cu118_torch201.txt

リポジトリのクローンと学習済みモデルのダウンロード

git clone https://github.com/OpenTalker/SadTalker
cd SadTalker
bash scripts/download_models.sh

実行

サンプル写真とサンプル音声はリポジトリに含まれています。

そのため、とりあえず試したい場合は以下を実行するだけで動画が作成できます。

python inference.py \
  --driven_audio examples/driven_audio/japanese.wav \
  --source_image examples/source_image/art_1.png \
  --enhancer gfpgan

VRAM使用量

VRAM 12GBのRTX 3080で動作しました。

追記

さまざまな設定について調べた記事を書きました。
touch-sp.hatenablog.com