リップシンク
はじめに前回の続きです。 touch-sp.hatenablog.com 動作可能な環境をいろいろさぐってみました。動作環境と環境構築Python 3.10 + CUDA 12.4 Windows 11 CUDA 12.4 Python 3.10pip install torch==2.4.1 torchvision==0.19.1 torchaudio==2.4.1 xformers --…
はじめに「Hallo2」は顔画像と音声ファイルからしゃべっている動画を作成するモデルです。「リップシンク」モデルと表現されることもあります。以前「SadTalker」というのを使ったことがあります。それと同じようなことができます。 touch-sp.hatenablog.com…
SadTalkerは一枚の顔写真から任意の音声に合わせた口パク動画を生成することができます。今回は各種設定をいろいろ試してみました。
github.com 結果元画像はこちらを使いました。「haduki_mix v1.0」で作成したものです。 顔写真1枚しか使っていません。 音声は「ESPnet」で作成したものです。こちらを参照して下さい。 結果はGoogle Bloggerに載せています。 support-touchsp.blogspot.com…