ddPn08/RVC-WebUI でボイスチェンジャーに挑戦しました

github.com
economylife.net

はじめに

非常に詳しい解説サイトがあったのでそちらに書いてある通りに行っただけです。

導入

Stable Diffusion WebUIと導入方法は全く同じです。

Gitでリポジトリをクローンして「webui-user.bat」を実行するだけです。

Stable Diffusion WebUIの時と同じ場所でつまづき、同じ方法で解決しました。

くわしくは下記を参照して下さい。
touch-sp.hatenablog.com

結果

いろいろ設定を変えて実行してみました。

Target sampling rate を変更してみる

その他の設定は以下の通りです。

学習時の設定

Ignore cache : not checked
Speaker ID : 0
f0 Model : Yes
Using phone embbedder : contentvec
Embedding channels : 768
Normalize audio volume when preprocess : Yes
Pitch extraction algorism : harvest
Batch size : 16
Number of epochs : 30
Cache batch : checked
FP16 : checked



推論時の設定

Speaker ID : 0
Transpose : 5
Pitch Extraction Algorithm : harvest
Embedder Model : contentvec
Auto Load Index : checked
Faiss Index File Path : blank
Big NPY File Path : blank
Retrieval Feature Ratio : 1

もとの音声

「ESPNet」を使って適当に作った音声です。(こちらを参照)

Target sampling rate = 32k

Target sampling rate = 40k

Target sampling rate = 48k



あまり違いが感じられませんでした。


このエントリーをはてなブックマークに追加