はじめに
非常に詳しい解説サイトがあったのでそちらに書いてある通りに行っただけです。導入
Stable Diffusion WebUIと導入方法は全く同じです。Gitでリポジトリをクローンして「webui-user.bat」を実行するだけです。Stable Diffusion WebUIの時と同じ場所でつまづき、同じ方法で解決しました。くわしくは下記を参照して下さい。touch-sp.hatenablog.com
結果
いろいろ設定を変えて実行してみました。Target sampling rate を変更してみる
その他の設定は以下の通りです。学習時の設定Ignore cache : not checked Speaker ID : 0 f0 Model : Yes Using phone embbedder : contentvec Embedding channels : 768 Normalize audio volume when preprocess : Yes Pitch extraction algorism : harvest Batch size : 16 Number of epochs : 30 Cache batch : checked FP16 : checked
推論時の設定
Speaker ID : 0 Transpose : 5 Pitch Extraction Algorithm : harvest Embedder Model : contentvec Auto Load Index : checked Faiss Index File Path : blank Big NPY File Path : blank Retrieval Feature Ratio : 1
もとの音声
「ESPNet」を使って適当に作った音声です。(こちらを参照)Target sampling rate = 32k
Target sampling rate = 40k
Target sampling rate = 48k
あまり違いが感じられませんでした。