【続】【ESPnet】テキストファイルからいろいろな音声ファイルを作成する

はじめに

前回ESPnetというのを使わせて頂き音声合成を行いました。
touch-sp.hatenablog.com


スクリプトを一部変えるだけで様々な音声が合成できるようなので今回一部を試してみました。

結果(3種類の音声)

jsut

前回と同じです。

text2speech = Text2Speech.from_pretrained(
    model_tag=str_or_none('kan-bayashi/jsut_full_band_vits_prosody'),
    vocoder_tag=str_or_none('none'),
    device="cuda"
)

tsukuyomi

text2speech = Text2Speech.from_pretrained(
    model_tag=str_or_none('kan-bayashi/tsukuyomi_full_band_vits_prosody'),
    vocoder_tag=str_or_none('none'),
    device="cuda"
)

jvs

text2speech = Text2Speech.from_pretrained(
    model_tag=str_or_none('kan-bayashi/jvs_jvs010_vits_prosody'),
    vocoder_tag=str_or_none('none'),
    device="cuda"
)