はじめに
ESPnetはテキストから音声を合成するモデルです。こちらを見て下さい。touch-sp.hatenablog.com
今回はタイトルにあるように一番新しいESPnet v.202409を使う方法です。
PC環境
Ubuntu 22.04 on WSL2 CUDA 12.4.1
Python3.11のインストール
sudo add-apt-repository ppa:deadsnakes/ppa sudo apt update sudo apt install python3.11
Python環境構築
PyTorchのインストール
pip install torch==2.4.1 torchaudio==2.4.1 --index-url https://download.pytorch.org/whl/cu124
SentencePiece==0.1.97のインストール
git clone -b v0.1.97 https://github.com/google/sentencepiece.git cd sentencepiece mkdir build cd build cmake .. -DSPM_ENABLE_SHARED=OFF -DCMAKE_INSTALL_PREFIX=./root make install cd ../python python setup.py bdist_wheel pip install dist/sentencepiece*.whl
ESPnet==202409のインストール
pip install git+https://github.com/espnet/espnet.git@v.202409
FlashAttentionのインストール
pip install psutil pip install flash-attn --no-build-isolation
その他のインストール
pip install espnet_model_zoo pyopenjtalk