【ESPnet】【WSL2】Python3.11 で ESPnet v.202409 を使う

はじめに

ESPnetはテキストから音声を合成するモデルです。

こちらを見て下さい。
touch-sp.hatenablog.com
今回はタイトルにあるように一番新しいESPnet v.202409を使う方法です。

PC環境

Ubuntu 22.04 on WSL2
CUDA 12.4.1

Python3.11のインストール

sudo add-apt-repository ppa:deadsnakes/ppa
sudo apt update
sudo apt install python3.11

Python環境構築

PyTorchのインストール

pip install torch==2.4.1 torchaudio==2.4.1 --index-url https://download.pytorch.org/whl/cu124

SentencePiece==0.1.97のインストール

git clone -b v0.1.97 https://github.com/google/sentencepiece.git 
cd sentencepiece
mkdir build
cd build
cmake .. -DSPM_ENABLE_SHARED=OFF -DCMAKE_INSTALL_PREFIX=./root
make install
cd ../python
python setup.py bdist_wheel
pip install dist/sentencepiece*.whl

ESPnet==202409のインストール

pip install git+https://github.com/espnet/espnet.git@v.202409

FlashAttentionのインストール

pip install psutil
pip install flash-attn --no-build-isolation

その他のインストール

pip install espnet_model_zoo pyopenjtalk

ランキング参加中

プログラミング