はじめに
IPEX-LLM側の改善とOllama側の改善のどちらが影響しているのかわかりませんが処理速度は確かに向上しているようです。古い環境を使っているなら新しくした方が良いと思います。環境構築の方法と以前のベンチマーク結果はこちらです。touch-sp.hatenablog.com
touch-sp.hatenablog.com
ベンチマーク結果
phi3:14b-medium-4k-instruct-q4_K_M (model size: 8.6GB)
旧環境tokens per second: 19.83 tokens/second
新環境
tokens per second: 25.41 tokens/second
codellama:13b-python-q6_K (model size: 10GB)
このモデルでは新旧環境で処理速度に違いはありませんでした。旧環境tokens per second: 25.70 tokens/second
新環境
tokens per second: 25.34 tokens/second
aya:35b-23-q4_0 (model size: 20GB)
Intel Arc A770のVRAM 16GBを超えているモデルです。「export OLLAMA_NUM_GPU=28」で実行しました。旧環境
tokens per second: 3.42 tokens/second
新環境
tokens per second: 3.98 tokens/second