2024-07-01から1ヶ月間の記事一覧

LangChainとOllamaを使ってRAGを実行する時に、Embeddingの結果を保存しておく方法

はじめに前回の続きです。 touch-sp.hatenablog.com Python環境構築 pip install langchain langchain_community langchain_ollama langchain_chroma langchain_huggingface pip install chromadb pip install pypdf pip install sentence-transformers sent…

LangChainとOllamaを使ってローカル環境でRAG(Retrieval-Augmented Generation)を実行する

はじめに今回、用意したPDFの内容をもとにユーザの質問に回答してもらいました。別にPDFでなくても良いのですがざっくり言うとそういったのが「RAG」です。Python環境構築 pip install langchain langchain_community langchain_ollama langchain_chroma pip…

rinnaが公開している「llama-3-youko-8b-instruct」をGradioを使ってローカルで使用する

はじめに前回「CyberAgentLM3-22B-Chat」や「Llama-3-ELYZA-JP-8B」や「gemma-2-9b-it」で同じことをしました。 touch-sp.hatenablog.com touch-sp.hatenablog.com touch-sp.hatenablog.com 今回は「llama-3-youko-8b-instruct」です。モデルの量子化今回は…

【Diffusers】Perturbed-Attention Guidance(PAG)とControlNetを組み合わせてみる

はじめにPerturbed-Attention Guidance(PAG)についてはこちらを見て下さい。 touch-sp.hatenablog.com 今回はぼやけた写真を修復する「SDXL_Controlnet_Tile_Realistic」と組み合わせてみます。用意した写真 結果 左上:PAGなし 右上:pag_applied_layers=["…

【Intel Arc A770】【Diffusers】IPEX-LLM を使えば StableDiffusion による Text2Image が簡単にできました

Python環境構築 pip install --pre --upgrade ipex-llm[xpu] --extra-index-url https://pytorch-extension.intel.com/release-whl/stable/xpu/cn/ pip install diffusers[torch] pip install transformers peftPythonスクリプト「torch.float16」でなく「to…

【Diffusers】Perturbed-Attention Guidance(PAG)とIP-Adapterを組み合わせてみる

はじめにPerturbed-Attention Guidance(PAG)についてはこちらを見て下さい。 touch-sp.hatenablog.com 今回こちらのmultiple IP-AdapterとPAGを組み合わせてみました。 touch-sp.hatenablog.com 結果「Plus」と「Plus Face」の組み合わせ 「Plus」と「FaceID…

Intel Arcを搭載したUbuntu 22.04にIntel GPU ドライバーをインストールする際のエラーとその対処法

はじめにIntel GPU ドライバーをインストールしようとすると何度もエラーに遭遇しました。以前できたことが出来なくなっていたりということも多々あります。遭遇したエラーとその対処法を記録として残しておきます。インストール方法はこちらに従っています…

【Intel Arc A770】IPEX-LLMでOllamaを実行する環境を新規に構築したら以前と比較して処理速度が向上していました。

はじめにIPEX-LLM側の改善とOllama側の改善のどちらが影響しているのかわかりませんが処理速度は確かに向上しているようです。古い環境を使っているなら新しくした方が良いと思います。環境構築の方法と以前のベンチマーク結果はこちらです。 touch-sp.haten…

【Diffusers】Perturbed-Attention Guidance(PAG)を使ってみる

はじめに「Perturbed-Attention Guidance」というのが新しく紹介されていたので久しぶりに画像生成をやってみました。「Perturbed-Attention Guidance」とは?公式の紹介をDeepLで翻訳したものをのせておきます。 Perturbed-Attention Guidance (PAG)は、新…

Googleが公開している「gemma-2-9b-it」をGradioを使ってローカルで使用する

はじめに前回「CyberAgentLM3-22B-Chat」や「Llama-3-ELYZA-JP-8B」で同じことをしました。 touch-sp.hatenablog.com touch-sp.hatenablog.com 今回は「gemma-2-9b-it」です。 小規模でかつ日本語特化モデルでないにもかかわらず日本語性能は高い印象です。…

ELYZAが公開している「Llama-3-ELYZA-JP-8B」をGradioを使ってローカルで使用する

はじめに前回「CyberAgentLM3-22B-Chat」で同じことをしました。 touch-sp.hatenablog.com 今回は「Llama-3-ELYZA-JP-8B」です。 ELYZAの「Llama-3-ELYZA-JP-70B」はGPT-4を上回る日本語性能と言われています。 今回使用したのはそれよりもはるかに小規模な…

サイバーエージェントが公開している「CyberAgentLM3-22B-Chat」をGradioを使ってローカルで使用する

PC環境 Ubuntu 24.04 on WSL2 (Windows 11) CUDA 12.1 Python 3.12Python環境構築 pip install torch==2.3.1+cu121 --index-url https://download.pytorch.org/whl/cu121 pip install transformers accelerate bitsandbytes gradioモデルの量子化4bit量子化…

oneAPI Base Toolkit (version 2024.2.0)が公開されたのでOllama実行速度に変化があるかどうか試してみました

前回同様、SYCL backendでOllamaを実行した時のベンチマークを取ってみました。 touch-sp.hatenablog.com 結果phi3:3.8b (model size: 2.4GB)version 2024.1.0 tokens per second: 37.73 tokens/second version 2024.2.0 tokens per second: 37.31 tokens/se…