Gradio
はじめに以前にvLLMを使った翻訳アプリの記事を書きました。 touch-sp.hatenablog.com 今回はOllamaを使いました。 バックグラウンドでOllamaが起動していれば以下のpythonコードを実行するだけで使えます。Pythonコード import gradio as gr from ollama im…
はじめに「plamo-2-translate」はPreferred Networksによって開発された翻訳特化の大規模言語モデルです。Pythonスクリプトできるだけシンプルに書いてみました。 import gradio as gr import vllm # vLLMモデルの初期化 llm = vllm.LLM( model="pfnet/plamo…
Pythonスクリプトできるだけシンプルに書いてみました。 import gradio as gr from ollama import Client # Ollamaクライアント初期化(ローカルサーバーに接続) client = Client(host='http://localhost:11434') def translate_english_to_japanese(text):…
はじめに今までは Google の Gemma-3-12b(4bit量子化)をllama.cppで実行して使っていました。今回は無料枠のなかで Google の Gemini 2.0 Flash を使わせてもらいました。感想言語モデルは大事です。明らかにSmolAgentsの回答が変わりました。変更点前回、…
はじめにMicrosoftが開発しているPlaywrightはブラウザ自動化機能を提供するライブラリです。Playwrihgt MCPはそのModel Context Protocol (MCP)サーバになります。これを使うことによって言語モデルとPlaywrightを簡単に結びつけることができるようになるの…
はじめに完全ローカルのAIエージェントをSmolAgentsを使って作ってみました。もちろん簡単なことしかできません。 使用した言語モデル:gemma-3-12b-it-Q4_K_M.gguf(llama.cppで実行)./llama-server -m ~/models/gemma-3-12b-it-Q4_K_M.gguf -c 8192 -ngl …
はじめにSmolAgents(v1.12.0)でDockerコンテナをサンドボックスとして使用した時に出力が段階的にならない問題に直面しました。昨日なんとか解決方法を見つけたのですが、その後Gradioを使えばもっと簡単に解決することがわかりました。 touch-sp.hatenabl…
エラー内容 raise ValueError( ValueError: The following `model_kwargs` are not used by the model: ['token_type_ids'] (note: typos in the generate arguments will also show up in this list) 解決策 # token_type_idsを削除 if "token_type_ids" in…
マルチモーダルモデルということで画像を扱ってみました。使用したPCVRAM 24GBのRTX 4090を使用しました。さらにbitsandbytesで量子化も行っています。 プロセッサ Intel(R) Core(TM) i7-14700K 実装 RAM 96.0 GB GPU RTX 4090 (VRAM 24GB) vLLMを実行ここは…
はじめにvLLMを使ってVRAM 16GBのノートPCで「qwen2.5-bakeneko-32b-instruct」を動かしてみました。当然量子化が必要になってきます。どこまでビット数をさげるかは難しいところですが、あまり下げすぎると推論精度が落ちるリスクがあります。今回はautoawq…
使用したPC32Bモデル(パラメーター数320億)なのでVRAM 24GBのRTX 4090を使用しました。 プロセッサ Intel(R) Core(TM) i7-14700K 実装 RAM 96.0 GB GPU RTX 4090 (VRAM 24GB) 実行中の表示 INFO 02-18 22:06:19 model_runner.py:1115] Loading model weigh…
はじめに以前同じ会社が公開してくれている「phi-4-open-R1-Distill-EZOv1」というモデルを使ったことがあります。 touch-sp.hatenablog.com 日本語の追加学習をした推論モデルとしてはサイバーエージェントが公開してくれている「DeepSeek-R1-Distill-Qwen-…
はじめに前回のスクリプトをGradioで実行できるようにしました。 touch-sp.hatenablog.com 使用したPC プロセッサ Intel(R) Core(TM) i7-12700H 実装 RAM 32.0 GB GPU RTX 3080 Laptop (VRAM 16GB) Python 3.12 CUDA 12.4 Python環境 gradio==5.14.0 langcha…
はじめにGradioでは出力に以下のような文字が出たらうまく表示されません。 <think></think><answer></answer>回避するためには一工夫が必要です。 github.com 使用したPC Windows 11 CUDA 12.4 Python 3.12 Pythonライブラリ accelerate==1.3.0 gradio==5.16.0 torch==2.6.0+cu124 torchao==…
ollama==0.4.7 gradio==5.14.0 import gradio as gr from ollama import Client client = Client(host="http://192.168.11.18:11434") system_prompt_text = "You are an excellent assistant to the programmer." init = { "role": "system", "content": sy…
関連記事こちらは「 Llama-3.1-Swallow-8B-Instruct-v0.2」を実行した時の記事です。 touch-sp.hatenablog.com Python環境 accelerate==1.5.2 bitsandbytes==0.45.3 gradio==5.21.0 torch==2.6.0+cu124 transformers==4.49.0Pythonスクリプト前回からの改善…
はじめにGradio 5.0からチャットボットの作り方が大きく変わりました。 今回、実際に作ってみました。Pythonスクリプト import gradio as gr from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer from threading import Th…
はじめに「Llama-3.1-8B-EZO-1.1-it」は日本語性能向上のためにLlama3.1-8Bをファインチューニングしたモデルです。こちらになります。 huggingface.co今のところLlama3.1の小さいモデル(8B)で日本語性能を向上させたものは少ないです。 さっそくGradioか…
pip install torch==2.4.0+cu118 --index-url https://download.pytorch.org/whl/cu118 pip install transformers accelerate bitsandbytes sentencepiece gradio pip install pdfminer.six pip install langchain langchain_community langchain_huggingfac…
はじめに前回「CyberAgentLM3-22B-Chat」や「Llama-3-ELYZA-JP-8B」や「gemma-2-9b-it」で同じことをしました。 touch-sp.hatenablog.com touch-sp.hatenablog.com touch-sp.hatenablog.com 今回は「llama-3-youko-8b-instruct」です。モデルの量子化今回は…
はじめに前回「CyberAgentLM3-22B-Chat」や「Llama-3-ELYZA-JP-8B」で同じことをしました。 touch-sp.hatenablog.com touch-sp.hatenablog.com 今回は「gemma-2-9b-it」です。 小規模でかつ日本語特化モデルでないにもかかわらず日本語性能は高い印象です。…
はじめに前回「CyberAgentLM3-22B-Chat」で同じことをしました。 touch-sp.hatenablog.com 今回は「Llama-3-ELYZA-JP-8B」です。 ELYZAの「Llama-3-ELYZA-JP-70B」はGPT-4を上回る日本語性能と言われています。 今回使用したのはそれよりもはるかに小規模な…
PC環境 Ubuntu 24.04 on WSL2 (Windows 11) CUDA 12.1 Python 3.12Python環境構築 pip install torch==2.3.1+cu121 --index-url https://download.pytorch.org/whl/cu121 pip install transformers accelerate bitsandbytes gradioモデルの量子化4bit量子化…
結果わずか15行のスクリプトでOCRアプリが作成できました。 同じことを以前 Streamlit を使ってやっています。 touch-sp.hatenablog.com その時は16行でした。 1行だけ短くなりました(笑)。Pythonスクリプト from PIL import ImageDraw import easyocr imp…
Gradioとは?公式サイトの説明文をDeepLで翻訳したのがこちらです。 Gradioは、機械学習モデルをデモする最速の方法であり、フレンドリーなウェブ・インターフェースを備えているため、誰でもどこでも使用することができます!サンプル1 import gradio as g…