Gradio

Gradio を使って gpt-oss-20B で翻訳アプリを作る

はじめに以前にvLLMを使った翻訳アプリの記事を書きました。 touch-sp.hatenablog.com 今回はOllamaを使いました。 バックグラウンドでOllamaが起動していれば以下のpythonコードを実行するだけで使えます。Pythonコード import gradio as gr from ollama im…

Gradio を使って plamo-2-translate の翻訳アプリを作る

はじめに「plamo-2-translate」はPreferred Networksによって開発された翻訳特化の大規模言語モデルです。Pythonスクリプトできるだけシンプルに書いてみました。 import gradio as gr import vllm # vLLMモデルの初期化 llm = vllm.LLM( model="pfnet/plamo…

Gradio と Ollama で翻訳アプリを作る

Pythonスクリプトできるだけシンプルに書いてみました。 import gradio as gr from ollama import Client # Ollamaクライアント初期化(ローカルサーバーに接続) client = Client(host='http://localhost:11434') def translate_english_to_japanese(text):…

【SmolAgents】Google の Gemini 2.0 Flash を使ってみました。

はじめに今までは Google の Gemma-3-12b(4bit量子化)をllama.cppで実行して使っていました。今回は無料枠のなかで Google の Gemini 2.0 Flash を使わせてもらいました。感想言語モデルは大事です。明らかにSmolAgentsの回答が変わりました。変更点前回、…

【SmolAgents】Playwright MCP を使ってみる。

はじめにMicrosoftが開発しているPlaywrightはブラウザ自動化機能を提供するライブラリです。Playwrihgt MCPはそのModel Context Protocol (MCP)サーバになります。これを使うことによって言語モデルとPlaywrightを簡単に結びつけることができるようになるの…

【SmolAgents】エージェントっぽいのを作ってみたけど理想と現実はだいぶ違った

はじめに完全ローカルのAIエージェントをSmolAgentsを使って作ってみました。もちろん簡単なことしかできません。 使用した言語モデル:gemma-3-12b-it-Q4_K_M.gguf(llama.cppで実行)./llama-server -m ~/models/gemma-3-12b-it-Q4_K_M.gguf -c 8192 -ngl …

【SmolAgents】Dockerコンテナをサンドボックスとして使用する時はGradioを使うべし

はじめにSmolAgents(v1.12.0)でDockerコンテナをサンドボックスとして使用した時に出力が段階的にならない問題に直面しました。昨日なんとか解決方法を見つけたのですが、その後Gradioを使えばもっと簡単に解決することがわかりました。 touch-sp.hatenabl…

【備忘録】Gradioから llm-jp-3-13b-instruct3 を使おうとしたら ['token_type_ids'] に関するエラーがでたのでその解決策を書きます。

エラー内容 raise ValueError( ValueError: The following `model_kwargs` are not used by the model: ['token_type_ids'] (note: typos in the generate arguments will also show up in this list) 解決策 # token_type_idsを削除 if "token_type_ids" in…

「vLLM」と「Gradio」を使って Gemma-3-27B-it を実行する

マルチモーダルモデルということで画像を扱ってみました。使用したPCVRAM 24GBのRTX 4090を使用しました。さらにbitsandbytesで量子化も行っています。 プロセッサ Intel(R) Core(TM) i7-14700K 実装 RAM 96.0 GB GPU RTX 4090 (VRAM 24GB) vLLMを実行ここは…

32B(パラメーター数 320億)の「qwen2.5-bakeneko-32b-instruct」をVRAM 16GBのノートPCで動かす

はじめにvLLMを使ってVRAM 16GBのノートPCで「qwen2.5-bakeneko-32b-instruct」を動かしてみました。当然量子化が必要になってきます。どこまでビット数をさげるかは難しいところですが、あまり下げすぎると推論精度が落ちるリスクがあります。今回はautoawq…

vLLMでrinnaが公開している「qwen2.5-bakeneko-32b-instruct」を使ってみました

使用したPC32Bモデル(パラメーター数320億)なのでVRAM 24GBのRTX 4090を使用しました。 プロセッサ Intel(R) Core(TM) i7-14700K 実装 RAM 96.0 GB GPU RTX 4090 (VRAM 24GB) 実行中の表示 INFO 02-18 22:06:19 model_runner.py:1115] Loading model weigh…

「AXCXEPT」という日本の会社が公開している「phi-4-deepseek-R1K-RL-EZO」というモデルを使ってみました

はじめに以前同じ会社が公開してくれている「phi-4-open-R1-Distill-EZOv1」というモデルを使ったことがあります。 touch-sp.hatenablog.com 日本語の追加学習をした推論モデルとしてはサイバーエージェントが公開してくれている「DeepSeek-R1-Distill-Qwen-…

LangChainのFunction CallingをGradioと組み合わせて使ってみました

はじめに前回のスクリプトをGradioで実行できるようにしました。 touch-sp.hatenablog.com 使用したPC プロセッサ Intel(R) Core(TM) i7-12700H 実装 RAM 32.0 GB GPU RTX 3080 Laptop (VRAM 16GB) Python 3.12 CUDA 12.4 Python環境 gradio==5.14.0 langcha…

論理思考モデルをGradioから使う

はじめにGradioでは出力に以下のような文字が出たらうまく表示されません。 <think></think><answer></answer>回避するためには一工夫が必要です。 github.com 使用したPC Windows 11 CUDA 12.4 Python 3.12 Pythonライブラリ accelerate==1.3.0 gradio==5.16.0 torch==2.6.0+cu124 torchao==…

【Ollama】【Gradio】Ollama Python LibraryとGradioを使ってチャットボットを作る

ollama==0.4.7 gradio==5.14.0 import gradio as gr from ollama import Client client = Client(host="http://192.168.11.18:11434") system_prompt_text = "You are an excellent assistant to the programmer." init = { "role": "system", "content": sy…

「 Llama-3.1-Swallow-8B-Instruct-v0.3」をGradioを使ってローカルで使用する

関連記事こちらは「 Llama-3.1-Swallow-8B-Instruct-v0.2」を実行した時の記事です。 touch-sp.hatenablog.com Python環境 accelerate==1.5.2 bitsandbytes==0.45.3 gradio==5.21.0 torch==2.6.0+cu124 transformers==4.49.0Pythonスクリプト前回からの改善…

Gradio 5.0以上でチャットボットを作る

はじめにGradio 5.0からチャットボットの作り方が大きく変わりました。 今回、実際に作ってみました。Pythonスクリプト import gradio as gr from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer from threading import Th…

Axcxeptが公開している「Llama-3.1-8B-EZO-1.1-it」をGradioを使ってローカルで使用する

はじめに「Llama-3.1-8B-EZO-1.1-it」は日本語性能向上のためにLlama3.1-8Bをファインチューニングしたモデルです。こちらになります。 huggingface.co今のところLlama3.1の小さいモデル(8B)で日本語性能を向上させたものは少ないです。 さっそくGradioか…

【RAG】LangChainとGradioを使ってオリジナルチャットボットを作る

pip install torch==2.4.0+cu118 --index-url https://download.pytorch.org/whl/cu118 pip install transformers accelerate bitsandbytes sentencepiece gradio pip install pdfminer.six pip install langchain langchain_community langchain_huggingfac…

rinnaが公開している「llama-3-youko-8b-instruct」をGradioを使ってローカルで使用する

はじめに前回「CyberAgentLM3-22B-Chat」や「Llama-3-ELYZA-JP-8B」や「gemma-2-9b-it」で同じことをしました。 touch-sp.hatenablog.com touch-sp.hatenablog.com touch-sp.hatenablog.com 今回は「llama-3-youko-8b-instruct」です。モデルの量子化今回は…

Googleが公開している「gemma-2-9b-it」をGradioを使ってローカルで使用する

はじめに前回「CyberAgentLM3-22B-Chat」や「Llama-3-ELYZA-JP-8B」で同じことをしました。 touch-sp.hatenablog.com touch-sp.hatenablog.com 今回は「gemma-2-9b-it」です。 小規模でかつ日本語特化モデルでないにもかかわらず日本語性能は高い印象です。…

ELYZAが公開している「Llama-3-ELYZA-JP-8B」をGradioを使ってローカルで使用する

はじめに前回「CyberAgentLM3-22B-Chat」で同じことをしました。 touch-sp.hatenablog.com 今回は「Llama-3-ELYZA-JP-8B」です。 ELYZAの「Llama-3-ELYZA-JP-70B」はGPT-4を上回る日本語性能と言われています。 今回使用したのはそれよりもはるかに小規模な…

サイバーエージェントが公開している「CyberAgentLM3-22B-Chat」をGradioを使ってローカルで使用する

PC環境 Ubuntu 24.04 on WSL2 (Windows 11) CUDA 12.1 Python 3.12Python環境構築 pip install torch==2.3.1+cu121 --index-url https://download.pytorch.org/whl/cu121 pip install transformers accelerate bitsandbytes gradioモデルの量子化4bit量子化…

Gradio と EasyOCR を使ってOCRアプリを作成する

結果わずか15行のスクリプトでOCRアプリが作成できました。 同じことを以前 Streamlit を使ってやっています。 touch-sp.hatenablog.com その時は16行でした。 1行だけ短くなりました(笑)。Pythonスクリプト from PIL import ImageDraw import easyocr imp…

Gradio に入門

Gradioとは?公式サイトの説明文をDeepLで翻訳したのがこちらです。 Gradioは、機械学習モデルをデモする最速の方法であり、フレンドリーなウェブ・インターフェースを備えているため、誰でもどこでも使用することができます!サンプル1 import gradio as g…