Avalonia UI が得意でないと思われるローカルLLMでなんとか Avalonia UI のコーディングを行う

はじめに 前回の続きです。 touch-sp.hatenablog.com Avalonia UIの始め方はわかりました。 その先を勉強するのは面倒くさいのでClaude Codeでコーディングします。 Claude Sonnet 4.6を使えば問題なくできたのですが、ローカルLLMではなかなかうまくいきま…

WSL2 で .NET と Avalonia UI を使ってGUIアプリを作る

はじめに WSL2をアップデートする必要がありました。 wsl --update > wsl --version WSL バージョン: 2.6.3.0 カーネル バージョン: 6.6.87.2-1 WSLg バージョン: 1.0.71 MSRDC バージョン: 1.2.6353 Direct3D バージョン: 1.611.1-81528511 DXCore バージョ…

Claude Code と llama.cpp を使って SLM (small language model) によるコーディングを行ってみた。

はじめに 以前の続きです。 touch-sp.hatenablog.com 今回はSLM (small language model) に限定して、以下のノートPCでコーティングを行いました。 Windows 11 Home Core i7-12700H GeForce RTX 3080 Laptop VRAM 16GB RAM: 32GB SSD: 1TB NVMe SSD .NET Fra…

Claude Code と llama.cpp を使ってコーディングする時の相性問題

はじめに llama.cppで実行しているローカルLLMがClaude Codeで使えることは確認しました。 touch-sp.hatenablog.com いろいろなモデルを使って相性を確認してみます。 簡単なタスクができないのはモデル自体の問題ではなくClaude Codeとの相性問題だと思いま…

【llama.cpp】VRAM 24GB の RTX 4090 で Qwen3.5 の 35B-A3B-Q4_K_M.gguf と 27B-Q4_K_M.gguf の速度比較をしたら 35B-A3B の方が速かった

Qwen3.5-35B-A3B-Q4_K_M.gguf ./build/bin/llama-bench -m /home/hoge/models/Qwen3.5-35B-A3B-Q4_K_M.gguf model size params backend ngl test t/s qwen35moe ?B Q4_K - Medium 19.74 GiB 34.66 B CUDA 99 pp512 4995.94 ± 28.46 qwen35moe ?B Q4_K - Medi…

Claude Code と llama.cpp を使ってローカル環境で Vibe Coding

はじめに 以前 Ollama を使った方法を書きました。 touch-sp.hatenablog.com 今回は llama.cpp を使ってみます。 方法 llama-server ./build/bin/llama-server -m /home/hoge/models/Qwen3.5-27B-Q4_K_M.gguf --host 127.0.0.1 --port 8888 Claude Code powe…

【llama.cpp】Qwen3.5-27Bを試す

はじめに WSL2のllama.cppでQwen3.5-27Bを実行しました。 方法はこちらです。 touch-sp.hatenablog.com ./build/bin/llama-server -m /home/hoge/models/Qwen3.5-27B-Q4_K_M.gguf --host 127.0.0.1 --port 8888 課題 算数パズルを解かせてみました。 「9 9 9…

【WSL2】失敗しない llama.cpp のビルド(CUDA)

確実な方法は成功した事例にバージョンを合わせることです。 PC環境 Ubuntu 24.04 on WSL2 CUDA Toolkit 12.9 Update 1 hoge@winPC:~$ uname -r 5.15.167.4-microsoft-standard-WSL2 CUDA Toolkitをインストールした後に ~/.bashrc に以下を書き込んでおく必…

【Transformers】小型で推論能力に強いNanbeige4.1-3Bを使ってみる

はじめに Nanbeige4.1-3Bはわずか3Bと小型ながら、Qwen3-32Bなどをベンチマークで上回っていると謳われています。 公式のHuggingFaceから図をお借りして載せておきます。 PC環境 Windows 11 Python環境構築 uvを使っています。pyproject.tomlを載せておくの…

【Transformers】日本語に特化した NVIDIA-Nemotron-Nano-9B-v2-Japanese を使ってみる

はじめに NVIDIAが日本語に対応した9BパラメータのLLM「NVIDIA-Nemotron-Nano-9B-v2-Japanese」を公開していたので試してみました。 Mamba SSMアーキテクチャをベースにしており、Thinkingモード(enable_thinking=True)にも対応しています。 PC環境 Ubuntu…

Voxtral Mini 4B Realtime 2602 を Transformersライブラリから使う② (マイク入力に対してリアルタイムで文字起こし)

はじめに vllmを使う方法もあります。 touch-sp.hatenablog.com vllmがWindowsに対応していないためWSL2を使う必要がありました。 Transformersライブラリから使うとWindowsでも動作可能です。 前回に音声ファイルの文字起こしを書きました。 touch-sp.haten…

Voxtral Mini 4B Realtime 2602 を Transformersライブラリから使う① (音声ファイルの文字起こし)

はじめに 以前にvllmを使った方法を書きました。 touch-sp.hatenablog.com vllmがWindowsに対応していないためWSL2を使う必要がありました。 今回はTransformersライブラリから使うためWindowsでも動作可能です。 今回はひとまず音声ファイルからの文字起こ…

Windowsに標準で搭載されているOCR機能を使ってC#で簡単なOCRアプリを作ってみる

OCR

はじめに C#でOCRアプリを作るにはTesseractが良いと思っていました。 その記事も書きました。 touch-sp.hatenablog.com しかし、Windowsに標準で搭載されているOCR機能を使った方が精度が高かったです。 環境 Windows11 Visual Studio Community 2026 .NET …

Tesseract 5 を使って C# で簡単なOCRアプリを作ってみる

OCR

C#とTesseractを使って実際に使えるOCRアプリを作りました。

【無料で音声入力】Mistral AI が公開している Voxtral Mini 4B Realtime 2602 があまりに素晴らしいので、ローカルで実行可能な音声入力アプリを作ってみた。

最近「Aqua Voice」とか「Speakly」とか「Typeless」という単語をよく耳にします。 いずれも音声入力のためのアプリです。流行っているのでしょうね。 ただ、有料であったり音声をクラウドで処理する問題があったりします。 Mistral AI が公開した Voxtral M…

Voxtral Mini 4B Realtime 2602 を使って文字起こし

はじめに Voxtral Mini 4B Realtime 2602は日本語を含む13言語をサポートするリアルタイム文字起こしモデルです。 実際に使ってみました。 vLLMを使う必要があるのでWSL2(Ubuntu 25.10)を使いました。 WSL2上のvLLMでモデルを動かし、それをWindowsから操…

PaddleOCR-VL-1.5 が公開されたので Gradio と Transformers を使ってOCRアプリを作る

OCR

はじめに 少し前にPaddleOCR-VLの記事を書いたばかりです。 touch-sp.hatenablog.com 早くもバージョン1.5が公開されました。 PaddleOCR-VL-1.5は、OCR(光学文字認識)に加えて、表認識、数式認識、チャート認識、Spotting(テキスト位置検出)、印章認識な…

日本語にも対応しているOCRモデルの GLM-OCR を Gradioから使ってみる

OCR

はじめに GLM-OCRは画像からテキスト、数式、表を認識できるモデルです。 複数の認識タイプに対応しており、日本語も含めた様々な言語のテキスト認識が可能です。 今回はGradioを使用してWebUI化し、実際に動作を確認してみました。 PC環境 Windows 11 Pytho…

日本語にも対応しているOCRモデルの DeepSeek-OCR-2 を使ってみる

OCR

PC環境 Windows 11 Python環境構築 uvを使っています。pyproject.tomlを載せておくので uv sync のみで環境構築可能です。 ただし、flash-attentionは事前にこちらの方法でビルドしています。 flash-attentionはなくても実行可能です。 [project] name = "de…

日本語にも対応しているOCRモデルの LightOnOCR-2-1B を使ってみる

OCR

PC環境 Windows 11 Python環境構築 uvを使っています。pyproject.tomlを載せておくので uv sync のみで環境構築可能です。 [project] name = "lightonocr2" version = "0.1.0" description = "Add your description here" readme = "README.md" requires-pyt…

Whisper を超えると噂の Microsoft が公開している VibeVoice-ASR を使ってみる

はじめに VibeVoice-ASRは音声から文字起こしするモデルです。 スタンダードであるWhisperを超える性能があると言われています。 PC環境 Windows 11 実行画面(Gradioデモ) 音声はこちらから男性ナレーション、医療WEBドラマ医師役の音声をダウンロードさせ…

2つのPCをBluetoothで接続して左手用デバイスを作成する

はじめに Windows PC同士をBluetoothで接続します。 以前にも同様のことをやっています。 Bluetoothで接続してシリアル通信を行う方法は以前と一緒です。 touch-sp.hatenablog.com 以前はPythonでしたが今回はすべてC#でやっています。 コードはほとんどGoog…

【C#】【.NET Framework】タスクトレイに常駐するアプリ

C#

はじめに Visual Studio 2026を使っています。 GUIは使用しませんがフォームアプリケーションを使います。 手順 コンポーネントの追加 ツールボックスから NotifyIcon と ContextMenuStrip をフォームにドラッグ&ドロップします。 コンポーネントの設定 not…

Claude Codeで .NET Framework を使った C# の開発を行う

C#

開発環境 Windows 11 手順 プロジェクトの作成 この部分もClaude Codeに実行させることが可能なのでしょうが、節約のためにVisual Studioで素直にWinFormという名前のWindowsフォームアプリケーション(.NET Framework)を作りました。 このようなファイル構…

【ESPnet】Windows11 で ESPnet==202511 を使ってTTS(Text2Speech)を行う

はじめに ESPnetの記事は以前にも書きました。 touch-sp.hatenablog.com 今回はESPnet==202511を使ってみました。 使用するモデルは前回と同じなので作成される音声の質は変わっていません。 動作することを確認しただけになります。 PC環境 Windows 11 Pyth…

Claude Code と Ollama を使ってローカル環境で Vibe Coding

はじめに 以前、Continue CLIとOllamaの組み合わせで記事を書きました。 touch-sp.hatenablog.com 今回はClaude CodeとOllamaを組み合わせてみます。 Windows 11環境で試しています。 手順 Claude Codeのインストール PowerShellを使っています。 irm https:…

【Diffusers】FLUX.2-kleinが公開されたのでさっそく使ってみる

はじめに FLUX.2-kleinは4Bモデルと9Bモデルがあるようです。 ライセンスに違いがあるようなので使用する際には注意が必要です。 4BモデルはApache-2.0 License、9BモデルはFLUX Non-Commercial Licenseのようです。 両方のモデルをDiffusersを使って試して…

Windows用にflash-attentionをビルドする方法

Developer Command Prompt for VS 2022内で作業しました。 管理者権限は必要ありませんでした。 重要!! スタートメニューから開いたDeveloper Command Prompt for VS 2022ではうまくいきませんでした。 Windows Terminalから開いたDeveloper Command Promp…

【Diffusers】GLM-Image を使ってみる(Qwen-Imageと比較)

はじめに GLM-Imageは一つのモデルでText2ImageとImage2Imageの両方が行えます。 それぞれ行ったうえでQwen-Imageと比較してみました。 4bit量子化を使ってRTX 4090(VRAM 24GB)1枚で動くようにしています。 Text to Image Generation (Qwen-Image-2512と比較…

Continue CLI と Ollama を使ってローカル環境で Vibe Coding

Continueの設定 config.yaml C:\Users\<user name>\.continue\config.yaml name: My Local Config version: 0.0.1 schema: v1 models: - name: gpt-oss provider: ollama model: gpt-oss:latest apiBase: http://localhost:11434 roles: - chat - edit - apply capabili</user>…