はじめに 前回の続きです。 touch-sp.hatenablog.com Avalonia UIの始め方はわかりました。 その先を勉強するのは面倒くさいのでClaude Codeでコーディングします。 Claude Sonnet 4.6を使えば問題なくできたのですが、ローカルLLMではなかなかうまくいきま…
はじめに WSL2をアップデートする必要がありました。 wsl --update > wsl --version WSL バージョン: 2.6.3.0 カーネル バージョン: 6.6.87.2-1 WSLg バージョン: 1.0.71 MSRDC バージョン: 1.2.6353 Direct3D バージョン: 1.611.1-81528511 DXCore バージョ…
はじめに 以前の続きです。 touch-sp.hatenablog.com 今回はSLM (small language model) に限定して、以下のノートPCでコーティングを行いました。 Windows 11 Home Core i7-12700H GeForce RTX 3080 Laptop VRAM 16GB RAM: 32GB SSD: 1TB NVMe SSD .NET Fra…
はじめに llama.cppで実行しているローカルLLMがClaude Codeで使えることは確認しました。 touch-sp.hatenablog.com いろいろなモデルを使って相性を確認してみます。 簡単なタスクができないのはモデル自体の問題ではなくClaude Codeとの相性問題だと思いま…
Qwen3.5-35B-A3B-Q4_K_M.gguf ./build/bin/llama-bench -m /home/hoge/models/Qwen3.5-35B-A3B-Q4_K_M.gguf model size params backend ngl test t/s qwen35moe ?B Q4_K - Medium 19.74 GiB 34.66 B CUDA 99 pp512 4995.94 ± 28.46 qwen35moe ?B Q4_K - Medi…
はじめに 以前 Ollama を使った方法を書きました。 touch-sp.hatenablog.com 今回は llama.cpp を使ってみます。 方法 llama-server ./build/bin/llama-server -m /home/hoge/models/Qwen3.5-27B-Q4_K_M.gguf --host 127.0.0.1 --port 8888 Claude Code powe…
はじめに WSL2のllama.cppでQwen3.5-27Bを実行しました。 方法はこちらです。 touch-sp.hatenablog.com ./build/bin/llama-server -m /home/hoge/models/Qwen3.5-27B-Q4_K_M.gguf --host 127.0.0.1 --port 8888 課題 算数パズルを解かせてみました。 「9 9 9…
確実な方法は成功した事例にバージョンを合わせることです。 PC環境 Ubuntu 24.04 on WSL2 CUDA Toolkit 12.9 Update 1 hoge@winPC:~$ uname -r 5.15.167.4-microsoft-standard-WSL2 CUDA Toolkitをインストールした後に ~/.bashrc に以下を書き込んでおく必…
はじめに Nanbeige4.1-3Bはわずか3Bと小型ながら、Qwen3-32Bなどをベンチマークで上回っていると謳われています。 公式のHuggingFaceから図をお借りして載せておきます。 PC環境 Windows 11 Python環境構築 uvを使っています。pyproject.tomlを載せておくの…
はじめに NVIDIAが日本語に対応した9BパラメータのLLM「NVIDIA-Nemotron-Nano-9B-v2-Japanese」を公開していたので試してみました。 Mamba SSMアーキテクチャをベースにしており、Thinkingモード(enable_thinking=True)にも対応しています。 PC環境 Ubuntu…
はじめに vllmを使う方法もあります。 touch-sp.hatenablog.com vllmがWindowsに対応していないためWSL2を使う必要がありました。 Transformersライブラリから使うとWindowsでも動作可能です。 前回に音声ファイルの文字起こしを書きました。 touch-sp.haten…
はじめに 以前にvllmを使った方法を書きました。 touch-sp.hatenablog.com vllmがWindowsに対応していないためWSL2を使う必要がありました。 今回はTransformersライブラリから使うためWindowsでも動作可能です。 今回はひとまず音声ファイルからの文字起こ…
はじめに C#でOCRアプリを作るにはTesseractが良いと思っていました。 その記事も書きました。 touch-sp.hatenablog.com しかし、Windowsに標準で搭載されているOCR機能を使った方が精度が高かったです。 環境 Windows11 Visual Studio Community 2026 .NET …
C#とTesseractを使って実際に使えるOCRアプリを作りました。
最近「Aqua Voice」とか「Speakly」とか「Typeless」という単語をよく耳にします。 いずれも音声入力のためのアプリです。流行っているのでしょうね。 ただ、有料であったり音声をクラウドで処理する問題があったりします。 Mistral AI が公開した Voxtral M…
はじめに Voxtral Mini 4B Realtime 2602は日本語を含む13言語をサポートするリアルタイム文字起こしモデルです。 実際に使ってみました。 vLLMを使う必要があるのでWSL2(Ubuntu 25.10)を使いました。 WSL2上のvLLMでモデルを動かし、それをWindowsから操…
はじめに 少し前にPaddleOCR-VLの記事を書いたばかりです。 touch-sp.hatenablog.com 早くもバージョン1.5が公開されました。 PaddleOCR-VL-1.5は、OCR(光学文字認識)に加えて、表認識、数式認識、チャート認識、Spotting(テキスト位置検出)、印章認識な…
はじめに GLM-OCRは画像からテキスト、数式、表を認識できるモデルです。 複数の認識タイプに対応しており、日本語も含めた様々な言語のテキスト認識が可能です。 今回はGradioを使用してWebUI化し、実際に動作を確認してみました。 PC環境 Windows 11 Pytho…
PC環境 Windows 11 Python環境構築 uvを使っています。pyproject.tomlを載せておくので uv sync のみで環境構築可能です。 ただし、flash-attentionは事前にこちらの方法でビルドしています。 flash-attentionはなくても実行可能です。 [project] name = "de…
PC環境 Windows 11 Python環境構築 uvを使っています。pyproject.tomlを載せておくので uv sync のみで環境構築可能です。 [project] name = "lightonocr2" version = "0.1.0" description = "Add your description here" readme = "README.md" requires-pyt…
はじめに VibeVoice-ASRは音声から文字起こしするモデルです。 スタンダードであるWhisperを超える性能があると言われています。 PC環境 Windows 11 実行画面(Gradioデモ) 音声はこちらから男性ナレーション、医療WEBドラマ医師役の音声をダウンロードさせ…
はじめに Windows PC同士をBluetoothで接続します。 以前にも同様のことをやっています。 Bluetoothで接続してシリアル通信を行う方法は以前と一緒です。 touch-sp.hatenablog.com 以前はPythonでしたが今回はすべてC#でやっています。 コードはほとんどGoog…
はじめに Visual Studio 2026を使っています。 GUIは使用しませんがフォームアプリケーションを使います。 手順 コンポーネントの追加 ツールボックスから NotifyIcon と ContextMenuStrip をフォームにドラッグ&ドロップします。 コンポーネントの設定 not…
開発環境 Windows 11 手順 プロジェクトの作成 この部分もClaude Codeに実行させることが可能なのでしょうが、節約のためにVisual Studioで素直にWinFormという名前のWindowsフォームアプリケーション(.NET Framework)を作りました。 このようなファイル構…
はじめに ESPnetの記事は以前にも書きました。 touch-sp.hatenablog.com 今回はESPnet==202511を使ってみました。 使用するモデルは前回と同じなので作成される音声の質は変わっていません。 動作することを確認しただけになります。 PC環境 Windows 11 Pyth…
はじめに 以前、Continue CLIとOllamaの組み合わせで記事を書きました。 touch-sp.hatenablog.com 今回はClaude CodeとOllamaを組み合わせてみます。 Windows 11環境で試しています。 手順 Claude Codeのインストール PowerShellを使っています。 irm https:…
はじめに FLUX.2-kleinは4Bモデルと9Bモデルがあるようです。 ライセンスに違いがあるようなので使用する際には注意が必要です。 4BモデルはApache-2.0 License、9BモデルはFLUX Non-Commercial Licenseのようです。 両方のモデルをDiffusersを使って試して…
Developer Command Prompt for VS 2022内で作業しました。 管理者権限は必要ありませんでした。 重要!! スタートメニューから開いたDeveloper Command Prompt for VS 2022ではうまくいきませんでした。 Windows Terminalから開いたDeveloper Command Promp…
はじめに GLM-Imageは一つのモデルでText2ImageとImage2Imageの両方が行えます。 それぞれ行ったうえでQwen-Imageと比較してみました。 4bit量子化を使ってRTX 4090(VRAM 24GB)1枚で動くようにしています。 Text to Image Generation (Qwen-Image-2512と比較…
Continueの設定 config.yaml C:\Users\<user name>\.continue\config.yaml name: My Local Config version: 0.0.1 schema: v1 models: - name: gpt-oss provider: ollama model: gpt-oss:latest apiBase: http://localhost:11434 roles: - chat - edit - apply capabili</user>…