文字起こし

Voxtral Mini 4B Realtime 2602 を使って文字起こし

はじめに Voxtral Mini 4B Realtime 2602は日本語を含む13言語をサポートするリアルタイム文字起こしモデルです。 実際に使ってみました。 vLLMを使う必要があるのでWSL2(Ubuntu 25.10)を使いました。 WSL2上のvLLMでモデルを動かし、それをWindowsから操…

Whisper を超えると噂の Microsoft が公開している VibeVoice-ASR を使ってみる

はじめに VibeVoice-ASRは音声から文字起こしするモデルです。 スタンダードであるWhisperを超える性能があると言われています。 PC環境 Windows 11 実行画面(Gradioデモ) 音声はこちらから男性ナレーション、医療WEBドラマ医師役の音声をダウンロードさせ…

Meta社が公開した Omnilingual ASR を使ってみる(専門用語に強いのか?)

環境 Ubuntu 25.10 on WSL2 UV 0.9.8 Python 3.12.12 実行環境構築 sudo apt install build-essential sudo apt install libsndfile1 uv venv --python 3.12 uv add omnilingual-asr これだけで環境構築が出来ました。 実行 音声はこちらから男性ナレーショ…

【ReazonSpeech】日本語音声の文字起こしにチャレンジ(3回目)。「reazonspeech-k2-v2」というモデルを試してみた。

はじめに以前にもReazonSpeechを試しています。 touch-sp.hatenablog.com touch-sp.hatenablog.com 今回3回目です。環境 Windows 11 CUDA 12.6 Python 3.13.3PySide6でGUIを作っています。 torch==2.7.0+cu126 PySide6==6.9.0 環境構築 pip install torch==2…

【拡張】ReazonSpeechをPySide6から使う(Claude 3.5 Sonnetに機能を拡張してもらいました)

はじめに前回のスクリプトを拡張してもらいました。 touch-sp.hatenablog.com 録音すれば、録音した順にどんどん勝手に文字起こししてくれるようにしました。Claude 3.5 Sonnetとのやりとり2回のやり取りで終わりました。 1回目に出力されたスクリプトはうま…

ReazonSpeechをPySide6から使う

はじめにReazonSpeechを使うためにC#でGUIを作ったり、Gradioを使ったりしました。 touch-sp.hatenablog.com touch-sp.hatenablog.com 今回はPySide6を使ってみました。PC環境 Windows 11 Python 3.11 CUDA 11.8Python環境構築 pip install torch==2.5.0+cu1…

ReazonSpeechをGradioから使う

はじめに前回ReazonSpeechを使うためのGUIをC#で作りました。 touch-sp.hatenablog.com 今回はGradioを使いPythonだけで完結させようと思います。PC環境 Windows 11 Python 3.11 CUDA 11.8Python環境構築ReazonSpeechと最新のGradioは共存できませんでした。…

【ReazonSpeech】日本語音声の文字起こしのためのGUIをC#で作りました。

はじめに前回の続きです。 touch-sp.hatenablog.com 今回はGUIを作りました。環境 Windows 11 .NET framework 4.8 Newtonsoft.Json 13.0.3 (from NuGet)C#コードまずはボタンとテキストボックスがセットになったユーザーコントロールを作りました。 using Sy…

【ReazonSpeech】日本語音声の文字起こしにチャレンジしました。(2回目)

はじめに以前も同様のことをしました。 touch-sp.hatenablog.com 1年半ぶりに再チャレンジしました。 だいぶ使い方が変わっていました。使用したモデルモデルの比較はこちらです。(公式ページから転載) これを見て「ReazonSpeech NeMo」を使うことにしまし…

【Candle】Rustなんか触ったこともない人間がRustを使ってOpenAI/Whisperを実行するまでの全手順(CUDAあり)

はじめにWhisperはOpenAIが公開しているSpeech2Textモデルです。音声ファイルを用意すればそれを文字起こししてくれます。以前Pythonから使ったことがあります。 【Whisper】日本語音声の文字起こしにチャレンジしました。 【OpenAI/Whisper】日本語音声の文…

【OpenAI/Whisper】日本語音声の文字起こしをする際に専門用語に弱い点を克服する方法。

はじめに large-v2とlarge-v3の比較 large-v2 Pythonスクリプト「run.py」 実行 結果 large-v3 Pythonスクリプト「run.py」 実行 結果 ここから本題 Pythonスクリプト「run.py」 実行 結果 はじめにWhisperにlarge-v3という新しいモデルが追加されていたので…

【ReazonSpeech】日本語音声の文字起こしにチャレンジしました。

「ReazonSpeech」を使って日本語音声の文字起こし(音声からテキストを作成)にチャレンジしました。Pythonを使えば3行のスクリプトで目的が達成できました。導入も簡単です。

【Whisper】日本語音声の文字起こしにチャレンジしました。

「Whisper」を使って日本語音声の文字起こし(音声からテキストを作成)にチャレンジしました。Pythonを使えば4行のスクリプトで目的が達成できました。導入も簡単です。