文字起こし
はじめに Voxtral Mini 4B Realtime 2602は日本語を含む13言語をサポートするリアルタイム文字起こしモデルです。 実際に使ってみました。 vLLMを使う必要があるのでWSL2(Ubuntu 25.10)を使いました。 WSL2上のvLLMでモデルを動かし、それをWindowsから操…
はじめに VibeVoice-ASRは音声から文字起こしするモデルです。 スタンダードであるWhisperを超える性能があると言われています。 PC環境 Windows 11 実行画面(Gradioデモ) 音声はこちらから男性ナレーション、医療WEBドラマ医師役の音声をダウンロードさせ…
環境 Ubuntu 25.10 on WSL2 UV 0.9.8 Python 3.12.12 実行環境構築 sudo apt install build-essential sudo apt install libsndfile1 uv venv --python 3.12 uv add omnilingual-asr これだけで環境構築が出来ました。 実行 音声はこちらから男性ナレーショ…
はじめに以前にもReazonSpeechを試しています。 touch-sp.hatenablog.com touch-sp.hatenablog.com 今回3回目です。環境 Windows 11 CUDA 12.6 Python 3.13.3PySide6でGUIを作っています。 torch==2.7.0+cu126 PySide6==6.9.0 環境構築 pip install torch==2…
はじめに前回のスクリプトを拡張してもらいました。 touch-sp.hatenablog.com 録音すれば、録音した順にどんどん勝手に文字起こししてくれるようにしました。Claude 3.5 Sonnetとのやりとり2回のやり取りで終わりました。 1回目に出力されたスクリプトはうま…
はじめにReazonSpeechを使うためにC#でGUIを作ったり、Gradioを使ったりしました。 touch-sp.hatenablog.com touch-sp.hatenablog.com 今回はPySide6を使ってみました。PC環境 Windows 11 Python 3.11 CUDA 11.8Python環境構築 pip install torch==2.5.0+cu1…
はじめに前回ReazonSpeechを使うためのGUIをC#で作りました。 touch-sp.hatenablog.com 今回はGradioを使いPythonだけで完結させようと思います。PC環境 Windows 11 Python 3.11 CUDA 11.8Python環境構築ReazonSpeechと最新のGradioは共存できませんでした。…
はじめに前回の続きです。 touch-sp.hatenablog.com 今回はGUIを作りました。環境 Windows 11 .NET framework 4.8 Newtonsoft.Json 13.0.3 (from NuGet)C#コードまずはボタンとテキストボックスがセットになったユーザーコントロールを作りました。 using Sy…
はじめに以前も同様のことをしました。 touch-sp.hatenablog.com 1年半ぶりに再チャレンジしました。 だいぶ使い方が変わっていました。使用したモデルモデルの比較はこちらです。(公式ページから転載) これを見て「ReazonSpeech NeMo」を使うことにしまし…
はじめにWhisperはOpenAIが公開しているSpeech2Textモデルです。音声ファイルを用意すればそれを文字起こししてくれます。以前Pythonから使ったことがあります。 【Whisper】日本語音声の文字起こしにチャレンジしました。 【OpenAI/Whisper】日本語音声の文…
はじめに large-v2とlarge-v3の比較 large-v2 Pythonスクリプト「run.py」 実行 結果 large-v3 Pythonスクリプト「run.py」 実行 結果 ここから本題 Pythonスクリプト「run.py」 実行 結果 はじめにWhisperにlarge-v3という新しいモデルが追加されていたので…
「ReazonSpeech」を使って日本語音声の文字起こし(音声からテキストを作成)にチャレンジしました。Pythonを使えば3行のスクリプトで目的が達成できました。導入も簡単です。
「Whisper」を使って日本語音声の文字起こし(音声からテキストを作成)にチャレンジしました。Pythonを使えば4行のスクリプトで目的が達成できました。導入も簡単です。