はじめに前回のスクリプトを拡張してもらいました。 touch-sp.hatenablog.com 録音すれば、録音した順にどんどん勝手に文字起こししてくれるようにしました。Claude 3.5 Sonnetとのやりとり2回のやり取りで終わりました。 1回目に出力されたスクリプトはうま…
はじめにReazonSpeechを使うためにC#でGUIを作ったり、Gradioを使ったりしました。 touch-sp.hatenablog.com touch-sp.hatenablog.com 今回はPySide6を使ってみました。PC環境 Windows 11 Python 3.11 CUDA 11.8Python環境構築 pip install torch==2.5.0+cu1…
はじめに前回ReazonSpeechを使うためのGUIをC#で作りました。 touch-sp.hatenablog.com 今回はGradioを使いPythonだけで完結させようと思います。PC環境 Windows 11 Python 3.11 CUDA 11.8Python環境構築ReazonSpeechと最新のGradioは共存できませんでした。…
はじめに前回の続きです。 touch-sp.hatenablog.com 今回はGUIを作りました。環境 Windows 11 .NET framework 4.8 Newtonsoft.Json 13.0.3 (from NuGet)C#コードまずはボタンとテキストボックスがセットになったユーザーコントロールを作りました。 using Sy…
はじめに以前も同様のことをしました。 touch-sp.hatenablog.com 1年半ぶりに再チャレンジしました。 だいぶ使い方が変わっていました。使用したモデルモデルの比較はこちらです。(公式ページから転載) これを見て「ReazonSpeech NeMo」を使うことにしまし…
はじめにVS Code を使って C# と .NET(.NET Frameworkではない)の組み合わせで Windows Formアプリを作成する手順です。最終的には単一実行ファイル(1ファイルのみで実行可能なexeファイル)を作成しました。バージョン > dotnet --version 8.0.400プロジ…
はじめに以前「Text2Video」を行いました。 touch-sp.hatenablog.com 今回は「Image2Video」を行いました。PC環境 Windows 11 RTX 4090 (VRAM 24GB) CUDA 11.8 Python 3.12Python環境構築 pip install torch==2.4.1+cu118 --index-url https://download.pyto…
はじめにFLUX.1-devに特定の人物を学習させることが目的です。PC環境 Windows 11 CUDA 11.8 Python 3.12元画像用意したのは1枚の画像です。 SDLX派生モデルで作成したものです。 この人物を学習させます。 最終結果 a photo of f5h8_woman holding a sign th…
はじめに前回量子化について調べてみました。 touch-sp.hatenablog.com 今回、生成過程を分割することで「VRAM 12GB以内」かつ「高速」に動かすことができました。結果RTX 4090 (VRAM 24GB)で測定しています。 torch.cuda.max_memory_allocated: 6.58 GB tor…
RTX 4090 (VRAM 24GB)で検証しています。transformerのみを量子化 GPU 0 - Used memory: 10.61/23.99 GB time: 99.07 sectext_encoder_2のみを量子化 GPU 0 - Used memory: 9.32/23.99 GB time: 184.73 sec両方を量子化 GPU 0 - Used memory: 15.14/23.99 GB…
元画像ぱくたそからこちらの画像を使わせて頂きました。 www.pakutaso.com 使用したモデルCIVITAIから「xeBlenderFlux_01.safetensors」をダウンロードして使わせて頂きました。こちらと同じ方法でいったんDiffusersフォーマットに変換しました。 touch-sp.h…
はじめに「anzu_flux」はこちらです。 huggingface.co 結果左がbeta01、右がbeta02です。 個人的にはbeta02が好みです(笑)。 Pythonスクリプト使い方はこちらを見て下さい。 touch-sp.hatenablog.com VRAM 12GBで実行可能です。 import torch from diffuse…