2023-01-01から1年間の記事一覧

C#を使ってシンボリックリンクの作成を簡略化する

C#

using System; using System.Diagnostics; using System.IO; using System.Windows.Forms; namespace make_simlink { public partial class Form1 : Form { public Form1() { InitializeComponent(); } private void button1_Click(object sender, EventArgs…

【Diffusers】AnimateDiff + Multi-ControlNet で作成する動画のフレーム数上限を上げる方法

はじめにこちらの続きです。 touch-sp.hatenablog.com この記事ではフレーム数上限は32だと書きました。 その上限を上げる方法が見つかったので紹介します。方法こちらの記事で「convert_animatediff_motion_module_to_diffusers.py」を使ってモーションモジ…

【AnimateDiff】Diffusers用にモーションモジュールを変換するスクリプトが公開されたので Diffusers から AnimateDiff v3 が使えるようになりました。

変換用スクリプトファイル名は「convert_animatediff_motion_module_to_diffusers.py」です。こちらのスクリプトです。 github.com 変換方法 python convert_animatediff_motion_module_to_diffusers.py ` --ckpt_path v3_sd15_mm.ckpt ` --use_motion_mid_b…

【OpenAI/Whisper】日本語音声の文字起こしをする際に専門用語に弱い点を克服する方法。

はじめに large-v2とlarge-v3の比較 large-v2 Pythonスクリプト「run.py」 実行 結果 large-v3 Pythonスクリプト「run.py」 実行 結果 ここから本題 Pythonスクリプト「run.py」 実行 結果 はじめにWhisperにlarge-v3という新しいモデルが追加されていたので…

【ToDo】最近気になるサイト

試してみたいけどまだ試していないもの、コードがまだ公開されていないものなどです。 進歩が速すぎてなかなか追いつけません。画像生成github.com github.com 動画生成github.com github.com github.com github.com すでに試してみたものLongAnimateDiffgit…

「fuduki_mix v2.0」が公開されています。過去のモデルと比較してみました。

結果左から v1.0 → v1.5 → v2.0 です。 今回使用したプロンプトでは、キリっとしたかっこいい女性から綺麗な女性に変わってきている気がします。Pythonスクリプトプロンプトはこちらからそのまま使わせてもらいました。 from diffusers import DiffusionPipe…

【AnimateAnyghing】AnimateAnyghing を使って Image2Videoを試してみる

github.com はじめに以前AnimateDiff Motion Module v3 と SparseCtrl を使って同じことをしました。 touch-sp.hatenablog.com AnimateAnyghingでは変化させたくない部分をそのまま残せます。その点が前回との違いになります。元画像用意した1枚の画像に動き…

【AnimateDiff】Motion Module v3 と SparseCtrl で Image2Video を試してみる

元画像用意した1枚の画像に動きを持たせることが目的です。 以下のスクリプトで作成しました。 from diffusers import StableDiffusionPipeline, EulerAncestralDiscreteScheduler import torch from compel import Compel, DiffusersTextualInversionManage…

【AnimateDiff】Motion Module v3 が公開されたので v2 と比較してみました。

はじめにv2はこちらを見てください。 touch-sp.hatenablog.com v2と全く同じ環境で動作可能でした。YAMLファイル以下のようなYAMLファイルを用意しました。 # 1-animation - adapter_lora_path: "models/Motion_Module/v3_sd15_adapter.ckpt" dreambooth_pat…

【Diffusers】SDE Drag Pipeline の紹介。女性の髪を伸ばしてみました。

はじめに以前「DragGAN」について記事を書きました。 touch-sp.hatenablog.com 「DragGAN」はGAN(敵対的生成ネットワーク)を使っています。 今回紹介する「SDE Drag」は拡散モデルを使ったものになります。目的以下の女性の髪を伸ばしてみます。 この女性…

動画の質を向上させる FreeInit を紹介します。

github.com はじめに公式ページそのまま We propose FreeInit, a concise yet effective method to improve temporal consistency of videos generated by diffusion models. FreeInit requires no additional training and introduces no learnable paramet…

【Diffusers】AnimateDiff + Multi-ControlNet + IP-Adapterで動画作成してみる

目的この女性が歩く動画(アニメ調)を作っていきます。 この女性の写真はこちらで作成したものです。 touch-sp.hatenablog.com walking動画walking動画はPixabayからこちらの動画を使わせて頂きました。 結果LCM-LoRAなしなんとなく顔は似ているような気が…

「haduki_mix v1.6 typeK」というモデルが公開されています。過去のモデルと比較してみました。

疑問「typeK」とはどういう意味なのでしょうか?結果左から v1.0 → v1.5 → v1.6 typeK です。 Pythonスクリプトプロンプトはこちらからそのまま使わせてもらいました。 from diffusers import StableDiffusionXLPipeline, DPMSolverMultistepScheduler impor…

【Diffusers】AnimateDiff + Multi-ControlNet で動画作成してみる

はじめに以前、単一のControlNetを使う場合の記事を書きました。 touch-sp.hatenablog.com 新たにMulti-ControlNetに挑戦しました。はまりポイント最大32フレームまでしか対応していないようです。それ以上の動画を作ろうとするとエラーがでます。 RuntimeEr…

【controlnet_aux】動画に対してControlNet用のPreprocessを行う

はじめに以前複数の画像に対してまとめてControlNet用のPreprocessを行う方法を書きました。 touch-sp.hatenablog.com 今回は動画を対象としました。 さらにGIFでも出力できるようにしました。Pythonスクリプト import cv2 from PIL import Image import os …

【Diffusers】AnimateDiff + IP-Adapter で動画作成してみる

IP-Adapter用の画像を作成まずは「yabalMixTrue25D」というモデルを使って女性の画像を作成しました。 なんとなく作ったのですが手の描写が完璧すぎて驚きました。 from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler, AutoencoderKL pi…

【Diffusers】AnimateDiff + ControlNet で動画作成してみる

はじめに最近DiffusersのAnimateDiffでControlNetが使えるようになりました。さっそく使ってみました。環境 Windows 11 CUDA 11.8 Python 3.11Python環境構築 pip install torch==2.0.1+cu118 torchvision==0.15.2+cu118 --index-url https://download.pytor…

MagicAnimate で 使用できる DensePoseモーション動画を作成する

環境 Ubuntu 22.04 on WSL2 CUDA 11.7 or 11.8 Python 3.10方法① Python環境構築動画作成後にMagicAnimateを使うことを想定して環境構築します。たったの2行です。 pip install -r https://raw.githubusercontent.com/dai-ichiro/myEnvironments/main/magic-…

巷でうわさの「MagicAnimate」を使ってみました

github.com 環境 環境構築 CUDA 11.7の場合 CUDA 11.8の場合 準備 実行(GUIなし) YAMLファイルの作成 実行 実行(Gradio:GUIあり) 続き 環境 Ubuntu 22.04 on WSL2 CUDA 11.7 or 11.8 Python 3.10Python 3.10以外でも動くと思いますが確認はできていませ…

【controlnet_aux】複数の画像に対してまとめてControlNet用のPreprocessを行う

はじめにcontrolnet-auxというライブラリを使って複数の画像に対してまとめてControlNet用のPreprocessを行うスクリプトを書きました。controlnet-auxについては以下を見て下さい。 touch-sp.hatenablog.com Pythonスクリプト from PIL import Image import …

Stable Video Diffusion が Diffusers から使えるようになりました

はじめにStable Diffusion を開発している Stability AI が公開した「Stable Video Diffusion」についての記事を以前書きました。 touch-sp.hatenablog.com 最近、Diffusersから使えるようになって環境構築など非常に簡単になりました。 github.com さっそく…

Pythonのvenv環境をショートカットでactivateしたい(コマンドプロンプトとPowerShellの違い)

コマンドプロンプトを使う時とPowerShellを使う時で方法が異なります。 はまった!!コマンドプロンプトショートカットのリンク先に以下のように書き込みます。 cmd.exe /k D:\diffusers\env\env1130\Scripts\activatePowerShell powershell.exe -ExecutionP…

【 SDXL-Turbo 】num_inference_steps=1 で画像が生成できてしまう SDXL-Turbo を紹介します

はじめにLCM-RoLAが短い時間で画像が生成できると話題になっていますが、それを上回るかもしれない SDXL-Turbo というのが Stable Diffusion を開発している Stability AI から公開されました。試しに使ってみました。また、LCM-LoRA と比較してみました。Py…

nagatsuki_mix v2.0 が公開されていたので使ってみました。

はじめにnagatsuki_mix v1.0については以下を見て下さい。 touch-sp.hatenablog.com 今回はnagatsuki_mixのv1.0とv2.0の比較、nagatsuki_mix v2.0とLCM-LoRAの相性についてみてみました。v1.0とv2.0の比較左がv1.0、右がv2.0です。 nagatsuki_mix v2.0とLCM-…

【C#】タブを使って複数のフォルダを一気に一つのエクスプローラーで開く

複数のフォルダを一気に開くC#コードを書きました。 簡単にできるのかも知れませんがその方法が見つけられなかったので自分で作りました。C#コードあらかじめ「プロジェクト」→「参照の追加」からSystem.Windows.Formsを追加する必要があります。 using Syst…

Windows の PowerShell で「zoxide」「fzf」を使う

インストール winget install ajeetdsouza.zoxide winget install fzf$profileの編集以下を書き込みます。 Invoke-Expression (& { (zoxide init powershell | Out-String) }) 書き込み方はVS codeがすでにインストールされていれば以下の1行です。 code $pr…

Ubuntu 22.04 に PowerShell を導入する

インストールMicrosoft公式通りにやるとApplications一覧にアイコンが表示されません。 起動は一旦Terminalを開いて「pwsh」とコマンドを入力する必要があります。 面倒くさい!! Ubuntu Softwareを通してインストールするとそのようなことにはなりませんで…

Gradio と EasyOCR を使ってOCRアプリを作成する

結果わずか15行のスクリプトでOCRアプリが作成できました。 同じことを以前 Streamlit を使ってやっています。 touch-sp.hatenablog.com その時は16行でした。 1行だけ短くなりました(笑)。Pythonスクリプト from PIL import ImageDraw import easyocr imp…

Gradio に入門

Gradioとは?公式サイトの説明文をDeepLで翻訳したのがこちらです。 Gradioは、機械学習モデルをデモする最速の方法であり、フレンドリーなウェブ・インターフェースを備えているため、誰でもどこでも使用することができます!サンプル1 import gradio as g…

Stable Diffusion を開発している Stability AI が「Stable Video Diffusion」という image-to-videoモデルを公開しました

github.com はじめに新しく公開された「Stable Video Diffusion」は image-to-videoモデルです。画像を一枚用意したらそれを動画化してくれます。環境二つの環境で動作確認しました。Windows 11 Windows 11 NVIDIA Drive 546.01 CUDA 11.8 Python 3.10Python…