【SadTalker】1枚の顔写真と音声データだけでしゃべっている動画を作成

github.com 結果 画像はぱくたそから使わせて頂きました。 こちらの画像になります。 顔写真1枚しか使っていません。 音声は「ESPnet」で作成したものです。こちらを参照して下さい。 音声ファイルはffmpegを使ってwavファイルからmp3ファイルに変換して使用…

【VideoCrafter】また新しい動画作成モデルが公開されていました。さっそく使ってみました。

最終更新日:2023年4月21日 PyTorch 2.0 + xFormerの組み合わせで以前よりVRAM使用量がかなり削減されています。 github.com結果元動画 作成動画prompt:「An ostrich walking in the desert, photorealistic, 4k」 PROMPT="An ostrich walking in the desert…

【Text2Video-Zero】【Diffusers】Diffusers から Text2Video-Zero が使えるようになったのでさっそく使ってみました

結果 左のポーズ動画から右の動画を作成しました。 ポーズ動画はこちらからダウンロードさせて頂きました。方法GitHubに載せました。よかったら見て下さい。 github.com VRAM使用量chunk_size = 29.0GBの使用でした。 chunk_size = 311.1GBの使用でした。 ch…

【Text2Video-Zero】【動画生成AI】作った動画に背景をつけてみました

前回の続きです。 touch-sp.hatenablog.com 今回は流れるような背景をつけてみました。少し流れ方が速すぎるような気もしますが(笑)。 もっと良い画像が出来たら適宜更新します。方法Step 1:動画を作成する前回通りです。 touch-sp.hatenablog.com Step 2…

【Text2Video-Zero】【ControlNet】いろいろ設定をいじってみる。結果はどのように変わるか?

はじめにRTX 3080 (VRAM12GB)を使って力任せに動画作成をしてみました。前回使用したText2Video-ZeroにControlNetを組み合わせています。 touch-sp.hatenablog.com あらたにスクリプトを書きました。 こちらです→「canny_video2video.py」結果Anything-v5.0 …

【Text2Video-Zero】また新しい動画作成モデルが公開されていました。特徴は?

github.com 特徴今わかっている特徴は 簡単に使える いろんなモデルが使える ControlNetが使える 注意点VRAM使用は11~12GBでした。VRAM 12GBのRTX 3080で動作確認しています。さっそく使ってみるsimple Text-To-Video非常に簡潔なスクリプトで実行可能です…

【Diffusers】個人的ToDoリスト

今後試してみたいものT2I-Adaptergithub.com Tune-A-Videogithub.com Image to Videogithub.com VideoCraftergithub.com UniDiffuserVersatile Diffusionの進化版みたいなもの? github.com github.com Dreambooth support for text2videogithub.com Token M…

WSL2上のUbuntuに zoxide と fzf をインストールする

sudo apt install zoxide sudo apt install fzf その後「.bashrc」に以下の1行を書き込む。 eval "$(zoxide init bash)" 書き込み方 sudo nano ~/.bashrc ランキング参加中プログラミング

【Diffusers】Text-to-Video synthesis(テキストからビデオ合成)、たったの9行でした

はじめにテキストからショート動画が作れるとのことでさっそく試してみました。 github.com 環境CUDA 11.8とPyTorch 2.0を使うためにWSL2を使用しました。 Ubuntu 22.04 on WSL2 CUDA 11.8.0 WSL2ではOS環境をいくらでも複製できるので新しい環境を試すには…

【Diffusers】Multi-ControlNetでスマホを持つ手をきれいに描く

はじめに以前からControlNetを使って手をきれいに描画することに挑戦してきました。 touch-sp.hatenablog.com touch-sp.hatenablog.com 何かを持つ手はさらに難易度が高いとのことで今回はそれに挑戦しました。 「スマホを持つ手」をきれいに描画することが…

【Diffusers】Stable Diffusion 2.1用の ControlNet が公開されていたのでさっそく Waifu Diffusion 1.5 Beta 2 - Frosty Aesthetic Ver と組み合わせて使ってみました

はじめにStable Diffusion 2.1用のControlNetが公開されていました。 →こちらです。 Stable Diffusion 2.1をベースとしたモデルを探していたらWaifu Diffusion 1.5 Betaに行きつきました。 中でもBeta 2 - Frosty Aesthetic Verはリアルに近い画像が出力され…

【Diffusers】Multi-ControlNetで人物をきれいに描く

注意Multi-ControlNetはDiffusesで正式に公開されているわけではありません。注意してください。 pip install torch==1.13.1+cu116 torchvision==0.14.1+cu116 --extra-index-url https://download.pytorch.org/whl/cu116 pip install git+https://github.co…

【Diffusers】ControlNet + Inpainting が実装されていたので使ってみました

ControlNetとInpaintを組み合わせるとどのようなことが可能になるのか?実際に使ってみて一例を紹介しています。

【Diffusers】【ControlNet】【scribble2image】線の太さは画像に影響するか?

ControlNetのscribble2imageを使用するときに線の太さはどれくらいが適切か?いろいろなパターンを試してみました。

【Diffusers】【ControlNet】【canny2image】画像サイズについて

はじめにControlNetのcanny2imageについて深堀りしていきます。前回Canny法によるエッジ検出の設定が重要なことが分かりました。 touch-sp.hatenablog.com 今回は元画像が生成画像(今回は768x768とします)より大きい場合のリサイズについてです。 リサイズ…

【ControlNet】【canny2image】【Anything-V4】エッジ検出の違いで生成画像はどう変わるか?

はじめに前回ControlNetのcanny2imageにおけるCanny法によるエッジ検出の設定について書きました。 touch-sp.hatenablog.com 実際に結果がどう変わるかをAnything-V4を使って検証しました。 テーマは「手」をきれいに出力することです。元画像 元画像はぱく…

【Diffusers】DiffusersからMultiDiffusionを使ってみる(パノラマ画像が作れます)

はじめにDiffusersからMultiDiffusion(Fusing Diffusion Paths for Controlled Image Generation)を使ってみました。横長や縦長の画像を作成可能です。 デフォルトサイズは2048x512です。通常ならVRAM不足になりそうですがこちらを使うとVRAM使用量は少なく…

【Diffusers】Stable Diffusion web UI拡張機能の「Openpose Editor」の代わりになるもの

DiffusersからStable Diffusionまたはその派生モデルを使っている人でStable Diffusion web UIを使っていない人向けの記事です。 「Openpose Editor」が使えなくて困っている人がいるかもしれません。 なにかと「ControlNet」が話題ですからね。 代わりにな…

ControlNet に Counterfeit-V2.5 や Healy's Anime Blend や Anything-V4 を組み合わせてみる

最終更新日:2023年3月13日元画像 元画像はぱくたそから使わせて頂きました。 こちらの画像です。Counterfeit-V2.5結果canny2image 1024x1024手をきれいに出力するために1024x1024で作成しています。以下を記入した「prompt.txt」というテキストファイルを用…

【Counterfeit-V2.5】【Diffusers】VAEを使用して画質をよくする(暗い画像が明るくなります)

左がそのままの画像、右が専用のVAEを適応した画像はじめにhuggingface.co Counterfeit-V2.5はDiffusersでそのまま使用できる形式で公開されています。 ただし専用のVAEを使用しないと画質が悪い(全体的に暗い)です。 専用のVAEを使用する方法を紹介します…

【ControlNet】【canny2image】エッジ検出の設定をいじってみる

はじめに以前「ControlNet」の「canny2image」と「pose2image」使い方を紹介しました。 touch-sp.hatenablog.com canny2image pose2image 今回は「canny2image」におけるエッジ検出の設定についていろいろ試してみました。 といっても「low_threshold」と「h…

pix2pix-zero(Zero-shot Image-to-Image Translation)は指定した画像に対するpromptを自動で作成します。それってImage Captioningに使えるかも。

はじめに前回pix2pix-zero(Zero-shot Image-to-Image Translation)に関する記事を書きました。 touch-sp.hatenablog.com 画像内のオブジェクトを変換する過程でいったん元画像のpromptを自動生成していることに気が付きました。 pix2pix-zero内部ではBLIP…

pix2pix-zero(Zero-shot Image-to-Image Translation)を試してみる(Instruct-Pix2Pixとの比較)

はじめにpix2pix-zero(Zero-shot Image-to-Image Translation)を使って写真に写る犬を猫に変えるというタスクに挑戦しました。 github.com 以前「Instruct-Pix2Pix」というのを使ったのでそちらとの比較になります。 touch-sp.hatenablog.com PC環境 Windo…

【Diffusers】Attend and Exciteを使ってみる

はじめにDiffusersからAttend and Excite(Attention-Based Semantic Guidance for Text-to-Image Diffusion Models)が使えるようになっていたのでさっそく使ってみました。 github.com 疑問点通常のStable Diffusionなどでは、複数のオブジェクトを生成す…

【ControlNet】【Windows】人物の姿勢を決める試み

ControlNetのcanny2imageとpose2imageを使って人物の姿勢を決める試みを行いました。

【Diffusers】Inpaintモデルのファインチューニング

これでなにができる? 環境構築 実行 はまりポイント その他 これでなにができる?左の画像を右のように修正できるようになります。 こちらをみて頂ければ効果が分かってもらえると思います。環境構築 Ubuntu 22.04 on WSL (Windows 11) CUDA 11.7.1 Python …

【cloneofsimo/lora】LoRA(Low-Rank Adaptation)を試してみる

はじめに以前、Diffusersを使ってLoRA(Low-Rank Adaptation)を試しました。 touch-sp.hatenablog.com 今回は本家のLoRAを使ってみます。 github.com 違いはtext encoderのファインチューンができる事とDiffusesモデルへの出力が簡単なことです。環境構築「bi…

【xFormers】DiffusersでDreamBoothを試す(VRAM 12GBでDreamBoothの実行は可能か?)

公開日:2023年2月3日 最終更新日:2023年2月13日 はじめに 環境構築 設定 text encoderのファインチューニングなし text encoderのファインチューニングあり 現時点での結論 結果 text encoderのファインチューニングなし 400steps 800steps text encoderの…

【Tune-A-Video】数枚の写真からショート動画が作れる時代になりました

公開日:2023年2月2日 更新日:2023年2月7日(最新の結果を追加しました)はじめに「Tune-A-Video」というのを使ってショート動画を作りました。 github.com やったこと用意した写真 このようなロボットの写真を数枚用意しました。結果上記のロボットがサー…

【Diffusers】DreamBoothとLoRA(Low-Rank Adaptation)って共存できるの?

はじめに前回DreamBoothとLoRA(Low-Rank Adaptation)を別々に実行しました。 touch-sp.hatenablog.com 現在、Diffusersではtext encoderのファインチューニングができるLoRAは実装されていません。 github.com そこでDreamBoothでtext encoderのファインチュ…