WSL2上のUbuntuに zoxide と fzf をインストールする

sudo apt install zoxide sudo apt install fzf その後「.bashrc」に以下の1行を書き込む。 eval "$(zoxide init bash)" 書き込み方 sudo nano ~/.bashrc ランキング参加中プログラミング

【Diffusers】Text-to-video synthesis(テキストからビデオ合成)、たったの9行でした

はじめにテキストからショート動画が作れるとのことでさっそく試してみました。 github.com 環境CUDA 11.8とPyTorch 2.0を使うためにWSL2を使用しました。 Ubuntu 22.04 on WSL2 CUDA 11.8.0 WSL2ではOS環境をいくらでも複製できるので新しい環境を試すには…

【Diffusers】Multi-ControlNetでスマホを持つ手をきれいに描く

はじめに以前からControlNetを使って手をきれいに描画することに挑戦してきました。 touch-sp.hatenablog.com touch-sp.hatenablog.com 何かを持つ手はさらに難易度が高いとのことで今回はそれに挑戦しました。 「スマホを持つ手」をきれいに描画することが…

【Diffusers】Stable Diffusion 2.1用の ControlNet が公開されていたのでさっそく Waifu Diffusion 1.5 Beta 2 - Frosty Aesthetic Ver と組み合わせて使ってみました

はじめにStable Diffusion 2.1用のControlNetが公開されていました。 →こちらです。 Stable Diffusion 2.1をベースとしたモデルを探していたらWaifu Diffusion 1.5 Betaに行きつきました。 中でもBeta 2 - Frosty Aesthetic Verはリアルに近い画像が出力され…

【Diffusers】Multi-ControlNetで人物をきれいに描く

注意Multi-ControlNetはDiffusesで正式に公開されているわけではありません。注意してください。 pip install torch==1.13.1+cu116 torchvision==0.14.1+cu116 --extra-index-url https://download.pytorch.org/whl/cu116 pip install git+https://github.co…

【Diffusers】ControlNet + Inpainting が実装されていたので使ってみました

ControlNetとInpaintを組み合わせるとどのようなことが可能になるのか?実際に使ってみて一例を紹介しています。

【Diffusers】【ControlNet】【scribble2image】線の太さは画像に影響するか?

ControlNetのscribble2imageを使用するときに線の太さはどれくらいが適切か?いろいろなパターンを試してみました。

【Diffusers】【ControlNet】【canny2image】画像サイズについて

はじめにControlNetのcanny2imageについて深堀りしていきます。前回Canny法によるエッジ検出の設定が重要なことが分かりました。 touch-sp.hatenablog.com 今回は元画像が生成画像(今回は768x768とします)より大きい場合のリサイズについてです。 リサイズ…

【ControlNet】【canny2image】【Anything-V4】エッジ検出の違いで生成画像はどう変わるか?

はじめに前回ControlNetのcanny2imageにおけるCanny法によるエッジ検出の設定について書きました。 touch-sp.hatenablog.com 実際に結果がどう変わるかをAnything-V4を使って検証しました。 テーマは「手」をきれいに出力することです。元画像 元画像はぱく…

【Diffusers】DiffusersからMultiDiffusionを使ってみる(パノラマ画像が作れます)

はじめにDiffusersからMultiDiffusion(Fusing Diffusion Paths for Controlled Image Generation)を使ってみました。横長や縦長の画像を作成可能です。 デフォルトサイズは2048x512です。通常ならVRAM不足になりそうですがこちらを使うとVRAM使用量は少なく…

【Diffusers】Stable Diffusion web UI拡張機能の「Openpose Editor」の代わりになるもの

DiffusersからStable Diffusionまたはその派生モデルを使っている人でStable Diffusion web UIを使っていない人向けの記事です。 「Openpose Editor」が使えなくて困っている人がいるかもしれません。 なにかと「ControlNet」が話題ですからね。 代わりにな…

ControlNet に Counterfeit-V2.5 や Healy's Anime Blend や Anything-V4 を組み合わせてみる

最終更新日:2023年3月13日元画像 元画像はぱくたそから使わせて頂きました。 こちらの画像です。Counterfeit-V2.5結果canny2image 1024x1024手をきれいに出力するために1024x1024で作成しています。以下を記入した「prompt.txt」というテキストファイルを用…

【Counterfeit-V2.5】【Diffusers】VAEを使用して画質をよくする(暗い画像が明るくなります)

左がそのままの画像、右が専用のVAEを適応した画像はじめにhuggingface.co Counterfeit-V2.5はDiffusersでそのまま使用できる形式で公開されています。 ただし専用のVAEを使用しないと画質が悪い(全体的に暗い)です。 専用のVAEを使用する方法を紹介します…

【ControlNet】【canny2image】エッジ検出の設定をいじってみる

はじめに以前「ControlNet」の「canny2image」と「pose2image」使い方を紹介しました。 touch-sp.hatenablog.com canny2image pose2image 今回は「canny2image」におけるエッジ検出の設定についていろいろ試してみました。 といっても「low_threshold」と「h…

pix2pix-zero(Zero-shot Image-to-Image Translation)は指定した画像に対するpromptを自動で作成します。それってImage Captioningに使えるかも。

はじめに前回pix2pix-zero(Zero-shot Image-to-Image Translation)に関する記事を書きました。 touch-sp.hatenablog.com 画像内のオブジェクトを変換する過程でいったん元画像のpromptを自動生成していることに気が付きました。 pix2pix-zero内部ではBLIP…

pix2pix-zero(Zero-shot Image-to-Image Translation)を試してみる(Instruct-Pix2Pixとの比較)

はじめにpix2pix-zero(Zero-shot Image-to-Image Translation)を使って写真に写る犬を猫に変えるというタスクに挑戦しました。 github.com 以前「Instruct-Pix2Pix」というのを使ったのでそちらとの比較になります。 touch-sp.hatenablog.com PC環境 Windo…

【Diffusers】Attend and Exciteを使ってみる

はじめにDiffusersからAttend and Excite(Attention-Based Semantic Guidance for Text-to-Image Diffusion Models)が使えるようになっていたのでさっそく使ってみました。 github.com 疑問点通常のStable Diffusionなどでは、複数のオブジェクトを生成す…

【ControlNet】【Windows】人物の姿勢を決める試み

ControlNetのcanny2imageとpose2imageを使って人物の姿勢を決める試みを行いました。

【Diffusers】Inpaintモデルのファインチューニング

これでなにができる? 環境構築 実行 はまりポイント その他 これでなにができる?左の画像を右のように修正できるようになります。 こちらをみて頂ければ効果が分かってもらえると思います。環境構築 Ubuntu 22.04 on WSL (Windows 11) CUDA 11.7.1 Python …

【cloneofsimo/lora】LoRA(Low-Rank Adaptation)を試してみる

はじめに以前、Diffusersを使ってLoRA(Low-Rank Adaptation)を試しました。 touch-sp.hatenablog.com 今回は本家のLoRAを使ってみます。 github.com 違いはtext encoderのファインチューンができる事とDiffusesモデルへの出力が簡単なことです。環境構築「bi…

【xFormers】DiffusersでDreamBoothを試す(VRAM 12GBでDreamBoothの実行は可能か?)

公開日:2023年2月3日 最終更新日:2023年2月13日 はじめに 環境構築 設定 text encoderのファインチューニングなし text encoderのファインチューニングあり 現時点での結論 結果 text encoderのファインチューニングなし 400steps 800steps text encoderの…

【Tune-A-Video】数枚の写真からショート動画が作れる時代になりました

公開日:2023年2月2日 更新日:2023年2月7日(最新の結果を追加しました)はじめに「Tune-A-Video」というのを使ってショート動画を作りました。 github.com やったこと用意した写真 このようなロボットの写真を数枚用意しました。結果上記のロボットがサー…

【Diffusers】DreamBoothとLoRA(Low-Rank Adaptation)って共存できるの?

はじめに前回DreamBoothとLoRA(Low-Rank Adaptation)を別々に実行しました。 touch-sp.hatenablog.com 現在、Diffusersではtext encoderのファインチューニングができるLoRAは実装されていません。 github.com そこでDreamBoothでtext encoderのファインチュ…

【Diffusers】DreamBoothとLoRA(Low-Rank Adaptation)の比較(Stable Diffusion v1.4のファインチューニング)

Diffusersを使ってDreamBoothとLoRA(Low-Rank Adaptation)の二つの方法でStable Diffusion v1.4をファインチューニングしました。比較のため二つの結果を残しておきます。

【DeepSpeed】DiffusersでDreamBoothを試す(DeepSpeedでどこまでVRAM消費を減らせるか)

はじめに 環境構築 実験と結果 text encoderのファインチューニングなし no gradient_checkpointing, no set_grads_to_none with gradient_checkpointing, no set_grads_to_none no gradient_checkpointing, with set_grads_to_none with gradient_checkpoin…

【Diffusers】Instruct-Pix2Pixを使ってみる(Paint-by-ExampleやInpaintingとの比較)

最終更新日:2023年2月17日 はじめに 結果 比較 Pythonスクリプト Instruct-Pix2Pix Paint-by-Example Stable-Diffusion-2-Inpainting 関連記事 はじめに最近公開された「Instruct-Pix2Pix」をDiffusersから使ってみました。 huggingface.co 結果ベンチに座…

DiffusersでDreamBoothを試してみる(Stable Diffusion v1.4のファインチューニング)

はじめに 環境構築 PC環境 Python環境の構築 Pythonスクリプトのダウンロード 設定 prior-preservation lossなし no use_8bit_adam no gradient_checkpointing, no set_grads_to_none with gradient_checkpointing, no set_grads_to_none no gradient_checkp…

DiffusersでLoRA(Low-Rank Adaptation)を試してみる(Stable Diffusion v1.4のファインチューニング)

DiffusersでLoRA(Low-Rank Adaptation of Large Language Models)を動かしてみました。使用したのはRTX 3080 VRAM 12GBです。

DiffusersでTextual Inversionを試してみる(Stable Diffusion v1.4のファインチューニング)

はじめに 環境構築 PC環境 Python環境の構築 事前準備 Stable Diffusion v1.4のダウンロード Pythonスクリプトのダウンロード 使用する画像のダウンロード 実行 学習 推論 公式チュートリアル 参考にさせて頂いたサイト その他 追記 はじめにTextual Inversi…

【Counterfeit-V2.0】いらすとやの画像を加工してみる part 2-4

はじめにいろいろなモデルで画像加工を行っています。注目点はペンを持つ右手の指の描写です。今回はCounterfeit-V2.0というのを使わせて頂きました。strengthを0.9と高く設定しても元画像の印象を残す傾向にあるように感じました。今回の結果(Counterfeit-…