画像生成

【Intel Arc A770】【Diffusers】Intel Extension for PyTorchを使ってStableDiffusion による Text2Image を行う

はじめに以前IPEX-LLMを使ってIntel Arc A770でText2Imageを行いました。 touch-sp.hatenablog.com 今回はIntel Extension for PyTorchを使ってみます。 github.com IPEX-LLMと似たようなもので別物のようです。詳細な違いはよくわかりません。 今回使用する…

【Diffusers】Stable Diffusion 3.5 Mediumを使ってみる

はじめにStable Diffusion 3.5 Mediumが公開されたのでVRAM使用量を調べるため色々な方法で実行してみました。 はじめに 使用したPC 実行 Method-1: to("cuda") Method-2: enable_model_cpu_offload() Method-3: enable_sequential_cpu_offload() Method-4: …

anzu_flux v2.2のLoRAが公開されていたので使ってみる

huggingface.co Pythonスクリプト import torch from diffusers import FluxPipeline import gc def flush(): gc.collect() torch.cuda.empty_cache() model_id = "black-forest-labs/FLUX.1-dev" prompt="a photo of f5h8_woman holding a sign that says '…

【Diffusers】Stable Diffusion 3.5 Largeを使ってみる(VRAM 12GB未満で動作)

PC環境こちらのPCを使用しています。 Windows 11 RTX 3080 Laptop (VRAM 16GB) CUDA 11.8 Python 3.12Python環境構築 pip install torch==2.4.1+cu118 --index-url https://download.pytorch.org/whl/cu118 pip install diffusers[torch] pip install transf…

RTX 4090 (VRAM 24GB) を使って FLUX.1-dev の LoRA学習を行う

はじめにFLUX.1-devに特定の人物を学習させることが目的です。PC環境 Windows 11 CUDA 11.8 Python 3.12元画像用意したのは1枚の画像です。 SDLX派生モデルで作成したものです。 この人物を学習させます。 最終結果 a photo of f5h8_woman holding a sign th…

【Diffusers】FLUX.1-devを「VRAM 12GB以内」でかつ「高速」に動かす方法

はじめに前回量子化について調べてみました。 touch-sp.hatenablog.com 今回、生成過程を分割することで「VRAM 12GB以内」かつ「高速」に動かすことができました。結果RTX 4090 (VRAM 24GB)で測定しています。 torch.cuda.max_memory_allocated: 6.58 GB tor…

FLUX.1-devの量子化を深堀りしてみる

RTX 4090 (VRAM 24GB)で検証しています。transformerのみを量子化 GPU 0 - Used memory: 10.61/23.99 GB time: 99.07 sectext_encoder_2のみを量子化 GPU 0 - Used memory: 9.32/23.99 GB time: 184.73 sec両方を量子化 GPU 0 - Used memory: 15.14/23.99 GB…

FLUX.1-dev派生モデルで Image2Image をやってみる

元画像ぱくたそからこちらの画像を使わせて頂きました。 www.pakutaso.com 使用したモデルCIVITAIから「xeBlenderFlux_01.safetensors」をダウンロードして使わせて頂きました。こちらと同じ方法でいったんDiffusersフォーマットに変換しました。 touch-sp.h…

【Diffusers】FLUX.1-dev の画像生成時間を短縮させる

はじめに量子化を駆使して画像生成時間の短縮にトライしました。トランスフォーマーとテキストエンコーダー2を4bitに変換しました。もちろん画質は悪くなっていると思われます。結果RTX 4090を使っています。VRAMは15GB程度使用していました。16GBのVRAMがあ…

anzu_flux を Diffusers から使用する

結果プロンプト A photorealistic portrait of a young Japanese woman with long black hair and natural makeup, wearing a casual white blouse, sitting in a modern Tokyo cafe with soft window light 時間 time: 122.74secRTX 4090で計測しています。…

【Diffusers】FLUX.1-dev と ControlNet をVRAM 16GB以下で使用する

はじめにFLUX.1-dev で ControlNet が使えるようになったのでさっそく使ってみました。VRAM使用量を16GB以下に抑えるために「optimum-quanto」を使いました。最終的には1024x1024の画像生成がVRAM 16GB以下で可能になりました。Python環境構築 pip install t…

【FLUX.1-dev】量子化を行う時にDiffusersでは「bitsandbytes」より「optimum-quanto」を使うことが推奨されていたのでさっそく使ってみました

はじめに前回「bitsandbytes」を使って量子化を行いました。 touch-sp.hatenablog.com 公式ページでは「optimum-quanto」を使うことが推奨されていたのでさっそく試してみました。 pip install optimum-quanto 「optimum-quanto」を使って量子化したモデルを…

【Diffusers】「bitsandbytes」がWindowsでも使えるようになっていたので、最近話題の画像生成AI「FLUX.1-dev」で試してみました

PC環境 Windows 11 CUDA 11.8 Python 3.12Python環境構築 pip install torch==2.4.0+cu118 --index-url https://download.pytorch.org/whl/cu118 pip install diffusers[torch] pip install transformers protobuf sentencepiece bitsandbytesPythonスクリプ…

【Diffusers】PixArtSigma で PAG (Perturbed-Attention Guidance) を使ってみる

Pythonスクリプト from diffusers import AutoPipelineForText2Image, PixArtSigmaPAGPipeline import torch pipeline = AutoPipelineForText2Image.from_pretrained( "PixArt-Sigma-XL-2-1024-MS", torch_dtype=torch.float16 ).to("cuda") prompt = "an in…

【Diffusers】Perturbed-Attention Guidance(PAG)とControlNetを組み合わせてみる

はじめにPerturbed-Attention Guidance(PAG)についてはこちらを見て下さい。 touch-sp.hatenablog.com 今回はぼやけた写真を修復する「SDXL_Controlnet_Tile_Realistic」と組み合わせてみます。用意した写真 結果 左上:PAGなし 右上:pag_applied_layers=["…

【Intel Arc A770】【Diffusers】IPEX-LLM を使えば StableDiffusion による Text2Image が簡単にできました

Python環境構築 pip install --pre --upgrade ipex-llm[xpu] --extra-index-url https://pytorch-extension.intel.com/release-whl/stable/xpu/cn/ pip install diffusers[torch] pip install transformers peftPythonスクリプト「torch.float16」でなく「to…

【Diffusers】Perturbed-Attention Guidance(PAG)とIP-Adapterを組み合わせてみる

はじめにPerturbed-Attention Guidance(PAG)についてはこちらを見て下さい。 touch-sp.hatenablog.com 今回こちらのmultiple IP-AdapterとPAGを組み合わせてみました。 touch-sp.hatenablog.com 結果「Plus」と「Plus Face」の組み合わせ 「Plus」と「FaceID…

【Diffusers】Perturbed-Attention Guidance(PAG)を使ってみる

はじめに「Perturbed-Attention Guidance」というのが新しく紹介されていたので久しぶりに画像生成をやってみました。「Perturbed-Attention Guidance」とは?公式の紹介をDeepLで翻訳したものをのせておきます。 Perturbed-Attention Guidance (PAG)は、新…

Stable Diffusion 3 Medium が Diffusers から使えるようになったのでさっそく使ってみました。

はじめにStable Diffusion 3がDiffusersから使えるようになったので、久しぶりに画像生成してみました。PC環境使用したのはこちらのPCです。 Windows 11 CUDA 11.8 (RTX 3080 Laptop VRAM 16GB) Python 3.12Python環境構築 pip install torch==2.3.1+cu118 -…

「InstantStyle」がDiffusersから使えるようになりました。

はじめにこちらのスクリプトをDiffusers用に書き換えました。 touch-sp.hatenablog.com スタイル画像こちらの画像を使わせてもらいました。 結果シードを変えて4枚の画像を作成しました。スタイルを維持しながらウサギを猫に変えています。 PC環境 Windows 1…

「IP-Adapter-FaceID-Plus」と「IP-Adapter-FaceID-PlusV2」がDiffusersから使えるようになりました。

結果左側の写真から右側の写真を作成しました。 PC環境 Windows 11 CUDA 11.8 Python 3.11Python環境構築 pip install torch==2.2.2+cu118 --index-url https://download.pytorch.org/whl/cu118 pip install git+https://github.com/huggingface/diffusers p…

【Diffusers】プロンプト拡張機能が紹介されていたので使ってみました。

はじめにこちらになります。 github.com Gradio画面Gradioから使ってみました。 Pythonスクリプト import torch from transformers import GenerationConfig, GPT2LMHeadModel, GPT2Tokenizer, LogitsProcessor, LogitsProcessorList from diffusers import …

顔を統一してAIインフルエンサーを作るっていうのが流行っているみたいです。それってIP-Adapter使えばできるよね。

はじめにここで紹介する方法は一応無料でできます。ただし、「InsigthFace」というモデルを使用しており、そちらのトレーニングデータは非営利の研究目的でのみ利用可能とのことですので注意して下さい。 以前同様のことをLoRA学習で行いました。 touch-sp.h…

【Magic Clothing】768のサイズで学習されたウエイトが公開されたのでそれを使って顔写真と服の画像からバーチャル試着

はじめに以前もMagic Clothingの記事を書きました。 touch-sp.hatenablog.com 今回は新しいウエイトが公開されたので使用してみました。目的命題:『この顔の人物にこの服を着させて下さい』 用意したのはこの2枚の画像のみです。結果 以前より画質が良くな…

Diffusers から芸術性の高い画像が作成できると噂の Playground v2.5 を使ってみる

結果 芸術性高いように感じます(適当)。Pythonスクリプトたったこれだけ。 from diffusers import DiffusionPipeline import torch pipe = DiffusionPipeline.from_pretrained( "playgroundai/playground-v2.5-1024px-aesthetic", torch_dtype=torch.float…

ByteDance が公開した SDXL-Lightning を使ってみる

huggingface.co Diffusersから簡単に使えます。 サンプルスクリプトをみるとSDXLのUnet部分を変更しているだけに見えます。Pythonスクリプト import torch from diffusers import StableDiffusionXLPipeline, UNet2DConditionModel, EulerDiscreteScheduler …

【悪用厳禁】IP-Adapter と ControlNet と Inpaint を組み合わせて顔を入れ替える

はじめに以前ControlNet と Inpaintを組み合わせて使用したことがあります。 touch-sp.hatenablog.com 今回はさらにIP-AdapterのFaceモデルを組み合わせて写真の顔を入れ替えてみます。 SD1.5を使って同じようなことをこちらでやっています。 touch-sp.haten…

【Diffusers】IP-Adapter attention maskingで遊んでみた

はじめに以前にmultiple IP-Adaptersを使ったことがあります。 touch-sp.hatenablog.com それと似たようなものですが、画像のどの部分にIP-Adapterを使用するかをmask画像で大まかに指定することが可能になりました。 github.com 結果用意した二人の顔写真 …

Stability AI が新たに公開した「Stable Cascade」を簡単にローカル環境で試す方法

はじめにStability AIは以下のような画像生成AIを公開してきました。 「Stable Diffusion 1.x」→「Stable Diffusion 2.x」→「SDXL」→「SDXL Turbo」今回新たに「Stable Cascade」というモデルを公開しました。「SDXL」より高速かつ高品質に画像生成ができる…

アップルが米大学と共同で発表したAI画像編集ツール「MGIE」をローカル環境で実行してみた

github.com はじめに「MGIE」(Guiding Instruction-based Image Editing via Multimodal Large Language Models)はアップルとカリフォルニア大学サンタバーバラ校(UCSB)が共同で開発したマルチモーダル大規模言語モデルを基にしたAI画像編集ツールです。Gi…