画像生成
はじめに以前IPEX-LLMを使ってIntel Arc A770でText2Imageを行いました。 touch-sp.hatenablog.com 今回はIntel Extension for PyTorchを使ってみます。 github.com IPEX-LLMと似たようなもので別物のようです。詳細な違いはよくわかりません。 今回使用する…
はじめにStable Diffusion 3.5 Mediumが公開されたのでVRAM使用量を調べるため色々な方法で実行してみました。 はじめに 使用したPC 実行 Method-1: to("cuda") Method-2: enable_model_cpu_offload() Method-3: enable_sequential_cpu_offload() Method-4: …
huggingface.co Pythonスクリプト import torch from diffusers import FluxPipeline import gc def flush(): gc.collect() torch.cuda.empty_cache() model_id = "black-forest-labs/FLUX.1-dev" prompt="a photo of f5h8_woman holding a sign that says '…
PC環境こちらのPCを使用しています。 Windows 11 RTX 3080 Laptop (VRAM 16GB) CUDA 11.8 Python 3.12Python環境構築 pip install torch==2.4.1+cu118 --index-url https://download.pytorch.org/whl/cu118 pip install diffusers[torch] pip install transf…
はじめにFLUX.1-devに特定の人物を学習させることが目的です。PC環境 Windows 11 CUDA 11.8 Python 3.12元画像用意したのは1枚の画像です。 SDLX派生モデルで作成したものです。 この人物を学習させます。 最終結果 a photo of f5h8_woman holding a sign th…
はじめに前回量子化について調べてみました。 touch-sp.hatenablog.com 今回、生成過程を分割することで「VRAM 12GB以内」かつ「高速」に動かすことができました。結果RTX 4090 (VRAM 24GB)で測定しています。 torch.cuda.max_memory_allocated: 6.58 GB tor…
RTX 4090 (VRAM 24GB)で検証しています。transformerのみを量子化 GPU 0 - Used memory: 10.61/23.99 GB time: 99.07 sectext_encoder_2のみを量子化 GPU 0 - Used memory: 9.32/23.99 GB time: 184.73 sec両方を量子化 GPU 0 - Used memory: 15.14/23.99 GB…
元画像ぱくたそからこちらの画像を使わせて頂きました。 www.pakutaso.com 使用したモデルCIVITAIから「xeBlenderFlux_01.safetensors」をダウンロードして使わせて頂きました。こちらと同じ方法でいったんDiffusersフォーマットに変換しました。 touch-sp.h…
はじめに量子化を駆使して画像生成時間の短縮にトライしました。トランスフォーマーとテキストエンコーダー2を4bitに変換しました。もちろん画質は悪くなっていると思われます。結果RTX 4090を使っています。VRAMは15GB程度使用していました。16GBのVRAMがあ…
結果プロンプト A photorealistic portrait of a young Japanese woman with long black hair and natural makeup, wearing a casual white blouse, sitting in a modern Tokyo cafe with soft window light 時間 time: 122.74secRTX 4090で計測しています。…
はじめにFLUX.1-dev で ControlNet が使えるようになったのでさっそく使ってみました。VRAM使用量を16GB以下に抑えるために「optimum-quanto」を使いました。最終的には1024x1024の画像生成がVRAM 16GB以下で可能になりました。Python環境構築 pip install t…
はじめに前回「bitsandbytes」を使って量子化を行いました。 touch-sp.hatenablog.com 公式ページでは「optimum-quanto」を使うことが推奨されていたのでさっそく試してみました。 pip install optimum-quanto 「optimum-quanto」を使って量子化したモデルを…
PC環境 Windows 11 CUDA 11.8 Python 3.12Python環境構築 pip install torch==2.4.0+cu118 --index-url https://download.pytorch.org/whl/cu118 pip install diffusers[torch] pip install transformers protobuf sentencepiece bitsandbytesPythonスクリプ…
Pythonスクリプト from diffusers import AutoPipelineForText2Image, PixArtSigmaPAGPipeline import torch pipeline = AutoPipelineForText2Image.from_pretrained( "PixArt-Sigma-XL-2-1024-MS", torch_dtype=torch.float16 ).to("cuda") prompt = "an in…
はじめにPerturbed-Attention Guidance(PAG)についてはこちらを見て下さい。 touch-sp.hatenablog.com 今回はぼやけた写真を修復する「SDXL_Controlnet_Tile_Realistic」と組み合わせてみます。用意した写真 結果 左上:PAGなし 右上:pag_applied_layers=["…
Python環境構築 pip install --pre --upgrade ipex-llm[xpu] --extra-index-url https://pytorch-extension.intel.com/release-whl/stable/xpu/cn/ pip install diffusers[torch] pip install transformers peftPythonスクリプト「torch.float16」でなく「to…
はじめにPerturbed-Attention Guidance(PAG)についてはこちらを見て下さい。 touch-sp.hatenablog.com 今回こちらのmultiple IP-AdapterとPAGを組み合わせてみました。 touch-sp.hatenablog.com 結果「Plus」と「Plus Face」の組み合わせ 「Plus」と「FaceID…
はじめに「Perturbed-Attention Guidance」というのが新しく紹介されていたので久しぶりに画像生成をやってみました。「Perturbed-Attention Guidance」とは?公式の紹介をDeepLで翻訳したものをのせておきます。 Perturbed-Attention Guidance (PAG)は、新…
はじめにStable Diffusion 3がDiffusersから使えるようになったので、久しぶりに画像生成してみました。PC環境使用したのはこちらのPCです。 Windows 11 CUDA 11.8 (RTX 3080 Laptop VRAM 16GB) Python 3.12Python環境構築 pip install torch==2.3.1+cu118 -…
はじめにこちらのスクリプトをDiffusers用に書き換えました。 touch-sp.hatenablog.com スタイル画像こちらの画像を使わせてもらいました。 結果シードを変えて4枚の画像を作成しました。スタイルを維持しながらウサギを猫に変えています。 PC環境 Windows 1…
結果左側の写真から右側の写真を作成しました。 PC環境 Windows 11 CUDA 11.8 Python 3.11Python環境構築 pip install torch==2.2.2+cu118 --index-url https://download.pytorch.org/whl/cu118 pip install git+https://github.com/huggingface/diffusers p…
はじめにこちらになります。 github.com Gradio画面Gradioから使ってみました。 Pythonスクリプト import torch from transformers import GenerationConfig, GPT2LMHeadModel, GPT2Tokenizer, LogitsProcessor, LogitsProcessorList from diffusers import …
はじめにここで紹介する方法は一応無料でできます。ただし、「InsigthFace」というモデルを使用しており、そちらのトレーニングデータは非営利の研究目的でのみ利用可能とのことですので注意して下さい。 以前同様のことをLoRA学習で行いました。 touch-sp.h…
はじめに以前もMagic Clothingの記事を書きました。 touch-sp.hatenablog.com 今回は新しいウエイトが公開されたので使用してみました。目的命題:『この顔の人物にこの服を着させて下さい』 用意したのはこの2枚の画像のみです。結果 以前より画質が良くな…
結果 芸術性高いように感じます(適当)。Pythonスクリプトたったこれだけ。 from diffusers import DiffusionPipeline import torch pipe = DiffusionPipeline.from_pretrained( "playgroundai/playground-v2.5-1024px-aesthetic", torch_dtype=torch.float…
huggingface.co Diffusersから簡単に使えます。 サンプルスクリプトをみるとSDXLのUnet部分を変更しているだけに見えます。Pythonスクリプト import torch from diffusers import StableDiffusionXLPipeline, UNet2DConditionModel, EulerDiscreteScheduler …
はじめに以前ControlNet と Inpaintを組み合わせて使用したことがあります。 touch-sp.hatenablog.com 今回はさらにIP-AdapterのFaceモデルを組み合わせて写真の顔を入れ替えてみます。 SD1.5を使って同じようなことをこちらでやっています。 touch-sp.haten…
はじめに以前にmultiple IP-Adaptersを使ったことがあります。 touch-sp.hatenablog.com それと似たようなものですが、画像のどの部分にIP-Adapterを使用するかをmask画像で大まかに指定することが可能になりました。 github.com 結果用意した二人の顔写真 …
はじめにStability AIは以下のような画像生成AIを公開してきました。 「Stable Diffusion 1.x」→「Stable Diffusion 2.x」→「SDXL」→「SDXL Turbo」今回新たに「Stable Cascade」というモデルを公開しました。「SDXL」より高速かつ高品質に画像生成ができる…
github.com はじめに「MGIE」(Guiding Instruction-based Image Editing via Multimodal Large Language Models)はアップルとカリフォルニア大学サンタバーバラ校(UCSB)が共同で開発したマルチモーダル大規模言語モデルを基にしたAI画像編集ツールです。Gi…