2023-06-01から1ヶ月間の記事一覧

【DragGAN】【StyleGAN-Human】DragGANで自前の人物画像を使ってみました(PyTorch=1.12.1+cu116)

GAN

はじめにDragGANで自前の画像を使用する場合にはその画像に対して前処理が必要です。今回の記事はそれに挑戦した記録です。環境PyTorch 2.0.1を使いたい人はこちらの環境構築を見てください。 DragGANとStyleGAN-Humanの両方を使いますが以下の環境で両方と…

【zeroscope_v2_576w】【Diffusers】新モデルを試してみる

はじめに以前Diffusersを使って9行でビデオを作成しました。 touch-sp.hatenablog.com 今回は新しいモデル「zeroscope_v2_576w」を試してみました。Pythonスクリプト import torch from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler fr…

【StyleGAN-Human】Invert real image with PTI に挑戦

GAN

github.com はじめにPTIとは「Pivotal Tuning for Latent-based editing of Real Images」の略です。 こちらを参照して下さい。 github.com 方法画像の前処理 python alignment.py --image-folder img/test/ --output-folder aligned_image/PTIの実行 python…

【StyleGAN-Human】Diffusion Model(拡散モデル)真っ盛りの今、あえてGAN(敵対的生成ネットワーク)を使ってみる

GAN

はじめに「StyleGAN-Human」というのを使ってみました。 github.com なぜ今さらGAN(敵対的生成ネットワーク)なのか? 「StyleGAN-Human」を使いこなせれば「DragGAN」に応用できるからです。 「DragGAN」については以下の記事を見て下さい。 touch-sp.hate…

【DragGAN】DragGANのコードが公開されたのでさっそく試してみました。

GAN

最終更新日:2023年6月30日 github.com はじめにconda環境が推奨されているようですがcondaは使わずにvenvで環境構築しました。なにができる例えばライオンを左向かせたり右向かせたり。 環境三つの環境で動作確認しました。CUDA 11.3 Ubuntu 20.04 on WSL2 …

【Inpaint-Anything】【Remove Anything】画像内に写っている要らないものを消す

はじめに以前から画像内の不要物を消すことはいろいろ挑戦してきました。 touch-sp.hatenablog.com 今回は「Inpaint-Anything」というのに含まれる「Remove Anything」を試してみました。 github.com 環境構築 Ubuntu 20.04 on WSL2 CUDA 11.6 Python 3.81行…

【Image2Text】Image Captioningなら現状 BLIP2 が簡単、最強なのかな?

Pythonスクリプトたったこれだけです。学習済みモデルは自動的にダウンロードされるため事前準備不要です。 from transformers import Blip2Processor, Blip2ForConditionalGeneration from diffusers.utils import load_image import torch processor = Bli…

【ゼロショット画像分類】AutoGluonとTransformersでそれぞれゼロショット画像分類(Zero-Shot Image Classification)を実行。どちらが簡潔に書けるか?

画像 AutoGluonPythonスクリプト from autogluon.multimodal import download, MultiModalPredictor segway_image = download( "https://live.staticflickr.com/7236/7114602897_9cf00b2820_b.jpg") predictor = MultiModalPredictor(problem_type="zero_sho…

【UniControl】ControlNetの進化版?UniControlというのをとりあえず使ってみました。

github.com はじめに「UniControl」というものを使ってみました。通常のControlNetとの違いがいまいちわかりません。下に紹介文を貼っておきます。Introduction原文そのままWe introduce UniControl, a new generative foundation model that consolidates a…

【Mixture of Diffusers】Outpaintingのようなものに挑戦。(建物の写真に空を追加)

左が元の建物の画像です。右が空を追加した画像です。 github.com 環境構築 Windows 11 Python 3.10 CUDA 11.7pip install torch==2.0.1+cu117 torchvision==0.15.2+cu117 --index-url https://download.pytorch.org/whl/cu117 pip install git+https://gith…

【ControlVideo】新しい動画生成モデルが公開されいたので試してみました。

左が参照動画。 真ん中が参照画像をもとに作成されたポーズ動画。 右が今回作成された動画。 サングラスが残念なことになってしまいました。注意github.com github.com ControlVideoというGitHubリポジトリは二つ存在します。 全く別物のようです。 この記事…

【Text2Video-Zero】【Diffusers】アップデートでVRAM使用量が減少しました。

DiffusersのアップデートでText2Video-ZeroのVRAM使用量が改善(減少)しています。 それに伴い以前の記事を更新しました。 良かったら読んで下さい。 touch-sp.hatenablog.com touch-sp.hatenablog.com

【ControlVideo】新しい動画生成モデルが公開されいたので試してみましたがVRAM不足で実行できませんでした。

注意github.com github.com ControlVideoというGitHubリポジトリは二つ存在します。 全く別物のようです。 この記事は上のリポジトリについての記事になります。 下のリポジトリについての記事はこちらになります。エラー内容 ValueError: fp16 mixed precis…

【Diffusers】最新学習モデル「BracingEvoMix」をDiffusersから使ってみる

最終更新日:2023年7月12日 Pythonスクリプト from diffusers import StableDiffusionPipeline, EulerAncestralDiscreteScheduler import torch from compel import Compel, DiffusersTextualInversionManager import argparse parser = argparse.ArgumentPa…

「Prompt-Free-Diffusion」を使って動画を作成してみる

人物にはそれなりに一貫性が認められますが背景がダメでした。 見続けると酔います(笑)はじめにgithub.com 「Prompt-Free-Diffusion」というのが公開されています。 動画作成に使えるのではないかということでさっそく試してみました。環境 Windows 11 Pyt…

【Compel】【Diffusers】プロンプト内のワードの重みづけ

最終更新日:2023年6月5日 はじめにプロンプト内のワードの重みづけをしたい時、DiffusersではCompel Libraryを使うようです。インストールは簡単です。 pip install compel使い方実際のPythonスクリプト from diffusers import StableDiffusionPipeline, Eu…