【Diffusers】AnimateLCM + FreeInit で動画を作成してみる

動画生成

結果動画はGoogle Bloggerに載せています。 support-touchsp.blogspot.com 最大32フレームまで作れるようです。Pythonスクリプト import torch from diffusers import MotionAdapter, AnimateDiffPipeline, LCMScheduler from diffusers.utils import expor…

#AnimateDiff #AnimateLCM

2024-02-19

【Diffusers】IP-Adapter attention maskingで遊んでみた

画像生成

はじめに以前にmultiple IP-Adaptersを使ったことがあります。 touch-sp.hatenablog.com それと似たようなものですが、画像のどの部分にIP-Adapterを使用するかをmask画像で大まかに指定することが可能になりました。 github.com 結果用意した二人の顔写真 …

#IP-Adapter

2024-02-18

Stability AI が新たに公開した「Stable Cascade」を簡単にローカル環境で試す方法

画像生成

はじめにStability AIは以下のような画像生成AIを公開してきました。「Stable Diffusion 1.x」→「Stable Diffusion 2.x」→「SDXL」→「SDXL Turbo」今回新たに「Stable Cascade」というモデルを公開しました。「SDXL」より高速かつ高品質に画像生成ができる…

#Stable Cascade

2024-02-10

アップルが米大学と共同で発表したAI画像編集ツール「MGIE」をローカル環境で実行してみた

画像生成

github.com はじめに「MGIE」(Guiding Instruction-based Image Editing via Multimodal Large Language Models)はアップルとカリフォルニア大学サンタバーバラ校（UCSB）が共同で開発したマルチモーダル大規模言語モデルを基にしたAI画像編集ツールです。Gi…

#MGIE #ml-mgie

2024-02-04

Stability AI が公開している「Japanese Stable LM Instruct Gamma 7B」を使ってテキストから情報を抽出してもらう

自然言語処理

huggingface.co はじめに最近いろいろと言語モデルをさわっています。いずれは自前データで学習なんかできたら良いなと思いますが、家庭用PCでそんなことできるのでしょうか？時間あるときに勉強してみようと思っています。ここから本題です。前回はモデルが…

2024-02-02

【Image2Video】Diffusers に新たに実装された I2VGenXL で動画を作成してみる

動画生成 Image2Video

github.com はじめに「I2VGenXL」は以前からあるモデルです。Diffusersが v0.26.0 にアップデートされて「I2VGenXL」が実装されました。入力画像は1280x720（16:9）の画像なので比較的大きい動画が作れます。（しかし、なぜか作成された動画は1280x704にな…

#I2VGenXL

2024-02-02

東工大と産総研の研究チームが公開している大規模言語モデル「Swallow」にことわざの意味を聞いてみた

自然言語処理

huggingface.co はじめにパラメータ数が70億パラメータ（7B）、130億パラメータ（13B）、700億パラメータ（70B）の3モデルがあるようです。さらにそれぞれにbaseモデルとinstructモデルが存在します。instructモデルはチャットのように質問に対して答えを返…

#Swallow

2024-02-02

Stability AI が公開している「Japanese InstructBLIP Alpha」を使って日本語で写真の説明をしてもらう

Image Captioning 自然言語処理

huggingface.co はじめに以前BLIP, BLIP2を使った経験があります。 touch-sp.hatenablog.com touch-sp.hatenablog.com 「Japanese InstructBLIP Alpha」は名前から分かる通り日本語が使えます。質問にも答えてくれました。用意した画像以前と同様、こちらの…

#BLIP

2024-02-02

軽量にもかかわらず強力と噂の「imp-v1-3b」で写真の説明をしてらう（残念ながら英語です）

Image Captioning 自然言語処理

huggingface.co 用意した画像ぱくたそからこちらの画像を使わせて頂きました。 www.pakutaso.com 結果「Describe the person in the image」（画像の人物を説明して下さい）と投げかけた時の答えです。 The person in the image is a young woman wearing a …

2024-02-02

リクルート社が発表した「japanese-clip-vit-b-32-roberta-base」を使って日本語で画像検索をする

画像分類自然言語処理

前回に引き続きリクルート社が発表した「japanese-clip-vit-b-32-roberta-base」を使っていきます。 touch-sp.hatenablog.com 今回は日本語での画像検索に挑戦しました。 1年以上前にOpenAIのCLIPを使って同じことをした経験があります。 touch-sp.hatenablo…

#CLIP

2024-02-01

リクルート社が発表した「japanese-clip-vit-b-32-roberta-base」を使って日本語でゼロショット画像分類を行う

画像分類自然言語処理

1年以上前にOpenAIのCLIPを使ってゼロショット画像分類に挑戦した経験があります。 touch-sp.hatenablog.com 今回リクルート社が発表した「japanese-clip-vit-b-32-roberta-base」を使って日本語でゼロショット画像分類に挑戦しました。 huggingface.co 用意…

#CLIP

2024-01-31

【Image2Video】【Diffusers】PIA（Personalized Image Animator）+ FreeInit で動画を作成

動画生成 Image2Video

はじめにDiffusersからPIA（Personalized Image Animator）とFreeInitを使ってImage2Videoを行いました。一枚の画像から動画を作成しています。用意した画像結果 Pythonスクリプトさまざまな組み合わせで実行しました。このスクリプトで一気に18通りの動画…

#PIA #FreeInit

2024-01-30

【Diffusers】multiple IP-Adapters で遊んでみた

画像生成

はじめに1枚の顔写真からアニメ風画像を作成することが目的です。前回PhotoMakerというものを使って同様のことをしました。 touch-sp.hatenablog.com 今回はmultiple IP-Adaptersを使ってみました。結果左の画像から右の画像を作成しました。よーく見ると、…

#IP-Adapter

2024-01-29

PhotoMaker と modernDisneyXL で遊んでみた

画像生成

目的1枚の顔写真からディズニー風画像を作成することが目的です。結果ただのImage2imageではないです。左の画像から右の画像を作成しました。よーく見ると、なんとなく特徴を捉えているような気もします。どうでしょう？ Pythonスクリプト import torch fro…

#PhotoMaker

2024-01-28

【Face LoRA（顔LoRA）】LoRAにPivotal Tuningを組み合わせて特定の顔を学習させてみました。

画像生成

結果学習に使用した画像の一部を下に載せておきます。この人物を再現しようとしたのが上記画像です。再現できていると言えるでしょうか？はじめにLoRA自体は以前からある手法です。それにPivotal Tuningを組み合わせる方法が公開されたのはごく最近です…

#LoRA #Pivotal Tuning

2024-01-28

IP-Adapter-FaceID-PlusV2 で同一人物の写真が何枚も作れるのでLoRA学習用データをつくってみました。

画像生成

はじめに「IP-Adapter-FaceID-PlusV2」を使うと1枚の顔写真からその人物の写真を何枚も作成することが可能になります。 touch-sp.hatenablog.com 現時点での弱点と思われるのは使える画像が一枚ということです。そのためか顔の再現性は完璧ではありません。 …

#LoRA #IP-Adapter

2024-01-26

【Video2Video】Diffusers で AnimateDiffVideoToVideoPipeline というのが公開されていたので AnimateDiff v2 と v3 で実行してみました。

動画生成

PC環境 Windows 11 CUDA 11.8 Python 3.11Python環境構築 pip install torch==2.1.2+cu118 --index-url https://download.pytorch.org/whl/cu118 pip install git+https://github.com/huggingface/diffusers pip install accelerate transformers準備こちら…

#AnimateDiff

2024-01-24

【InstantID】IP-Adapter と ControlNet を使った顔写真のスタイル変換

github.com 目的一枚の顔写真に対してスタイル変換を行います。実行準備モデルはGitHubリポジトリに記載されている通りにダウンロードしました。こちらから「pipeline_stable_diffusion_xl_instantid.py」をダウンロードしました。実行「run.py」は後述する…

#InstantID

2024-01-22

IP‐Adapter‐Faceについての記事をまとめました。

はじめにIP-Adapter-Faceに関する記事を何個か書いたのですが、ばらばらに散らばっているのでまとめました。IP-Adapter-Faceにはこのようなモデルがあります。「IP-Adapter-Plus-Face」「IP-Adapter-Full-Face」「IP-Adapter-FaceID」「IP-Adapter-FaceI…

#IP-Adapter

2024-01-19

【PySide6】ドラッグ&ドロップでファイルやフォルダのアドレスを入力できる QLineEdit （または QTextEdit）を作成しました

Ubuntu22.04入門 PySide6

たったこれだけです。 class Lineedit_allow_drag(QLineEdit): def __init__(self): super().__init__() self.setDragEnabled(True) def dragEnterEvent(self, e): if(e.mimeData().hasUrls()): e.accept() def dropEvent(self, e): urls = e.mimeData().url…

2024-01-19

【Ubuntu】PySide6を使う

Ubuntu22.04入門 PySide6

はじめにUbuntu 22.04でPySide6を使おうとするとエラーが出ました。エラー表示 qt.qpa.plugin: From 6.5.0, xcb-cursor0 or libxcb-cursor0 is needed to load the Qt xcb platform plugin. qt.qpa.plugin: Could not load the Qt platform plugin "xcb" in …

2024-01-18

Ubuntu 24.04で日本語入力を可能にする方法

Ubuntu 24.04

はじめに公開前のUbuntu 24.04を導入しました。 touch-sp.hatenablog.com ファイル名やメニューを英語にしたいので言語を英語に設定してインストールしました。そのままでは日本語入力ができないのですが、以下の設定で入力可能になります。方法「Settings…

2024-01-18

【IP-Adapter】SDXL用の IP-Adapter-FaceID-PlusV2 が公開されたので以前のモデルと比較してみました。

画像生成

はじめについ先日、SDXL用のIP-Adapter-FaceIDを紹介したばかりです。 touch-sp.hatenablog.com にもかかわらず新たにIP-Adapter-FaceID-PlusV2が公開されました。驚くべき開発スピードです。さっそく使ってみて以前のモデルと比較してみました。目的1枚の…

#IP-Adapter

2024-01-18

【Diffusers】AnimateDiff + FreeInit が Diffusers から使えるようになりました。

動画生成

はじめに以前「FreeInit」についての記事を書きました。 touch-sp.hatenablog.com Diffusersから使えるようになって環境設定、使い方など非常に簡単になっています。PC環境 Windows 11 CUDA 11.8 Python 3.11Python環境構築 pip install torch==2.1.2+cu118 …

#AnimateDiff #FreeInit

2024-01-17

【PhotoMaker】人物写真をカスタマイズできる PhotoMaker を使ってみました。

画像生成

github.com はじめに「PhotoMaker」をつかえば色々人物写真をカスタマイズできるようですが、今回は1枚の写真から同一人物の写真を作成してみます。以前「IP-Adapter」を使って同様のことをしています。 touch-sp.hatenablog.com touch-sp.hatenablog.com 用…

#PhotoMaker

2024-01-17

Pythonを使って写真に写る顔を切り取る方法（【face-alignment】と【dlib】）

はじめにPythonを使って写真に写る顔を切り取る方法を二つ紹介します。元画像こちらの画像を使わせて頂きました。【face-alignment】を使う方法結果 PC環境 Windows 11 CUDA 11.8 Python 3.11Python環境構築 pip install torch==2.1.2+cu118 --index-url ht…

2024-01-16

【Diffusers】Diffusers から IP-Adapter FaceID が使えるようになりました。

画像生成

はじめにタイトルにある通りです。Diffusersから直接使う場合、環境構築が非常に楽になります。「FaceID-Plus」と「FaceID-PlusV2」については別記事にしています。 touch-sp.hatenablog.com PC環境 Windows 11 CUDA 11.8 Python 3.11Python環境構築 pip ins…

#IP-Adapter

2024-01-13