ByteDance が公開した SDXL-Lightning を使ってみる

画像生成

huggingface.co Diffusersから簡単に使えます。サンプルスクリプトをみるとSDXLのUnet部分を変更しているだけに見えます。Pythonスクリプト import torch from diffusers import StableDiffusionXLPipeline, UNet2DConditionModel, EulerDiscreteScheduler …

#SDXL-Lightning

2024-02-24

【Diffusers】【IP-Adapter】ip_adapter_image_embedsを保存して再利用する方法

はじめに以下のようなメリットがあります。 2回目以降「ip_adapter_image_embeds」を計算しなくていいので生成速度があがります。 2回目以降「image_encoder」をロードする必要がなくなるのでVRAM消費を抑えられます。 Python環境構築 pip install torch==2.…

#IP-Adapter

2024-02-23

Googleが最近公開したオープンソース大規模言語モデル「Gemma」にC#のコードを書いてもらう（ローカル環境で実行しています）

大規模言語モデル

はじめにWeb上で使うならHuggingChatで使えます。今回はモデルをダウンロードしてローカル環境で実行しました。結果英語を使いました。「Write a hello world program in c#」（C#でhello worldのプログラムを書いて）と聞いた時の答えです。 ```c# using S…

#Gemma

2024-02-20

【悪用厳禁】IP-Adapter と ControlNet と Inpaint を組み合わせて顔を入れ替える

画像生成

はじめに以前ControlNet と Inpaintを組み合わせて使用したことがあります。 touch-sp.hatenablog.com 今回はさらにIP-AdapterのFaceモデルを組み合わせて写真の顔を入れ替えてみます。 SD1.5を使って同じようなことをこちらでやっています。 touch-sp.haten…

#IP-Adapter #ControlNet #Inpaint

2024-02-19

【Diffusers】AnimateLCM + FreeInit で動画を作成してみる

動画生成

結果動画はGoogle Bloggerに載せています。 support-touchsp.blogspot.com 最大32フレームまで作れるようです。Pythonスクリプト import torch from diffusers import MotionAdapter, AnimateDiffPipeline, LCMScheduler from diffusers.utils import expor…

#AnimateDiff #AnimateLCM

2024-02-19

【Diffusers】IP-Adapter attention maskingで遊んでみた

画像生成

はじめに以前にmultiple IP-Adaptersを使ったことがあります。 touch-sp.hatenablog.com それと似たようなものですが、画像のどの部分にIP-Adapterを使用するかをmask画像で大まかに指定することが可能になりました。 github.com 結果用意した二人の顔写真 …

#IP-Adapter

2024-02-18

Stability AI が新たに公開した「Stable Cascade」を簡単にローカル環境で試す方法

画像生成

はじめにStability AIは以下のような画像生成AIを公開してきました。「Stable Diffusion 1.x」→「Stable Diffusion 2.x」→「SDXL」→「SDXL Turbo」今回新たに「Stable Cascade」というモデルを公開しました。「SDXL」より高速かつ高品質に画像生成ができる…

#Stable Cascade

2024-02-10

アップルが米大学と共同で発表したAI画像編集ツール「MGIE」をローカル環境で実行してみた

画像生成

github.com はじめに「MGIE」(Guiding Instruction-based Image Editing via Multimodal Large Language Models)はアップルとカリフォルニア大学サンタバーバラ校（UCSB）が共同で開発したマルチモーダル大規模言語モデルを基にしたAI画像編集ツールです。Gi…

#MGIE #ml-mgie

2024-02-04

Stability AI が公開している「Japanese Stable LM Instruct Gamma 7B」を使ってテキストから情報を抽出してもらう

大規模言語モデル

huggingface.co はじめに最近いろいろと言語モデルをさわっています。いずれは自前データで学習なんかできたら良いなと思いますが、家庭用PCでそんなことできるのでしょうか？時間あるときに勉強してみようと思っています。ここから本題です。前回はモデルが…

2024-02-02

【Image2Video】Diffusers に新たに実装された I2VGenXL で動画を作成してみる

動画生成 Image2Video

github.com はじめに「I2VGenXL」は以前からあるモデルです。Diffusersが v0.26.0 にアップデートされて「I2VGenXL」が実装されました。入力画像は1280x720（16:9）の画像なので比較的大きい動画が作れます。（しかし、なぜか作成された動画は1280x704にな…

#I2VGenXL

2024-02-02

東工大と産総研の研究チームが公開している大規模言語モデル「Swallow」にことわざの意味を聞いてみた

大規模言語モデル

huggingface.co はじめにパラメータ数が70億パラメータ（7B）、130億パラメータ（13B）、700億パラメータ（70B）の3モデルがあるようです。さらにそれぞれにbaseモデルとinstructモデルが存在します。instructモデルはチャットのように質問に対して答えを返…

#Swallow

2024-02-02

Stability AI が公開している「Japanese InstructBLIP Alpha」を使って日本語で写真の説明をしてもらう

Image Captioning 自然言語処理

huggingface.co はじめに以前BLIP, BLIP2を使った経験があります。 touch-sp.hatenablog.com touch-sp.hatenablog.com 「Japanese InstructBLIP Alpha」は名前から分かる通り日本語が使えます。質問にも答えてくれました。用意した画像以前と同様、こちらの…

#BLIP

2024-02-02

軽量にもかかわらず強力と噂の「imp-v1-3b」で写真の説明をしてらう（残念ながら英語です）

Image Captioning 大規模言語モデル

huggingface.co 用意した画像ぱくたそからこちらの画像を使わせて頂きました。 www.pakutaso.com 結果「Describe the person in the image」（画像の人物を説明して下さい）と投げかけた時の答えです。 The person in the image is a young woman wearing a …

2024-02-02

リクルート社が発表した「japanese-clip-vit-b-32-roberta-base」を使って日本語で画像検索をする

画像分類自然言語処理

前回に引き続きリクルート社が発表した「japanese-clip-vit-b-32-roberta-base」を使っていきます。 touch-sp.hatenablog.com 今回は日本語での画像検索に挑戦しました。 1年以上前にOpenAIのCLIPを使って同じことをした経験があります。 touch-sp.hatenablo…

#CLIP

2024-02-01

リクルート社が発表した「japanese-clip-vit-b-32-roberta-base」を使って日本語でゼロショット画像分類を行う

画像分類大規模言語モデル

1年以上前にOpenAIのCLIPを使ってゼロショット画像分類に挑戦した経験があります。 touch-sp.hatenablog.com 今回リクルート社が発表した「japanese-clip-vit-b-32-roberta-base」を使って日本語でゼロショット画像分類に挑戦しました。 huggingface.co 用意…

#CLIP

パソコン関連もろもろ

2024-02-01から1ヶ月間の記事一覧

ByteDance が公開した SDXL-Lightning を使ってみる

【Diffusers】【IP-Adapter】ip_adapter_image_embedsを保存して再利用する方法

Googleが最近公開したオープンソース大規模言語モデル「Gemma」にC#のコードを書いてもらう（ローカル環境で実行しています）

【悪用厳禁】IP-Adapter と ControlNet と Inpaint を組み合わせて顔を入れ替える

【Diffusers】AnimateLCM + FreeInit で動画を作成してみる

【Diffusers】IP-Adapter attention maskingで遊んでみた

Stability AI が新たに公開した「Stable Cascade」を簡単にローカル環境で試す方法

アップルが米大学と共同で発表したAI画像編集ツール「MGIE」をローカル環境で実行してみた

Stability AI が公開している「Japanese Stable LM Instruct Gamma 7B」を使ってテキストから情報を抽出してもらう

【Image2Video】Diffusers に新たに実装された I2VGenXL で動画を作成してみる

東工大と産総研の研究チームが公開している大規模言語モデル「Swallow」にことわざの意味を聞いてみた

Stability AI が公開している「Japanese InstructBLIP Alpha」を使って日本語で写真の説明をしてもらう

軽量にもかかわらず強力と噂の「imp-v1-3b」で写真の説明をしてらう（残念ながら英語です）

リクルート社が発表した「japanese-clip-vit-b-32-roberta-base」を使って日本語で画像検索をする

リクルート社が発表した「japanese-clip-vit-b-32-roberta-base」を使って日本語でゼロショット画像分類を行う