2024-01-01から1年間の記事一覧

【InstantStyle③】スタイル画像とプロンプトを使って画像のスタイルを変更する

はじめにInstantStyleというモデルを使っています。 github.com できることが色々あるようですが今回はスタイル画像1枚とプロンプトから画像のスタイル変換をしてみます。スタイル画像こちらのGitHubページからスタイル画像を使わせて頂きました。 github.co…

【InstantStyle②】Inpaintモデルを使用して背景を変更する

はじめに前回の続きです。 touch-sp.hatenablog.com InstantStyleというモデルを使っています。 github.com できることが色々あるようですが今回はInpaintモデルを使用して背景を変更してみます。用意した画像サンプルにある画像をそのまま使わせてもらいま…

【InstantStyle①】スタイル画像とプロンプトから新しい画像を生成する

はじめにInstantStyleというモデルを使ってみました。 github.com できることが色々あるようですが今回はスタイル画像1枚とプロンプトから新しい画像を生成してみます。スタイル画像サンプルにある画像をそのまま使わせてもらいました。 目的スタイルを維持…

【Champ】写真に写る人物を躍らせる

はじめに「Champ」とは Controllable and Consistent Human Image Animation with 3D Parametric Guidance だそうです。 github.com 以前「Moore-AnimateAnyone」というのを試したことがあります。 touch-sp.hatenablog.com 今回の「Champ」は「Moore-Animat…

Stability AIが公開している「stable-code-instruct-3b」にPythonスクリプトを書いてもらいました。

はじめに「stable-code-3b」という大規模言語モデルは以前から公開されていました。 今回「instruct」モデルが新たに公開されたので使ってみました。私の認識が間違えていなかったら「instruct」モデルは質問に答えてくれるモデルです。通常の大規模言語モデ…

開発中のUbuntu 24.04を使用してみた(2024年3月)

はじめにUbuntu 24.04は名前の通り2024年4月に公開予定です。当然まだ開発途中ですが、開発中のものが使用可能なのでさっそく使ってみました。isoファイルをダウンロードしてインストールダウンロード先はこちら。起動させた結果 ubuntu@ubuntu:~$ cat /etc/…

【Video2Video】「FRESCO」というモデルを使ってみる

はじめに過去に Video2Video をいろいろ試して、最も良い結果が得られたのが「Rerender A Video」でした。「Rerender A Video」の開発者が新たに「FRESCO」というのを公開してくれました。これは期待できるということでさっそく試してみました。「Rerender A…

楽天が公開している大規模言語モデル「RakutenAI-7B」に炒飯の作り方を聞いてみた

はじめに「RakutenAI-7B」「RakutenAI-7B-instruct」「RakutenAI-7B-chat」の3つのモデルが公開されています。今回は「RakutenAI-7B-instruct」を使ってみました。結果実行するたびに異なる答えが返ってきます。 USER: 炒飯の作り方を教えて ASSISTANT: 分量…

【Diffusers】プロンプト拡張機能が紹介されていたので使ってみました。

はじめにこちらになります。 github.com Gradio画面Gradioから使ってみました。 Pythonスクリプト import torch from transformers import GenerationConfig, GPT2LMHeadModel, GPT2Tokenizer, LogitsProcessor, LogitsProcessorList from diffusers import …

Windowsに標準搭載されているCopilotにPythonスクリプトをGradioアプリ化してとお願いしたら実際に動作可能なスクリプトを書いてくれました(感動)

もとのスクリプトtouch-sp.hatenablog.com こちらのスクリプトを使いました。 import torch from diffusers import StableCascadeDecoderPipeline, StableCascadePriorPipeline prior = StableCascadePriorPipeline.from_pretrained( "stabilityai/stable-ca…

顔を統一してAIインフルエンサーを作るっていうのが流行っているみたいです。それってIP-Adapter使えばできるよね。

はじめにここで紹介する方法は一応無料でできます。ただし、「InsigthFace」というモデルを使用しており、そちらのトレーニングデータは非営利の研究目的でのみ利用可能とのことですので注意して下さい。 以前同様のことをLoRA学習で行いました。 touch-sp.h…

【Diffusers】いろいろな IP-Adapter を組み合わせてみる

はじめにこちらの拡張です。 touch-sp.hatenablog.com 「FacaID」が使えるようになったので3つ同時に使用してみました。命題この女性をイラスト化して下さい。 結果 左から 「Plus」と「Plus Face」の組み合わせ 「Plus」と「FaceID」の組み合わせ 「Plus」…

【oms-Diffusion】768のサイズで学習されたウエイトが公開されたのでそれを使って顔写真と服の画像からバーチャル試着

はじめに以前もoms-Diffusionの記事を書きました。 touch-sp.hatenablog.com 今回は新しいウエイトが公開されたので使用してみました。目的命題:『この顔の人物にこの服を着させて下さい』 用意したのはこの2枚の画像のみです。結果 以前より画質が良くなっ…

Diffusers から芸術性の高い画像が作成できると噂の Playground v2.5 を使ってみる

結果 芸術性高いように感じます(適当)。Pythonスクリプトたったこれだけ。 from diffusers import DiffusionPipeline import torch pipe = DiffusionPipeline.from_pretrained( "playgroundai/playground-v2.5-1024px-aesthetic", torch_dtype=torch.float…

【oms-Diffusion】顔写真と服の画像からバーチャル試着

はじめに前回もバーチャル試着の記事を書きました。 touch-sp.hatenablog.com 今回はこちらを使わせて頂きました。 github.com 前回使用した「OOTDiffusion」と開発者が一部重複しているので何かしらの関連はあるのでしょう。目的命題:『この顔の人物にこの…

OOTDiffusion でバーチャル試着に挑戦

はじめにバーチャル試着ができるという以下を使わせて頂きました。 github.com 非常にうまくいきます。 そのため、画像の捏造に利用されそうです。 悪用しないように気を付けて下さい。結果 背景の変更には以前紹介した「Matte-Anything」を使っています。 t…

Matte-Anything で人物を切り抜いてみたら精度が高くて驚きました

はじめにこちらを使わせていただきました。 github.com 環境構築GitHubに書いてある通りにやりましたが、最初はなかなかうまくいきませんでした。ハマりポイントを挙げておきます。 opencv-python==4.5.3.56を指定されているのでPythonは3.9以下にする必要が…

ByteDance が公開した SDXL-Lightning を使ってみる

huggingface.co Diffusersから簡単に使えます。 サンプルスクリプトをみるとSDXLのUnet部分を変更しているだけに見えます。Pythonスクリプト import torch from diffusers import StableDiffusionXLPipeline, UNet2DConditionModel, EulerDiscreteScheduler …

【Diffusers】【IP-Adapter】ip_adapter_image_embedsを保存して再利用する方法

はじめに以下のようなメリットがあります。 2回目以降「ip_adapter_image_embeds」を計算しなくていいので生成速度があがります。 2回目以降「image_encoder」をロードする必要がなくなるのでVRAM消費を抑えられます。 Python環境構築 pip install torch==2.…

Googleが最近公開したオープンソース大規模言語モデル「Gemma」にC#のコードを書いてもらう(ローカル環境で実行しています)

はじめにWeb上で使うならHuggingChatで使えます。 今回はモデルをダウンロードしてローカル環境で実行しました。結果英語を使いました。「Write a hello world program in c#」(C#でhello worldのプログラムを書いて)と聞いた時の答えです。 ```c# using S…

【悪用厳禁】IP-Adapter と ControlNet と Inpaint を組み合わせて顔を入れ替える

はじめに以前ControlNet と Inpaintを組み合わせて使用したことがあります。 touch-sp.hatenablog.com 今回はさらにIP-AdapterのFaceモデルを組み合わせて写真の顔を入れ替えてみます。 SD1.5を使って同じようなことをこちらでやっています。 touch-sp.haten…

【Diffusers】AnimateLCM + FreeInit で動画を作成してみる

結果 動画はGoogle Bloggerに載せています。 support-touchsp.blogspot.com 最大32フレームまで作れるようです。Pythonスクリプト import torch from diffusers import MotionAdapter, AnimateDiffPipeline, LCMScheduler from diffusers.utils import expor…

【Diffusers】IP-Adapter attention maskingで遊んでみた

はじめに以前にmultiple IP-Adaptersを使ったことがあります。 touch-sp.hatenablog.com それと似たようなものですが、画像のどの部分にIP-Adapterを使用するかをmask画像で大まかに指定することが可能になりました。 github.com 結果用意した二人の顔写真 …

Stability AI が新たに公開した「Stable Cascade」を簡単にローカル環境で試す方法

はじめにStability AIは以下のような画像生成AIを公開してきました。 「Stable Diffusion 1.x」→「Stable Diffusion 2.x」→「SDXL」→「SDXL Turbo」今回新たに「Stable Cascade」というモデルを公開しました。「SDXL」より高速かつ高品質に画像生成ができる…

アップルが米大学と共同で発表したAI画像編集ツール「MGIE」をローカル環境で実行してみた

github.com はじめに「MGIE」(Guiding Instruction-based Image Editing via Multimodal Large Language Models)はアップルとカリフォルニア大学サンタバーバラ校(UCSB)が共同で開発したマルチモーダル大規模言語モデルを基にしたAI画像編集ツールです。Gi…

Stability AI が公開している「Japanese Stable LM Instruct Gamma 7B」を使ってテキストから情報を抽出してもらう

huggingface.co はじめに最近いろいろと言語モデルをさわっています。いずれは自前データで学習なんかできたら良いなと思いますが、家庭用PCでそんなことできるのでしょうか?時間あるときに勉強してみようと思っています。ここから本題です。前回はモデルが…

【Image2Video】Diffusers に新たに実装された I2VGenXL で動画を作成してみる

github.com はじめに「I2VGenXL」は以前からあるモデルです。Diffusersが v0.26.0 にアップデートされて「I2VGenXL」が実装されました。入力画像は1280x720(16:9)の画像なので比較的大きい動画が作れます。 (しかし、なぜか作成された動画は1280x704にな…

東工大と産総研の研究チームが公開している大規模言語モデル「Swallow」にことわざの意味を聞いてみた

huggingface.co はじめにパラメータ数が70億パラメータ(7B)、130億パラメータ(13B)、700億パラメータ(70B)の3モデルがあるようです。さらにそれぞれにbaseモデルとinstructモデルが存在します。instructモデルはチャットのように質問に対して答えを返…

Stability AI が公開している「Japanese InstructBLIP Alpha」を使って日本語で写真の説明をしてもらう

huggingface.co はじめに以前BLIP, BLIP2を使った経験があります。 touch-sp.hatenablog.com touch-sp.hatenablog.com 「Japanese InstructBLIP Alpha」は名前から分かる通り日本語が使えます。 質問にも答えてくれました。用意した画像以前と同様、こちらの…

軽量にもかかわらず強力と噂の「imp-v1-3b」で写真の説明をしてらう(残念ながら英語です)

huggingface.co 用意した画像ぱくたそからこちらの画像を使わせて頂きました。 www.pakutaso.com 結果「Describe the person in the image」(画像の人物を説明して下さい)と投げかけた時の答えです。 The person in the image is a young woman wearing a …