Windows Storeに「Ubuntu 24.04 LTS」が登場しました。WSL2でさっそく使ってみました。

hoge@galleria:~$ cat /etc/os-release PRETTY_NAME="Ubuntu 24.04 LTS" NAME="Ubuntu" VERSION_ID="24.04" VERSION="24.04 LTS (Noble Numbat)" VERSION_CODENAME=noble ID=ubuntu ID_LIKE=debian HOME_URL="https://www.ubuntu.com/" SUPPORT_URL="https:/…

2024-04-26

軽量Vision＆Languageモデル（VLM）の「moondream2」を使ってみる

Image Captioning

はじめにVision＆Languageモデル（VLM）を使って写真の説明をしてもらいます。今回は軽量モデルの「moondream2」を使ってみました。 huggingface.co その他のVision＆Languageモデル（VLM）touch-sp.hatenablog.com touch-sp.hatenablog.com touch-sp.hatena…

#moondream2

2024-04-24

「Ollama」と「ChatUI」を使って Microsoft の Phi-3 をローカルで利用する。軽い、速いは正義です。

自然言語処理

はじめにWSL2上のOllamaで「Phi-3」を実行して、Windows上のChatUIでそれを利用してみました。無料で実行可能です。 github.com github.com 必要なものWSL2にDocker Engineのインストールが必要です。 Windowsにnpmのインストールが必要です。使用した環境WS…

#Phi-3

2024-04-23

「InstantStyle」がDiffusersから使えるようになりました。

画像生成

はじめにこちらのスクリプトをDiffusers用に書き換えました。 touch-sp.hatenablog.com スタイル画像こちらの画像を使わせてもらいました。結果シードを変えて4枚の画像を作成しました。スタイルを維持しながらウサギを猫に変えています。 PC環境 Windows 1…

#InstantStyle

2024-04-21

「IP-Adapter-FaceID-Plus」と「IP-Adapter-FaceID-PlusV2」がDiffusersから使えるようになりました。

画像生成

結果左側の写真から右側の写真を作成しました。 PC環境 Windows 11 CUDA 11.8 Python 3.11Python環境構築 pip install torch==2.2.2+cu118 --index-url https://download.pytorch.org/whl/cu118 pip install git+https://github.com/huggingface/diffusers p…

#IP-Adapter

2024-04-18

Googleが公開している「CodeGemma-7b-it」を「ChatUI」から使用する

自然言語処理

はじめに「Llama.cpp」と「ChatUI」を使用しています。それぞれの使い方はこちらを参照して下さい。 touch-sp.hatenablog.com touch-sp.hatenablog.com 使い方「Llama.cpp」の実行 ./llama.cpp/server -m llama.cpp/models/codegemma-7b-it-f16.gguf -c 2048…

#Llama.cpp #ChatUI

2024-04-17

Stability AIが公開している「stable-code-instruct-3b」を「ChatUI」から使用する

自然言語処理

はじめに以前「stable-code-instruct-3b」をPythonスクリプトから使用したことがあります。 touch-sp.hatenablog.com 今回は「Llama.cpp」と「ChatUI」の組み合わせで「stable-code-instruct-3b」を使用してみます。「Llama.cpp」と「ChatUI」の使い方はこ…

#Llama.cpp #ChatUI

2024-04-17

「Llama.cpp」とHugging Faceが開発している「ChatUI」を使ってLLM（大規模言語モデル）をローカル環境で使用する

自然言語処理

はじめにWSL2上のLlama.cppで大規模言語モデルの「zephyr-7b-beta」を実行して、Windows上のChatUIでそれを利用してみました。無料で実行可能です。 github.com github.com必要なものWSL2にDocker Engineのインストールが必要です。 Windowsにnpmのインスト…

#Llama.cpp #ChatUI

2024-04-15

LLM（大規模言語モデル）をローカルで実行して、それを VScode から使う。これですこれ、やりたかったのは正にこれです。

自然言語処理

はじめにLLMを「llama.cpp」を使ってローカルで実行し、VSCode拡張機能の「Continue」からそのモデルを使用するイメージです。github.com github.com 注意コードを書いている最中にどんどん続きの候補を挙げてくれるようなことはできていません。（やろうと…

#Continue #llama.cpp

2024-04-10

【InstantStyle③】スタイル画像とプロンプトを使って画像のスタイルを変更する

はじめにInstantStyleというモデルを使っています。 github.com できることが色々あるようですが今回はスタイル画像1枚とプロンプトから画像のスタイル変換をしてみます。スタイル画像こちらのGitHubページからスタイル画像を使わせて頂きました。 github.co…

#InstantStyle

2024-04-10

【InstantStyle②】Inpaintモデルを使用して背景を変更する

はじめに前回の続きです。 touch-sp.hatenablog.com InstantStyleというモデルを使っています。 github.com できることが色々あるようですが今回はInpaintモデルを使用して背景を変更してみます。用意した画像サンプルにある画像をそのまま使わせてもらいま…

#InstantStyle

2024-04-08

【InstantStyle①】スタイル画像とプロンプトから新しい画像を生成する

はじめにInstantStyleというモデルを使ってみました。 github.com できることが色々あるようですが今回はスタイル画像1枚とプロンプトから新しい画像を生成してみます。スタイル画像サンプルにある画像をそのまま使わせてもらいました。目的スタイルを維持…

#InstantStyle

2024-03-31

【Champ】写真に写る人物を躍らせる

動画生成

はじめに「Champ」とは Controllable and Consistent Human Image Animation with 3D Parametric Guidance だそうです。 github.com 以前「Moore-AnimateAnyone」というのを試したことがあります。 touch-sp.hatenablog.com 今回の「Champ」は「Moore-Animat…

#Champ

2024-03-29

Stability AIが公開している「stable-code-instruct-3b」にPythonスクリプトを書いてもらいました。

自然言語処理

はじめに「stable-code-3b」という大規模言語モデルは以前から公開されていました。今回「instruct」モデルが新たに公開されたので使ってみました。私の認識が間違えていなかったら「instruct」モデルは質問に答えてくれるモデルです。通常の大規模言語モデ…

#stable-code-instruct-3b

2024-03-26

開発中のUbuntu 24.04を使用してみた（2024年3月）

Ubuntu 24.04

はじめにUbuntu 24.04は名前の通り2024年4月に公開予定です。当然まだ開発途中ですが、開発中のものが使用可能なのでさっそく使ってみました。isoファイルをダウンロードしてインストールダウンロード先はこちら。起動させた結果 ubuntu@ubuntu:~$ cat /etc/…

2024-03-25

【Video2Video】「FRESCO」というモデルを使ってみる

動画生成

はじめに過去に Video2Video をいろいろ試して、最も良い結果が得られたのが「Rerender A Video」でした。「Rerender A Video」の開発者が新たに「FRESCO」というのを公開してくれました。これは期待できるということでさっそく試してみました。「Rerender A…

#FRESCO

2024-03-22

楽天が公開している大規模言語モデル「RakutenAI-7B」に炒飯の作り方を聞いてみた

自然言語処理

はじめに「RakutenAI-7B」「RakutenAI-7B-instruct」「RakutenAI-7B-chat」の3つのモデルが公開されています。今回は「RakutenAI-7B-instruct」を使ってみました。 huggingface.co 結果実行するたびに異なる答えが返ってきます。 USER: 炒飯の作り方を教えて…

2024-03-16

【Diffusers】プロンプト拡張機能が紹介されていたので使ってみました。

画像生成

はじめにこちらになります。 github.com Gradio画面Gradioから使ってみました。 Pythonスクリプト import torch from transformers import GenerationConfig, GPT2LMHeadModel, GPT2Tokenizer, LogitsProcessor, LogitsProcessorList from diffusers import …

2024-03-15

Windowsに標準搭載されているCopilotにPythonスクリプトをGradioアプリ化してとお願いしたら実際に動作可能なスクリプトを書いてくれました（感動）

もとのスクリプトtouch-sp.hatenablog.com こちらのスクリプトを使いました。 import torch from diffusers import StableCascadeDecoderPipeline, StableCascadePriorPipeline prior = StableCascadePriorPipeline.from_pretrained( "stabilityai/stable-ca…

2024-03-14

顔を統一してAIインフルエンサーを作るっていうのが流行っているみたいです。それってIP-Adapter使えばできるよね。

画像生成

はじめにここで紹介する方法は一応無料でできます。ただし、「InsigthFace」というモデルを使用しており、そちらのトレーニングデータは非営利の研究目的でのみ利用可能とのことですので注意して下さい。以前同様のことをLoRA学習で行いました。 touch-sp.h…

#IP-Adapter

2024-03-11

【Diffusers】いろいろな IP-Adapter を組み合わせてみる

はじめにこちらの拡張です。 touch-sp.hatenablog.com 「FacaID」が使えるようになったので3つ同時に使用してみました。命題この女性をイラスト化して下さい。結果左から「Plus」と「Plus Face」の組み合わせ「Plus」と「FaceID」の組み合わせ「Plus」…

#IP-Adapter

2024-03-10

【Magic Clothing】768のサイズで学習されたウエイトが公開されたのでそれを使って顔写真と服の画像からバーチャル試着

画像生成

はじめに以前もMagic Clothingの記事を書きました。 touch-sp.hatenablog.com 今回は新しいウエイトが公開されたので使用してみました。目的命題：『この顔の人物にこの服を着させて下さい』用意したのはこの2枚の画像のみです。結果以前より画質が良くな…

#oms-Diffusion #Magic Clothing

2024-03-07

Diffusers から芸術性の高い画像が作成できると噂の Playground v2.5 を使ってみる

画像生成

結果芸術性高いように感じます（適当）。Pythonスクリプトたったこれだけ。 from diffusers import DiffusionPipeline import torch pipe = DiffusionPipeline.from_pretrained( "playgroundai/playground-v2.5-1024px-aesthetic", torch_dtype=torch.float…

#Playground v2.5

2024-03-05

【Magic Clothing】顔写真と服の画像からバーチャル試着

はじめに前回もバーチャル試着の記事を書きました。 touch-sp.hatenablog.com 今回はこちらを使わせて頂きました。 github.com 前回使用した「OOTDiffusion」と開発者が一部重複しているので何かしらの関連はあるのでしょう。目的命題：『この顔の人物にこの…

#oms-Diffusion #Magic Clothing

2024-03-05

OOTDiffusion でバーチャル試着に挑戦

はじめにバーチャル試着ができるという以下を使わせて頂きました。 github.com 非常にうまくいきます。そのため、画像の捏造に利用されそうです。悪用しないように気を付けて下さい。結果背景の変更には以前紹介した「Matte-Anything」を使っています。 t…

#OOTDiffusion

2024-03-05

Matte-Anything で人物を切り抜いてみたら精度が高くて驚きました

はじめにこちらを使わせていただきました。 github.com 環境構築GitHubに書いてある通りにやりましたが、最初はなかなかうまくいきませんでした。ハマりポイントを挙げておきます。 opencv-python==4.5.3.56を指定されているのでPythonは3.9以下にする必要が…

#Matte-Anything

2024-02-24

ByteDance が公開した SDXL-Lightning を使ってみる

画像生成

huggingface.co Diffusersから簡単に使えます。サンプルスクリプトをみるとSDXLのUnet部分を変更しているだけに見えます。Pythonスクリプト import torch from diffusers import StableDiffusionXLPipeline, UNet2DConditionModel, EulerDiscreteScheduler …

#SDXL-Lightning

2024-02-24

【Diffusers】【IP-Adapter】ip_adapter_image_embedsを保存して再利用する方法

はじめに以下のようなメリットがあります。 2回目以降「ip_adapter_image_embeds」を計算しなくていいので生成速度があがります。 2回目以降「image_encoder」をロードする必要がなくなるのでVRAM消費を抑えられます。 Python環境構築 pip install torch==2.…

#IP-Adapter

2024-02-23

Googleが最近公開したオープンソース大規模言語モデル「Gemma」にC#のコードを書いてもらう（ローカル環境で実行しています）

自然言語処理

はじめにWeb上で使うならHuggingChatで使えます。今回はモデルをダウンロードしてローカル環境で実行しました。結果英語を使いました。「Write a hello world program in c#」（C#でhello worldのプログラムを書いて）と聞いた時の答えです。 ```c# using S…

#Gemma

2024-02-20

【悪用厳禁】IP-Adapter と ControlNet と Inpaint を組み合わせて顔を入れ替える

画像生成

はじめに以前ControlNet と Inpaintを組み合わせて使用したことがあります。 touch-sp.hatenablog.com 今回はさらにIP-AdapterのFaceモデルを組み合わせて写真の顔を入れ替えてみます。 SD1.5を使って同じようなことをこちらでやっています。 touch-sp.haten…

#IP-Adapter #ControlNet #Inpaint

パソコン関連もろもろ

2024-01-01から1年間の記事一覧

Windows Storeに「Ubuntu 24.04 LTS」が登場しました。WSL2でさっそく使ってみました。

軽量Vision＆Languageモデル（VLM）の「moondream2」を使ってみる

「Ollama」と「ChatUI」を使って Microsoft の Phi-3 をローカルで利用する。軽い、速いは正義です。

「InstantStyle」がDiffusersから使えるようになりました。

「IP-Adapter-FaceID-Plus」と「IP-Adapter-FaceID-PlusV2」がDiffusersから使えるようになりました。

Googleが公開している「CodeGemma-7b-it」を「ChatUI」から使用する

Stability AIが公開している「stable-code-instruct-3b」を「ChatUI」から使用する

「Llama.cpp」とHugging Faceが開発している「ChatUI」を使ってLLM（大規模言語モデル）をローカル環境で使用する

LLM（大規模言語モデル）をローカルで実行して、それを VScode から使う。これですこれ、やりたかったのは正にこれです。

【InstantStyle③】スタイル画像とプロンプトを使って画像のスタイルを変更する

【InstantStyle②】Inpaintモデルを使用して背景を変更する

【InstantStyle①】スタイル画像とプロンプトから新しい画像を生成する

【Champ】写真に写る人物を躍らせる

Stability AIが公開している「stable-code-instruct-3b」にPythonスクリプトを書いてもらいました。

開発中のUbuntu 24.04を使用してみた（2024年3月）

【Video2Video】「FRESCO」というモデルを使ってみる

楽天が公開している大規模言語モデル「RakutenAI-7B」に炒飯の作り方を聞いてみた

【Diffusers】プロンプト拡張機能が紹介されていたので使ってみました。

Windowsに標準搭載されているCopilotにPythonスクリプトをGradioアプリ化してとお願いしたら実際に動作可能なスクリプトを書いてくれました（感動）

顔を統一してAIインフルエンサーを作るっていうのが流行っているみたいです。それってIP-Adapter使えばできるよね。

【Diffusers】いろいろな IP-Adapter を組み合わせてみる

【Magic Clothing】768のサイズで学習されたウエイトが公開されたのでそれを使って顔写真と服の画像からバーチャル試着

Diffusers から芸術性の高い画像が作成できると噂の Playground v2.5 を使ってみる

【Magic Clothing】顔写真と服の画像からバーチャル試着

OOTDiffusion でバーチャル試着に挑戦

Matte-Anything で人物を切り抜いてみたら精度が高くて驚きました

ByteDance が公開した SDXL-Lightning を使ってみる

【Diffusers】【IP-Adapter】ip_adapter_image_embedsを保存して再利用する方法

Googleが最近公開したオープンソース大規模言語モデル「Gemma」にC#のコードを書いてもらう（ローカル環境で実行しています）

【悪用厳禁】IP-Adapter と ControlNet と Inpaint を組み合わせて顔を入れ替える