Image Captioning

ministral-3 が公開されたので Transformers と Gradio を使って画像解析アプリを作る

はじめに 以前にministral-3をOllamaとGradioから使う方法を紹介しました。 touch-sp.hatenablog.com 今回はOllamaの代わりにPythonのTransformersライブラリを使います。 Ollamaのインストールが不要になるので、こちらの方が環境構築は簡単です。 Pythonが…

「vLLM」と「ChatUI」を使って Qwen2.5-VL-3B-Instruct を実行する

Vision&LanguageモデルをChatUIで使うのは初めてでしたが画像のアップロードなどもうまくいきました。はじめに以前Transformersを使って「Qwen2.5-VL-3B-Instruct」を使いました。 touch-sp.hatenablog.com 今回は「vLLM」と「ChatUI」の組み合わせで使って…

Vision&Languageモデル(VLM)の「Qwen2.5-VL-3B-Instruct」を使ってみる

はじめにVision&Languageモデル(VLM)を使って写真の説明をしてもらいます。使用したPC プロセッサ Intel(R) Core(TM) i7-12700H 実装 RAM 32.0 GB GPU RTX 3080 Laptop (VRAM 16GB) Python 3.12 CUDA 12.4 Python環境 pip install torch==2.6.0+cu124 tor…

【Gradio】【Transformers】Llama-3.2-11B-Vision-Instructを使ってみる

はじめに今回はGradioとTransformersを使って「Llama-3.2-11B-Vision-Instruct」を動かしてみました。使ったのは量子化されたこちらです。 huggingface.co 動作画面 結果 This image depicts two children sitting on the ground, gazing up at a shooting s…

Googleが公開しているVision&Languageモデル(VLM)の「PaliGemma2」を使ってみる

はじめにVision&Languageモデル(VLM)を使って写真の説明をしてもらいます。今回はGoogleが最近オープンソースとして公開してくれた「PaliGemma2」を使ってみました。「PaliGemma」の記事はこちらです。 touch-sp.hatenablog.com Python環境構築 pip insta…

Googleが公開しているVision&Languageモデル(VLM)の「PaliGemma」を使ってみる

はじめにVision&Languageモデル(VLM)を使って写真の説明をしてもらいます。今回はGoogleが最近オープンソースとして公開してくれた「PaliGemma」を使ってみました。その他のVision&Languageモデル(VLM)touch-sp.hatenablog.comtouch-sp.hatenablog.com…

軽量Vision&Languageモデル(VLM)の「moondream2」を使ってみる

はじめにVision&Languageモデル(VLM)を使って写真の説明をしてもらいます。今回は軽量モデルの「moondream2」を使ってみました。 huggingface.co その他のVision&Languageモデル(VLM)touch-sp.hatenablog.com touch-sp.hatenablog.com touch-sp.hatena…

Stability AI が公開している「Japanese InstructBLIP Alpha」を使って日本語で写真の説明をしてもらう

huggingface.co はじめに以前BLIP, BLIP2を使った経験があります。 touch-sp.hatenablog.com touch-sp.hatenablog.com 「Japanese InstructBLIP Alpha」は名前から分かる通り日本語が使えます。 質問にも答えてくれました。用意した画像以前と同様、こちらの…

軽量にもかかわらず強力と噂の「imp-v1-3b」で写真の説明をしてらう(残念ながら英語です)

huggingface.co 用意した画像ぱくたそからこちらの画像を使わせて頂きました。 www.pakutaso.com 結果「Describe the person in the image」(画像の人物を説明して下さい)と投げかけた時の答えです。 The person in the image is a young woman wearing a …

MMDetectionでImage Captioningができるようになっていました

環境 Ubuntu 22.04 on WSL2 Python 3.10 CUDA 11.8pip install torch==2.0.1+cu118 torchvision==0.15.2+cu118 --index-url https://download.pytorch.org/whl/cu118 pip install openmim==0.3.9 mim install mmcv==2.0.1 mim install mmdet[multimodal]==3.…

【Image2Text】Image Captioningなら現状 BLIP2 が簡単、最強なのかな?

Pythonスクリプトたったこれだけです。学習済みモデルは自動的にダウンロードされるため事前準備不要です。 from transformers import Blip2Processor, Blip2ForConditionalGeneration from diffusers.utils import load_image import torch processor = Bli…

pix2pix-zero(Zero-shot Image-to-Image Translation)は指定した画像に対するpromptを自動で作成します。それってImage Captioningに使えるかも。

はじめに前回pix2pix-zero(Zero-shot Image-to-Image Translation)に関する記事を書きました。 touch-sp.hatenablog.com 画像内のオブジェクトを変換する過程でいったん元画像のpromptを自動生成していることに気が付きました。 pix2pix-zero内部ではBLIP…

「Versatile-Diffusion」でImage Captioningをやってみたけど精度はいまいちだった

はじめに 環境 方法 リポジトリのダウンロード フォルダの作成 学習済みパラメーターのダウンロード 実行 結果 はじめに「Stable Diffusion」などの画像生成AIが最近話題です。これらはテキスト(呪文)から画像を生成します。「Versatile-Diffusion」はその…

いんちき Image Captioning(物体検出モデルと行動認識モデルを組み合わせて画像説明文章を作成する)

はじめに 方法 使用したモデル コード 結果 日本語ファイル 環境 はじめに 以前PyTochrのImage Captioningについて書いた。 今回「いんちきImage Captioning」を作ってみた。 方法 ① Object Detectionモデルで画像内の人物を探す ② 見つかった人物をそれぞれ…

WindowsでPyTorchの「Image Captioning」を試してみる

github.com 環境 PyTorchのインストール コードとモデルのダウンロード コードの書き換え 実行 結果 学習 環境 Windows 10 Pro GPUなし Python 3.6.8(venv使用) PyTorchのインストール 今回は古いPytorchをpipで導入する。 非常に簡単。 pip install http:…