Image Captioning

Googleが公開しているVision&Languageモデル(VLM)の「PaliGemma」を使ってみる

はじめにVision&Languageモデル(VLM)を使って写真の説明をしてもらいます。今回はGoogleが最近オープンソースとして公開してくれた「PaliGemma」を使ってみました。その他のVision&Languageモデル(VLM)touch-sp.hatenablog.comtouch-sp.hatenablog.com…

軽量Vision&Languageモデル(VLM)の「moondream2」を使ってみる

はじめにVision&Languageモデル(VLM)を使って写真の説明をしてもらいます。今回は軽量モデルの「moondream2」を使ってみました。 huggingface.co その他のVision&Languageモデル(VLM)touch-sp.hatenablog.com touch-sp.hatenablog.com touch-sp.hatena…

Stability AI が公開している「Japanese InstructBLIP Alpha」を使って日本語で写真の説明をしてもらう

huggingface.co はじめに以前BLIP, BLIP2を使った経験があります。 touch-sp.hatenablog.com touch-sp.hatenablog.com 「Japanese InstructBLIP Alpha」は名前から分かる通り日本語が使えます。 質問にも答えてくれました。用意した画像以前と同様、こちらの…

軽量にもかかわらず強力と噂の「imp-v1-3b」で写真の説明をしてらう(残念ながら英語です)

huggingface.co 用意した画像ぱくたそからこちらの画像を使わせて頂きました。 www.pakutaso.com 結果「Describe the person in the image」(画像の人物を説明して下さい)と投げかけた時の答えです。 The person in the image is a young woman wearing a …

MMDetectionでImage Captioningができるようになっていました

環境 Ubuntu 22.04 on WSL2 Python 3.10 CUDA 11.8pip install torch==2.0.1+cu118 torchvision==0.15.2+cu118 --index-url https://download.pytorch.org/whl/cu118 pip install openmim==0.3.9 mim install mmcv==2.0.1 mim install mmdet[multimodal]==3.…

【Image2Text】Image Captioningなら現状 BLIP2 が簡単、最強なのかな?

Pythonスクリプトたったこれだけです。学習済みモデルは自動的にダウンロードされるため事前準備不要です。 from transformers import Blip2Processor, Blip2ForConditionalGeneration from diffusers.utils import load_image import torch processor = Bli…

pix2pix-zero(Zero-shot Image-to-Image Translation)は指定した画像に対するpromptを自動で作成します。それってImage Captioningに使えるかも。

はじめに前回pix2pix-zero(Zero-shot Image-to-Image Translation)に関する記事を書きました。 touch-sp.hatenablog.com 画像内のオブジェクトを変換する過程でいったん元画像のpromptを自動生成していることに気が付きました。 pix2pix-zero内部ではBLIP…

「Versatile-Diffusion」でImage Captioningをやってみたけど精度はいまいちだった

はじめに 環境 方法 リポジトリのダウンロード フォルダの作成 学習済みパラメーターのダウンロード 実行 結果 はじめに「Stable Diffusion」などの画像生成AIが最近話題です。これらはテキスト(呪文)から画像を生成します。「Versatile-Diffusion」はその…

いんちき Image Captioning(物体検出モデルと行動認識モデルを組み合わせて画像説明文章を作成する)

はじめに 方法 使用したモデル コード 結果 日本語ファイル 環境 はじめに 以前PyTochrのImage Captioningについて書いた。 今回「いんちきImage Captioning」を作ってみた。 方法 ① Object Detectionモデルで画像内の人物を探す ② 見つかった人物をそれぞれ…

WindowsでPyTorchの「Image Captioning」を試してみる

github.com 環境 PyTorchのインストール コードとモデルのダウンロード コードの書き換え 実行 結果 学習 環境 Windows 10 Pro GPUなし Python 3.6.8(venv使用) PyTorchのインストール 今回は古いPytorchをpipで導入する。 非常に簡単。 pip install http:…