Googleが公開しているVision＆Languageモデル（VLM）の「PaliGemma」を使ってみる

Image Captioning

はじめにVision＆Languageモデル（VLM）を使って写真の説明をしてもらいます。今回はGoogleが最近オープンソースとして公開してくれた「PaliGemma」を使ってみました。その他のVision＆Languageモデル（VLM）touch-sp.hatenablog.comtouch-sp.hatenablog.com…

#PaliGemma

2024-04-26

軽量Vision＆Languageモデル（VLM）の「moondream2」を使ってみる

Image Captioning

はじめにVision＆Languageモデル（VLM）を使って写真の説明をしてもらいます。今回は軽量モデルの「moondream2」を使ってみました。 huggingface.co その他のVision＆Languageモデル（VLM）touch-sp.hatenablog.com touch-sp.hatenablog.com touch-sp.hatena…

#moondream2

2024-02-02

Stability AI が公開している「Japanese InstructBLIP Alpha」を使って日本語で写真の説明をしてもらう

Image Captioning 自然言語処理

huggingface.co はじめに以前BLIP, BLIP2を使った経験があります。 touch-sp.hatenablog.com touch-sp.hatenablog.com 「Japanese InstructBLIP Alpha」は名前から分かる通り日本語が使えます。質問にも答えてくれました。用意した画像以前と同様、こちらの…

#BLIP

2024-02-02

軽量にもかかわらず強力と噂の「imp-v1-3b」で写真の説明をしてらう（残念ながら英語です）

Image Captioning 大規模言語モデル

huggingface.co 用意した画像ぱくたそからこちらの画像を使わせて頂きました。 www.pakutaso.com 結果「Describe the person in the image」（画像の人物を説明して下さい）と投げかけた時の答えです。 The person in the image is a young woman wearing a …

2023-07-17

MMDetectionでImage Captioningができるようになっていました

Image Captioning

環境 Ubuntu 22.04 on WSL2 Python 3.10 CUDA 11.8pip install torch==2.0.1+cu118 torchvision==0.15.2+cu118 --index-url https://download.pytorch.org/whl/cu118 pip install openmim==0.3.9 mim install mmcv==2.0.1 mim install mmdet[multimodal]==3.…

#MMDetection

2023-06-21

【Image2Text】Image Captioningなら現状 BLIP2 が簡単、最強なのかな？

Image Captioning

Pythonスクリプトたったこれだけです。学習済みモデルは自動的にダウンロードされるため事前準備不要です。 from transformers import Blip2Processor, Blip2ForConditionalGeneration from diffusers.utils import load_image import torch processor = Bli…

#BLIP2

2023-02-17

pix2pix-zero（Zero-shot Image-to-Image Translation）は指定した画像に対するpromptを自動で作成します。それってImage Captioningに使えるかも。

Image Captioning

はじめに前回pix2pix-zero（Zero-shot Image-to-Image Translation）に関する記事を書きました。 touch-sp.hatenablog.com 画像内のオブジェクトを変換する過程でいったん元画像のpromptを自動生成していることに気が付きました。 pix2pix-zero内部ではBLIP…

#pix2pix-zero

2022-12-31

「Versatile-Diffusion」でImage Captioningをやってみたけど精度はいまいちだった

Image Captioning

はじめに環境方法リポジトリのダウンロードフォルダの作成学習済みパラメーターのダウンロード実行結果はじめに「Stable Diffusion」などの画像生成AIが最近話題です。これらはテキスト（呪文）から画像を生成します。「Versatile-Diffusion」はその…

#Image Captioning #Versatile Diffusion

2019-11-07

いんちき Image Captioning（物体検出モデルと行動認識モデルを組み合わせて画像説明文章を作成する）

GluonCV Image Captioning

はじめに方法使用したモデルコード結果日本語ファイル環境はじめに以前PyTochrのImage Captioningについて書いた。今回「いんちきImage Captioning」を作ってみた。方法 ① Object Detectionモデルで画像内の人物を探す ② 見つかった人物をそれぞれ…

2019-07-18

WindowsでPyTorchの「Image Captioning」を試してみる

PyTorch Image Captioning

github.com 環境 PyTorchのインストールコードとモデルのダウンロードコードの書き換え実行結果学習環境 Windows 10 Pro GPUなし Python 3.6.8（venv使用） PyTorchのインストール今回は古いPytorchをpipで導入する。非常に簡単。 pip install http:…