pix2pix-zero（Zero-shot Image-to-Image Translation）は指定した画像に対するpromptを自動で作成します。それってImage Captioningに使えるかも。

はじめに

前回pix2pix-zero（Zero-shot Image-to-Image Translation）に関する記事を書きました。
touch-sp.hatenablog.com
画像内のオブジェクトを変換する過程でいったん元画像のpromptを自動生成していることに気が付きました。

pix2pix-zero内部ではBLIPモデルというのを使用してpromptを生成しているようです。

この部分だけ使えばImage Captioningとして使えるのではと思いさっそく試してみました。

Image Captioningに関しては以前「Versatile-Diffusion」で試しましたがうまくいかなかったです。
touch-sp.hatenablog.com

実行

python src/inversion.py  ^
        --input_image "assets/test_images/children.jpg" ^
        --results_folder "output"

結果

a couple of kids sitting next to each other

「星」とか「指差している」とかは表現されませんでした。

しかし「Versatile-Diffusion」の時よりはうまくいっています。