はじめに
前回pix2pix-zero(Zero-shot Image-to-Image Translation)に関する記事を書きました。touch-sp.hatenablog.com
画像内のオブジェクトを変換する過程でいったん元画像のpromptを自動生成していることに気が付きました。
pix2pix-zero内部ではBLIPモデルというのを使用してpromptを生成しているようです。
この部分だけ使えばImage Captioningとして使えるのではと思いさっそく試してみました。
Image Captioningに関しては以前「Versatile-Diffusion」で試しましたがうまくいかなかったです。
touch-sp.hatenablog.com
実行
python src/inversion.py ^ --input_image "assets/test_images/children.jpg" ^ --results_folder "output"
結果
a couple of kids sitting next to each other
「星」とか「指差している」とかは表現されませんでした。
しかし「Versatile-Diffusion」の時よりはうまくいっています。