【Image2Video】Diffusers に新たに実装された I2VGenXL で動画を作成してみる

動画生成 Image2Video

github.com はじめに「I2VGenXL」は以前からあるモデルです。Diffusersが v0.26.0 にアップデートされて「I2VGenXL」が実装されました。入力画像は1280x720（16:9）の画像なので比較的大きい動画が作れます。（しかし、なぜか作成された動画は1280x704にな…

#I2VGenXL

2024-02-02

東工大と産総研の研究チームが公開している大規模言語モデル「Swallow」にことわざの意味を聞いてみた

自然言語処理

huggingface.co はじめにパラメータ数が70億パラメータ（7B）、130億パラメータ（13B）、700億パラメータ（70B）の3モデルがあるようです。さらにそれぞれにbaseモデルとinstructモデルが存在します。instructモデルはチャットのように質問に対して答えを返…

#Swallow

2024-02-02

Stability AI が公開している「Japanese InstructBLIP Alpha」を使って日本語で写真の説明をしてもらう

Image Captioning 自然言語処理

huggingface.co はじめに以前BLIP, BLIP2を使った経験があります。 touch-sp.hatenablog.com touch-sp.hatenablog.com 「Japanese InstructBLIP Alpha」は名前から分かる通り日本語が使えます。質問にも答えてくれました。用意した画像以前と同様、こちらの…

#BLIP

2024-02-02

軽量にもかかわらず強力と噂の「imp-v1-3b」で写真の説明をしてらう（残念ながら英語です）

Image Captioning 自然言語処理

huggingface.co 用意した画像ぱくたそからこちらの画像を使わせて頂きました。 www.pakutaso.com 結果「Describe the person in the image」（画像の人物を説明して下さい）と投げかけた時の答えです。 The person in the image is a young woman wearing a …

2024-02-02

リクルート社が発表した「japanese-clip-vit-b-32-roberta-base」を使って日本語で画像検索をする

画像分類自然言語処理

前回に引き続きリクルート社が発表した「japanese-clip-vit-b-32-roberta-base」を使っていきます。 touch-sp.hatenablog.com 今回は日本語での画像検索に挑戦しました。 1年以上前にOpenAIのCLIPを使って同じことをした経験があります。 touch-sp.hatenablo…

#CLIP

パソコン関連もろもろ

2024-02-02から1日間の記事一覧

【Image2Video】Diffusers に新たに実装された I2VGenXL で動画を作成してみる

東工大と産総研の研究チームが公開している大規模言語モデル「Swallow」にことわざの意味を聞いてみた

Stability AI が公開している「Japanese InstructBLIP Alpha」を使って日本語で写真の説明をしてもらう

軽量にもかかわらず強力と噂の「imp-v1-3b」で写真の説明をしてらう（残念ながら英語です）

リクルート社が発表した「japanese-clip-vit-b-32-roberta-base」を使って日本語で画像検索をする