【Diffusers】Kandinsky 5.0 T2I Lite を使ってみる(他のモデルと比べてみました)

はじめに

最近、新しい画像生成AIが次々と出てきます。

その中の一つ、「Kandinsky 5.0 T2I Lite」を使ってみました。

結果

Z Image TruboやChromaやOvis-Imageと比較してみました。

Kandinsky 5.0 T2I Liteの結果

「Huggingface」が「Hugingfacge」になっています。

「g」の場所が変わってしまっています。

Ovis-Imageの結果

こちらの記事を見て下さい。

Z Image Turboの結果

こちらの記事を見て下さい。

Chromaの結果

こちらの記事を見て下さい。

Pythonスクリプト

import torch
from diffusers import Kandinsky5T2IPipeline

model_id = "kandinskylab/Kandinsky-5.0-T2I-Lite-sft-Diffusers"

pipe = Kandinsky5T2IPipeline.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16
)

pipe.to("cuda")
pipe.enable_model_cpu_offload()

prompt = 'Ultra-realistic, high-quality photo of an anthropomorphic capybara with a tough, streetwise attitude, wearing a worn black leather jacket, dark sunglasses, and ripped jeans. The capybara is leaning casually against a gritty urban wall covered in vibrant graffiti. Behind it, in bold, dripping yellow spray paint, the word "HuggingFace" is scrawled in large street-art style letters. The scene is set in a dimly lit alleyway with moody lighting, scattered trash, and an edgy, rebellious vibe — like a character straight out of an underground comic book.'

output = pipe(
    prompt=prompt,
    negative_prompt="",
    height=1024,
    width=1024,
    num_inference_steps=50,
    guidance_scale=3.5,
).image[0]

output.save("result.jpg")

環境構築

pyproject.tomlを載せておきます。 (バージョンはあえて固定しています)

uvを使うとuv syncだけで環境構築できると思います。

[project]
name = "kandinsky"
version = "0.1.0"
description = "Add your description here"
readme = "README.md"
requires-python = ">=3.13"
dependencies = [
    "accelerate==1.12.0",
    "diffusers==0.36.0",
    "hf-xet==1.2.0",
    "torch==2.9.1+cu126",
    "torchvision==0.24.1+cu126",
    "transformers==4.57.3",
]

[[tool.uv.index]]
name = "torch-cuda"
url = "https://download.pytorch.org/whl/cu126"
explicit = true

[tool.uv.sources]
torch = [{ index = "torch-cuda" }]
torchvision = [{ index = "torch-cuda" }]