【zeroscope_v2_XL】【Diffusers】1024x576のビデオが作れるようになりました。ただしVRAMは15GB使用します。

はじめに

「zeroscope_v2_XL」というモデルを使用すると低解像度のビデオを1024x576のサイズにアップスケーリング可能です。

Pythonスクリプト

import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video
from PIL import Image

pipe = DiffusionPipeline.from_pretrained("cerspense/zeroscope_v2_576w", torch_dtype=torch.float16)
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe.enable_model_cpu_offload()
pipe.enable_vae_slicing()

prompt = "Darth Vader surfing a wave"
video_frames = pipe(prompt, width=576, height=320, num_frames=24).frames
export_to_video(video_frames, output_video_path="result1.mp4")

pipe = DiffusionPipeline.from_pretrained("cerspense/zeroscope_v2_XL", torch_dtype=torch.float16)
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe.enable_model_cpu_offload()
pipe.vae.enable_slicing()

video = [Image.fromarray(frame).resize((1024, 576)) for frame in video_frames]

video_frames = pipe(prompt, video=video, strength=0.6).frames
export_to_video(video_frames, output_video_path="result2.mp4")

前半部分で低解像度のビデオを作成し、後半部分でアップスケーリングしています。

同じプロンプトを使用するのがポイントです。

VRAM使用量

16GBのVRAM搭載のRTX 3080 Laptopで動作可能でした。

15GB以上のVRAMを使用したので12GBのVRAMでは動作しないと思います。


このエントリーをはてなブックマークに追加