【Text2Video-Zero】【Diffusers】Text2Video-ZeroのVRAM使用量を減らしたい

最終更新日:2023年6月14日
DiffusionのText2Video-ZeroがTorch2.0用にアップデートされました。
VRAM使用量が改善したようなので記事を更新しました。
github.com

前回記事

touch-sp.hatenablog.com

結果

640x640の動画で試しました。chunk=2で固定しています。

何もなし

11.8GBのVRAMを使用しています。

main took 1034.8281753063202 seconds

以前は14.3GBでした。
2023年6月のアップデートでVRAM使用量が14.3→11.8GBに減少しています。
アップデート後も処理速度にはあまり変化がないようです。

enable_sequential_cpu_offload()

メモリ消費の削減には最も効果的のように見えますが速度がかなり犠牲になります。

11.8→9.1GBに使用量を減らすことができています。




ただし、自分に環境ではかかる時間が1035秒から1907秒に延びています。

main took 1906.9876441955566 seconds



さらに「enable_vae_slicing()」を合わせてみましたがそれは効果ありませんでした。

enable_model_cpu_offload()

11.8→11.4GBに使用量を減らすことができています。



ただし、自分に環境ではかかる時間が1035秒から1129秒に延びています。

main took 1129.2831728458405 seconds

enable_attention_slicing()

結果が芳しくありませんでした。
作成動画のフレーム間での統一性に欠けます。

このあたりで議論されていますが解決には至っていないようです。
github.com

enable_xformers_memory_efficient_attention()

上記同様に結果が芳しくありませんでした。