Source

Why Video Gen Is an Infra Problem — 视频生成的下一道坎不是单个模型

这篇 NVIDIA 博客的主张很直接:视频生成正在从“模型能不能生成漂亮 demo”转向“系统能不能稳定、低延迟、低成本地生成长视频”。如果只看 denoiser FPS,会漏掉真正影响用户体验的部分:长时记忆、KV cache、VAE 解码、低精度推理、跨 GPU 并行、调度和端到端延迟。LongLive 2.0 被作者用作案例,说明视频生成需要训练和推理一起设计。

背景铺垫

问题是什么

核心想法

能力问题

Can it generate?
看什么
单个漂亮样本、画质、运动感
典型阶段
短片 demo 和模型能力展示
进入真实使用

复杂度问题

Can it stay useful?
看什么
长时一致性、可控性、低延迟
核心挑战
记忆和错误会跨片段传播
系统化

基础设施问题

Can it deploy?
看什么
显存、吞吐、端到端延迟、成本
结果
模型和 runtime 共同决定体验

系统怎么拆

生成核心

denoiser / few-step generation
负责把噪声变成视频 latent,是模型能力的中心部分。

记忆核心

KV cache / attention sinks
负责保留跨片段上下文,让人物、场景和镜头连续。

交付核心

VAE / runtime / scheduler
负责把 latent 快速变成像素,并控制显存、同步和吞吐。

LongLive 2.0 这个案例

只优化单点

fast denoiser only
采样步数变少,但 VAE、KV cache、数据搬运或 GPU 同步可能接管尾延迟。

端到端协同

LongLive 2.0 style
训练、低精度、cache、dequantization、VAE 解码和并行布局一起设计。

新意在哪里

局限与开放问题

影响