自动驾驶汽车在路口面对一个正在犹豫是变化量否过马路的行人时,它必须在零点几秒内预判这个行人接下来会往哪个方向走。亚马因霍这不是逊埃学联一道有唯一正确答案的题目,行人可能向左、温理向右、工大个驻足,手用视频甚至折返。重新面对这种生来就充满不确定性的定义未来,一个智能系统需要同时考虑多种可能性,变化量才能做出真正安全的亚马因霍决策。这个看似简单的逊埃学联场景,恰恰触碰了当代视频人工智能最核心的温理难题:如何高效、真实地生成多种可能的工大个未来?
现有的AI视频预测系统大致分为两个门派。一派叫"判别式"系统,手用视频它就像一个只能给出一个标准答案的重新老师,总是预测最可能发生的那一种未来。当未来存在多种可能时,它会把所有可能性平均一下,给出一个模糊的、哪个都不完全符合的中间答案——就像问你"今天中午想吃什么",它永远回答"米饭和面条的平均值"。另一派叫"生成式"系统,它能给出多种不同的预测,更接近真实世界的不确定性,但代价是计算量极其庞大,动辄需要数十亿参数的巨型模型,还要反复运行多次才能生成一个预测结果。
研究团队在审视这两个门派时,敏锐地发现了一个关键问题:视频里相邻两帧之间,绝大部分内容其实没有发生任何变化。天空还是那片天空,马路还是那条马路,背景里的建筑物一动不动。真正发生变化的,只是场景中极小的一部分。传统的视频AI却对每一帧都完整地重新描述一遍,就像每次打电话给朋友,不管之前说过什么,都要从头自我介绍一样,既浪费时间又低效。
正是带着这个洞察,研究团队提出了两个核心发明:一个叫DeltaTok的"变化量压缩器",以及一个建立在它之上的视频世界模型DeltaWorld。整套系统的核心逻辑只有一句话——与其描述整个世界,不如只记录世界发生了什么变化。
一、视频预测的底层困境:为什么"平均答案"是个陷阱
为了真正理解这项研究解决的是什么问题,不妨把视频预测的处境想象成一位天气预报员。判别式预报员每次都说"明天气温22度",即便实际情况是有50%概率是15度的暴风雨、50%概率是29度的大晴天,他给出的22度预测在哪种情况下都是错的。生成式预报员能同时给出"可能暴风雨"和"可能大晴天"两套预报,这才是对不确定未来负责任的态度。
判别式世界模型的数学原理印证了这一点。当一个模型被要求预测不确定的未来,而训练目标又要求它给出尽可能接近真实情况的单一答案时,数学上的最优解会让它自动收敛到所有可能未来的平均值。这个平均值看起来"不算太错",却对真正的决策毫无用处——它既不是任何一种真实的未来,也无法帮助自动驾驶系统区分行人会向左还是向右。
生成式模型能解决这个问题,但它带来了另一重麻烦。以目前最先进的生成式视频模型Cosmos为例,它有40亿到120亿个参数,需要另一个70亿参数的解码器配合,光是生成20个候选未来就要消耗6万到6.4万万亿次浮点运算(TFLOPs)。这个计算量相当于同时运行成百上千台普通家用电脑。更麻烦的是,这类模型通常需要多次迭代去噪才能生成一个预测,每次预测都是一趟漫长的旅途。
研究团队设定的目标因此变得清晰:打造一个生成式系统,让它既能提供多种可能的未来预测,又把计算成本压缩到前所未有的低水平。
二、视觉基础模型的特征空间:为什么不在像素上"绣花"
在进入核心技术之前,研究团队先做了一个关键的路线选择:不在像素层面预测未来,而是在"视觉基础模型"的特征空间里工作。
所谓视觉基础模型,可以理解为一个见过海量图片、学会了用抽象概念理解世界的AI眼睛。它看到一张街道图片,不会记住每个像素的颜色值,而是理解"这里有辆车"、"那里有棵树"、"地面是湿的"。这种理解方式更接近人类大脑的工作方式,也更适合支撑下游的决策任务。
研究团队选择的具体工具是DINOv3,一种自监督训练的视觉基础模型。在这个模型眼里,每一帧图像不是一堆像素,而是一个由语义特征组成的网格,每个小方格对应图像的一个局部区域,携带着丰富的语义信息。
在这个特征空间里工作有两个明显优势。第一,不需要渲染树叶的纹理或者建筑墙面的砖缝——这些对决策没有帮助的细节被自然过滤掉了,系统只需要关注对未来行动真正重要的语义内容。第二,研究人员发现,在这个特征空间里预测未来,比在像素空间里预测要容易得多,因此可以使用参数量少得多的轻量级模型。他们的基础架构来自DINO-world,一个此前已证明"在特征空间预测未来"这条路线有效的判别式系统,而这篇论文的核心工作,就是把它改造成生成式系统,并大幅提升效率。
三、三步进化:从单一答案到多元未来的蜕变之路
研究团队用一套精心设计的递进实验,展示了他们如何一步步把一个判别式系统改造成高效的生成式系统。每一步都有清晰的改变和量化的效果,读者可以跟着这条进化路径,理解每个技术决策背后的逻辑。
第一步,把判别式系统改造成生成式系统。研究团队引入了一种叫做"最优多假设训练"(Best-of-Many,简称BoM)的训练方法。具体来说,每次训练时,系统不再预测单一答案,而是同时生成K个不同的预测,每个预测源自一个不同的随机噪声输入——就像同时发出K个侦探去调查同一个案件,每个侦探的思路略有不同,得出的结论也各异。训练时只让最接近真实情况的那个预测"受到奖励",其余的不受惩罚也不被优化。这个机制随着时间推移,会让不同的随机输入自然地学会生成不同风格的未来,而不是都朝着同一个方向靠拢。
这一步的效果立竿见影。在语义分割的指标(mIoU,数值越高代表预测越准确)上,预测出的最优结果明显好于判别式基线。然而,均值指标却大幅下降——许多预测样本退化成了整帧画面只有一种语义类别的荒谬结果,就像侦探失去了推理能力,随便猜了一个答案。更糟糕的是,生成16个候选预测就让训练时间增加了约5倍,计算代价高得惊人。
第二步,引入帧压缩。问题的根源在于,每生成一个候选预测,系统就必须输出整帧图像对应的全部特征网格(在256×256的图像尺寸下,这是256个特征向量)。研究团队的解决思路是:用一个专门训练的编码器,把一整帧的特征网格压缩成单一的一个"帧令牌"(frame token),再用一个解码器把它还原回来。这样,系统就不再需要为每个候选预测输出256个向量,而是只输出1个向量,计算量暴降。
这一步确实大幅提升了效率,训练时间降到了判别式基线的40%,内存占用降到了20%。均值指标也有所回升,因为解码器在还原特征网格时具有一定的"整形"能力,阻止了那些退化成单一色块的荒谬预测。然而,把整帧图像的所有信息塞进单一一个向量,容量终究是有限的,预测精度仍然明显低于判别式基线。这个瓶颈有一个清晰的内在逻辑:一个帧令牌需要记住整个场景的所有细节,自然无法精确捕捉帧与帧之间细微的变化。
第三步,引入变化量压缩,诞生DeltaWorld。这一步是整篇论文最核心的创新。研究团队的顿悟是:既然相邻两帧之间大部分内容都没变,为什么要每次都把整帧画面重新压缩一遍?只压缩"变化了什么"不就够了吗?
这正是DeltaTok(变化量压缩器)的设计理念。它的编码器同时接收前一帧和当前帧的特征网格,只产出一个"变化量令牌"(delta token),记录的是"从前一帧到当前帧,场景发生了哪些变化"。解码器在还原当前帧时,以前一帧的特征为基础,只需读取这个变化量令牌,就能推算出当前帧应有的特征。
这个设计的妙处在于,变化量信息比整帧信息要简单得多,单一向量能更准确地表达它。当场景几乎静止时,变化量接近零,令牌携带的信息极少,解码器只需轻微调整前一帧就能得到当前帧。当场景发生大幅变化时,令牌携带更多信息,指导解码器做更大的变换。整个过程有一个天然的"默认行为"——如果模型什么都不预测,就等于预测"没有变化",而"没有变化"意味着直接延续前一帧,这本身就是一个合理的预测。这个默认行为帮助系统避免了之前出现的退化预测问题。
从数据上看,引入变化量压缩后,最优预测和均值预测都大幅提升。在Cityscapes(城市街道数据集)的中期预测指标上,均值从42.7跃升至48.7,最优从35.5跃升至45.5。尤其值得注意的是,均值指标几乎完全恢复到了原始判别式系统的水平,这意味着生成的多个候选未来整体上都是合理的、真实可信的,而不是随机的噪音。
四、DeltaTok的技术内核:一个向量如何承载两帧之差
DeltaTok的具体实现,在技术上采用了基于视觉Transformer(ViT)的自动编码器架构,但对细节有针对性的优化。编码器接收前一帧特征网格和当前帧特征网格,外加一个可学习的"初始化嵌入向量",通过多层注意力机制,把两帧的信息提炼成单一的变化量向量。编码器在处理时,会给每个输入令牌额外附加一个标记,告诉系统"这是上一帧的信息"还是"这是当前帧的信息",帮助模型明确区分两帧内容。
解码器则相反:接收前一帧特征网格和变化量令牌,输出重建的当前帧特征网格。为了让系统在初始化时表现稳定,研究团队使用了一种叫做"层缩放"(Layer Scale)的技术,让解码器在训练最初阶段近似一个恒等映射,也就是默认输出"不变化",再逐渐学习如何做出有意义的调整。
DeltaTok单独训练,目标是最小化重建误差——也就是让还原出的当前帧特征网格尽可能接近真实的特征网格。训练完成后,DeltaTok的参数被冻结,作为一个固定的组件嵌入到DeltaWorld中。
训练时使用的帧对,来自与预测器训练相同的时间采样策略:相邻两帧的时间间隔在1/25秒到1/3秒之间随机采样。这意味着变化量令牌既需要处理几乎静止的场景(帧间隔极短),也需要处理变化较大的场景(帧间隔较长),由此获得了较强的泛化能力。
五、DeltaWorld的完整架构:一条流水线,多种未来
把DeltaTok和最优多假设训练组合在一起,就得到了完整的DeltaWorld系统。
在处理一段视频时,DeltaWorld首先用DINOv3对每一帧提取特征网格,再用DeltaTok编码器把相邻帧之间的变化量压缩成单一向量,形成一条时间序列:每个时间步只对应一个变化量向量,而不是整个特征网格。这条序列从3D(空间×时间)的庞大张量,被压缩成了1D(纯时间)的紧凑序列。以512×512像素的输入为例,原本每帧需要1024个特征向量,现在只需1个,压缩比高达1024倍。
有一个小细节需要处理:第一帧没有"前一帧",所以系统在序列开头插入一帧全黑图像作为占位符,第一个变化量令牌因此实际上编码的是"从空白到第一帧"的变化,相当于直接编码了第一帧的绝对内容。
预测器是一个基于Transformer的序列模型,接收过去所有时间步的变化量向量序列,以及K个不同的随机噪声查询向量,一次性输出K个候选的下一时间步变化量向量。训练时,只有与真实变化量最接近的那个候选预测会被用于计算损失并反向传播更新参数。
在推理阶段,不同的随机噪声查询自然地产生不同的预测结果,就像K位拥有相同信息但思维方式略有不同的侦探,会给出K种不同的案件重建方案。把这K个变化量向量分别传入DeltaTok解码器,再结合前一帧的特征,就能还原出K个候选的未来帧特征网格,最终通过任务头(如语义分割头或深度估计头)得到K套可视化的未来预测。
整个推理过程只需一次前向传播,不需要反复迭代去噪,也不需要额外的自回归生成步骤。对于中期预测(约0.6秒后的未来),系统采用自回归展开:把预测出的变化量向量追加到上下文序列中,再预测下一步,重复三次,得到三步后的未来特征。
六、样本数量的魔力:越多候选,越接近真实
研究团队对"最优多假设训练"中的超参数K(训练时同时生成的候选数量)做了系统性的消融实验,结果揭示了一个非常有趣的规律。
训练时使用的候选数K越多,"最优预测"的得分就越高,而且这种提升没有出现明显的饱和迹象——哪怕K增大到1024,最优预测指标还在稳步提升。这意味着系统一直在学习生成更精确、更具体的未来预测,并没有遇到能力上限。直观理解是:K越大,系统需要在训练中覆盖更广泛的未来可能性,被迫学会生成更多样化的预测,每种预测因此也变得更加精准和有特色。
与此同时,"均值预测"(把K个候选的特征平均后做出预测)的得分随K增大而略微下降,但在K超过64之后趋于稳定。这表明更多的多样性并不会把均值预测推向荒谬——系统生成的那些多元未来,整体上依然是合理可信的,不会出现一个预测停车场、一个预测火星表面这样南辕北辙的情况。
最终在主实验中,研究团队选择K=256进行训练,推理时从20个样本中选取最优,在精度和效率之间取得了合适的平衡。
七、与巨型模型的正面对比:以一当千
在最终的性能评测中,研究团队在三个专业数据集上对DeltaWorld与现有系统进行了对比。评测覆盖语义分割(在VSPW通用视频数据集和Cityscapes城市驾驶数据集上测量mIoU指标)和深度估计(在KITTI驾驶数据集上测量RMSE指标),分别评估短期(约0.2秒后)和中期(约0.6秒后)预测能力。
对比的对象包括:DINO-world(判别式系统,只能给出单一预测),Cosmos-4B和Cosmos-12B(生成式系统,分别有40亿和120亿参数,另配70亿参数解码器),以及两个极端基线——"复制最后一帧"(把最近观测帧当成预测结果)和"完美预测"(直接使用真实未来帧)。
计算量的差距是最直观的:DeltaWorld生成20个候选预测只需3.1万GFLOPs,而Cosmos生成同样数量需要6万到6.4万万亿次运算,差距超过2000倍。参数量上,DeltaWorld约0.3亿参数,Cosmos则在40亿到120亿之间,差距超过35倍。
然而更令人印象深刻的是预测精度。在所有评测指标上,DeltaWorld的"最优预测"(从20个候选中选最好的)全面超越Cosmos,包括最大的那个Cosmos-12B变体。在中期Cityscapes分割指标上,DeltaWorld最优预测达到55.4,Cosmos-12B最优预测只有53.3;在短期Cityscapes上,DeltaWorld达到65.8,Cosmos-12B达到55.3,差距相当显著。在均值指标上,DeltaWorld也在绝大多数指标上领先或持平,说明它生成的多种未来整体上都是真实可信的,而不只是偶尔碰运气碰出一个好预测。
与判别式的DINO-world相比,DeltaWorld的均值预测在Cityscapes上略优,在VSPW和KITTI上略逊,这是可以接受的——毕竟判别式系统把全部精力集中在生成一个最好的预测,而DeltaWorld同时维护着多种可能性。而DeltaWorld的"最优预测"则全面超越DINO-world,证明在真正需要多元预测的场景下,DeltaWorld能覆盖到判别式系统永远无法触达的可能未来。
另一个有意义的观察是:DeltaWorld的最优预测和均值预测之间的差距,明显大于Cosmos。这说明DeltaWorld生成的多种未来之间有更实质性的差异,而Cosmos的多种预测往往大同小异,多样性其实相当有限。
八、变化量令牌的普适性:不只限于DeltaWorld
研究团队还验证了变化量令牌这一思路在其他架构中的可迁移性,结果颇有说服力。
在判别式的DINO-world中,把原本每帧256个特征向量替换成单一变化量令牌,性能几乎持平(VSPW下降0.2,Cityscapes提升1.5),而训练时间降至50%,内存占用降至20%。这说明变化量令牌并非DeltaWorld的"专属魔法",对于任何在VFM特征空间工作的视频预测系统都有潜在价值。
研究团队还在另一个完全不同的系统DINO-Foresight上做了验证。这个系统使用的是多层DINOv2特征经PCA降维后的高维特征,分辨率是448×896,原本需要10240个令牌来表达一段上下文序列。引入变化量压缩后,令牌数量降至5个(每帧1个),而预测精度却没有明显下降——语义分割指标从71.8/59.8提升至72.1/60.0,深度估计指标基本持平。从10240个令牌到5个令牌,压缩比超过2000倍,而精度没有损失,这个结果相当有力地支持了变化量令牌作为视频表示通用工具的价值。
九、局限与未来:诚实面对仍在路上的挑战
研究团队在论文中坦率地讨论了两个值得关注的局限性。
第一是概率分布建模的不完整性。最优多假设训练让系统能够生成多种不同的预测,但它缺乏一个明确的概率框架来告诉我们"每种未来发生的概率是多少"。不同于扩散模型(通过反复去噪来严格逼近目标概率分布),BoM只保证某些预测更接近真实,但不对整体概率分布做出保证。这意味着系统生成的多种未来,其相对可能性无法直接从预测结果中读出。从另一个角度看,不同的随机噪声查询产生不同的未来这一现象,暗示着噪声向量可能隐含了某种"行动指令"的语义,未来或许可以在此基础上构建明确的行动条件生成系统。
第二是误差累积问题。由于变化量令牌编码的是相对变化,还原绝对特征需要按时间步依次解码,前一步的误差会传递并叠加到后续步骤。在多步自回归展开时,这种误差传播可能导致预测特征随着时间步增加而逐渐偏离真实情况。研究团队提出了一种潜在的缓解策略:让编码器不使用真实的前一帧特征,而是使用解码器自身重建的前一帧特征作为输入,从而让系统适应自己产生的误差分布,而非只能处理无误差的真实输入。
说到底,这项研究用一个出人意料的简单原理——只记录变化,而不重复描述全貌——撬动了视频AI领域长期存在的计算效率与多样性预测两难困境。把每帧视频压缩成一个变化量向量,不只是一个工程上的聪明优化,更折射出一种对视频数据本质的深刻理解:时间上相邻的两帧之间,绝大多数信息是冗余的,真正携带"发生了什么"的信息,往往是微小的增量。
这套思路可能对未来的视频理解、视频生成、机器人导航和自动驾驶都有参考价值。当AI系统能够以极低的计算代价生成多种可信的未来预测时,它才能真正胜任那些需要应对不确定性的决策场景——而不是每次都给出一个"平均答案",在任何真实的未来面前都显得格格不入。
Q&A
Q1:DeltaTok和普通的视频压缩有什么本质区别?
A:普通视频压缩(比如H.264)虽然也利用帧间差异减少数据量,但它工作在像素层面,目的是重建人眼可见的画面。DeltaTok则工作在视觉基础模型的语义特征空间,压缩的不是像素差异,而是语义层面的变化,比如"场景中出现了新的行人"或者"车辆向右移动了"。更重要的是,DeltaTok把整帧的变化量压缩成单一一个向量,而不是逐像素记录运动信息。这让它天然适合处理遮挡、新物体出现等传统光流方法难以应对的情况。
Q2:DeltaWorld生成的多种未来预测,怎么判断哪个更可靠?
A:DeltaWorld本身不直接给出每种预测的置信度或概率。论文也坦承这是当前方法的一个局限——最优多假设训练没有明确的概率分布建模机制。在实际使用中,研究团队通过计算每个预测与真实结果在特征空间的距离来评估"最优预测",但这需要知道真实未来,只能用于事后评估。在真实部署场景中,可以结合下游任务的置信度或多个预测的一致性程度来判断可靠性,但这方面的研究尚待进一步探索。
Q3:DeltaWorld能用于自动驾驶的实时预测吗?
A:从计算量来看,DeltaWorld已经比现有生成式系统高效2000倍以上,生成20个候选未来只需3.1万GFLOPs,这在现代GPU上是完全可行的推理负担。但论文目前的评测是在学术数据集上进行的,针对的是语义分割和深度估计等感知任务,而非端到端的驾驶决策。真正落地到自动驾驶系统还需要解决实时性优化、与规划模块的接口设计、以及在极端场景下的鲁棒性等工程问题。研究团队也提到,这套框架为未来扩展预测器规模、延长上下文窗口和增加展开步骤打下了基础。