2026/1/12 4:22:07
网站建设
项目流程
怎么给公司做网站,dede阿里百秀网站源码,表格制作软件app,一些设计网站超越Wan-2.1 和 MatrixGame#xff01;Yume1.5#xff1a;交互式世界生成模型#xff0c;单卡12 FPS 实时交互渲染
原创 AI生成未来 AI生成未来 2025年12月30日 09:12 上海
作者#xff1a;Xiaofeng Mao等
解读#xff1a;AI生成未来 论文链接#xff1a;https://ar…超越Wan-2.1 和 MatrixGameYume1.5交互式世界生成模型单卡12 FPS 实时交互渲染原创 AI生成未来 AI生成未来2025年12月30日 09:12上海作者Xiaofeng Mao等解读AI生成未来论文链接https://arxiv.org/pdf/2512.22096开源代码https://github.com/stdstu12/YUME工程链接https://stdstu12.github.io/YUME-Project数据链接https://github.com/Lixsp11/sekai-codebase亮点直击联合时空通道建模TSCM用于无限上下文生成尽管上下文长度不断增加该方法仍能保持稳定的采样速度。将Self-Forcing 与 TSCM 集成旨在加速 Yume1.5的推理过程同时减少长序列生成中的误差累积。实现了卓越的生成与编辑性能通过精细的数据集构建和模型架构设计Yume1.5 在世界生成World Generation和编辑Editing任务上均取得了优异的表现。解决的问题现有的视频生成和世界模拟模型主要面临三大挑战通用性有限大多基于游戏数据训练难以生成逼真的动态城市场景。生成延迟高扩散模型的高计算成本限制了实时连续生成难以实现流畅的无限探索。文本控制能力不足现有方法通常仅支持键盘/鼠标控制缺乏通过文本指令生成随机事件如“出现幽灵”的能力。提出的方案Yume1.5 通过三个核心维度的系统优化来解决上述问题长视频生成架构采用联合时空通道建模TSCM有效压缩历史上下文。实时加速策略结合双向注意力蒸馏Self-Forcing与增强的文本嵌入方案大幅提升推理速度并减少误差积累。文本控制事件生成通过混合数据集训练策略和特定的架构设计实现了基于文本的事件触发。应用的技术联合时空通道建模 (TSCM)针对长视频生成分别在时空维度和通道维度对历史帧进行压缩减少显存占用并保持推理速度。线性注意力 (Linear Attention)在 DiT 块中处理通道压缩后的特征提升计算效率。Self-Forcing 蒸馏训练模型使用自己生成的含误差的历史帧作为条件进行预测从而提高对推理过程中误差累积的鲁棒性。双流文本编码将文本提示分解为“事件描述”和“动作描述”分别处理以降低计算开销。达到的效果性能提升在 Yume-Bench 基准测试中指令跟随能力Instruction Following得分达到0.836显著优于 Wan-2.1 和 MatrixGame。实时性在单张 A100 GPU 上以 540p 分辨率实现了12 FPS的生成速度。长时一致性通过 TSCM 和 Self-Forcing模型在长序列生成中保持了更稳定的美学质量和图像质量避免了传统滑动窗口方法的剧烈衰减。方法本文提出了一个综合框架通过多维度的系统性创新生成交互式、逼真且时间连贯的视频世界。该方法为联合文本生成视频Text-to-Video, T2V和图像生成视频Image-to-Video, I2V建立了统一的基础同时解决了长期一致性和实时性能的关键挑战。核心贡献包括1用于高效长视频生成的联合 TSCM 策略2结合 TSCM 和 Self-Forcing 的实时加速框架3一种交替训练范式同时实现世界生成和探索能力。总的来说这些进展促进了适用于复杂现实场景探索的动态交互式环境的创建。图1。Yume1.5框架支持三种交互式生成模式从描述生成文本到世界、从静态图像生成到世界以及基于文本的事件编辑。所有模式均通过连续键盘输入控制用于人物和摄像机移动实现自回归生成可探索且持久的虚拟世界。我们在补充材料中包含了演示视频。架构初步本文采用 Wan提出的方法论建立了一个用于联合 T2V 和 I2V 生成的基础模型。该方法使用噪声 初始化视频生成过程。对于文本生成视频训练文本嵌入 和 被输入到 DiT 主干网络中。对于图像生成视频模型给定图像或视频条件 将其补零以匹配维度 。构建一个二进制掩码 其中 1 表示保留区域0 表示待生成区域。条件输入通过 进行融合随后由 Wan DiT 主干网络处理。此时 可以被视为由历史帧 和预测帧 组成。本文的文本编码策略不同于 Wan 的方法。Wan 直接通过 T5 处理整个标题而本文如图 3(b) 所示将标题分解为事件描述 (Event Description)和 动作描述 (Action Description)并将它们分别输入 T5。随后将得到的嵌入表示进行拼接。事件描述指定要生成的目标场景或事件而动作描述定义键盘和鼠标控制。这种方法具有显著优势由于可能的动作描述集合是有限的它们可以被高效地预计算和缓存。同时事件描述仅在初始生成阶段处理。结果是该方法大幅降低了后续视频推理步骤中的 T5 计算开销。模型使用 Rectified Flow 损失进行训练。图 3.Yume1.5 的核心组件。 (a) 具有线性注意力的 DiT 块可实现有效的特征融合。 (b) 具有分解的事件和动作描述的训练管道。 (c) 基于时间距离以不同压缩率进行自适应历史标记下采样。 (d) 具有双压缩内存管理的基于块的自回归推理。通过联合时空通道建模 (TSCM) 实现长视频生成鉴于视频推理持续时间的延长视频条件 的帧数 逐渐增加导致巨大的计算开销。将所有上下文帧包含在计算中是不切实际的。现有的几种方法旨在缓解这个问题滑动窗口一种广泛采用的方法选择当前预测帧附近的窗口内的连续最近帧。然而这种方法往往导致历史帧信息的丢失。历史帧压缩诸如 FramePack和 Yume等方法对历史帧进行压缩对接近预测帧的帧应用较少的压缩对较远的帧应用较大的压缩。这同样导致更远的历史帧信息丢失增加。基于相机轨迹的搜索像 World Memory这样的方法利用已知的相机轨迹来计算历史帧与待预测当前帧之间的视场重叠选择重叠度最高的帧。这种方法与通过键盘输入控制的视频模型不兼容。即使有预测的相机轨迹在动态视点变化下准确估计轨迹仍然很困难通常会导致显著误差。为了解决这些局限性本文提出了联合时空-通道建模 (Joint Temporal–Spatial–Channel Modeling)方法分两步实施。本文考虑分别对历史帧 应用时空压缩和通道级压缩。时空压缩对于历史帧 本文首先应用时间和空间压缩以 1/32 的比率执行随机帧采样随后使用高压缩比的 Patchify。压缩方案运作如下在此 表示分别沿 的时间、高度和宽度维度进行 、 和 的下采样。类似地 对应于沿相同维度的 、 和 下采样率依此类推。本文通过在 DiT 内部插值 Patchify 权重来实现这些变化的下采样率。与 YUME 相比本文执行时间随机帧采样的方法减少了 Patchify 的参数量和模型的计算负载。本文获得压缩表示 并通过具有 下采样率的原始 Patchify 处理预测帧。压缩表示 随后与处理后的预测帧 拼接组合后的张量被输入到 DiT 块中。通道压缩本文对历史帧 应用进一步的下采样将 通过一个压缩率为 的 Patchify并将通道维度降至 96得到 。如图 3(a) 所示这些压缩的历史 Token 被输入到 DiT 块中。在视频 Token 通过 DiT 块中的交叉注意力层后它们首先通过全连接 (FC) 层进行通道缩减在提取预测帧 后将其与 拼接。组合后的 Token 通过线性注意力层融合产生 。最后通过另一个 FC 层以恢复通道维度然后逐元素加到 上进行特征融合其中 表示 中的 Token 数量。线性注意力。本文的设计如图 3(a) 所示。该方法从线性注意力中汲取灵感易于实现。本文通过全连接层投影 以获得查询 、键 和值 表示然后用点积 替换指数核函数 其中 是 ReLU 激活函数。计算定义如下其中 表示 中的 Token 数量。然后本文计算 随后将 ROPE 应用于 和 同时结合归一化层 以防止梯度不稳定。通常注意力输出 会通过线性层因此本文在此计算之前应用归一化层小结。由于标准注意力的计算成本对输入 Token 的数量敏感通过时空压缩来压缩历史帧并在 DiT 块中使用标准注意力将其与预测帧一起处理。相反由于线性注意力对通道维度敏感对历史帧应用通道级压缩并在 DiT 块的线性注意力层中将其与预测帧融合。通过这种方法本文实现了联合时空通道压缩同时保持了生成质量。实时加速本文首先在混合数据集上训练预训练的扩散模型。本文对 T2V 和 I2V 任务采用交替训练策略。具体来说模型在当前步骤在 T2V 数据集上训练在下一步切换到 I2V 数据集。这种方法使模型具备了世界生成、编辑和探索的综合能力。由此产生的模型称为基础模型。如图 4 所示本文首先使用基础模型的权重初始化生成器 、假模型 和真模型 。生成器从其自身的分布中采样先前的帧并将其用作生成新预测帧的上下文。这个过程迭代进行按顺序生成并组装帧以形成清晰的视频序列 。然后本文通过最小化跨噪声水平 的扩散真实数据分布与生成数据分布之间的预期 KL 散度将多步扩散模型转换为少步生成器 其中 是步骤 的前向扩散。与DMD 的关键区别在于使用模型预测的数据而不是真实数据作为视频条件从而减轻了训练-推理差异及相关的误差累积。本文的方法与Self-Forcing 的不同之处在于消除了 KV 缓存并引入了 时空通道建模 (TSCM)从而能够利用更长的上下文信息。实验实验设置基础模型使用 Wan2.2-5B 作为预训练模型。训练参数分辨率 704x128016 FPS使用 NVIDIA A100 GPU。先进行 10,000 次迭代的基础训练再进行 600 次迭代的 Self-Forcing TSCM 训练。评估指标使用 Yume-Bench包含指令跟随Instruction Following、主体/背景一致性、运动平滑度、美学质量和成像质量。定量结果I2V 生成对比Yume1.5 在指令跟随能力上得分0.836远超 Yume (0.657)、MatrixGame (0.271) 和 Wan-2.1 (0.057)。推理速度极快生成一个 block 仅需 8 秒而 Wan-2.1 需 611 秒。长视频生成验证对比了是否使用 Self-Forcing TSCM 的模型。结果显示随着视频片段数量增加时间推移使用该技术的模型在第 4-6 个片段的美学得分和图像质量得分保持稳定而未使用的模型则出现明显下降。消融研究TSCM 的有效性移除 TSCM 改用简单的空间压缩后指令跟随能力从 0.836 降至 0.767。此外TSCM 使得自回归推理时间随上下文增加保持稳定在 8 个 block 后每步推理时间恒定而全上下文输入方法的速度则急剧下降。结论Yume1.5这是一个交互式世界生成模型能够通过自回归合成从单张输入图像生成无限视频同时支持直观的基于键盘的相机控制。本文的框架解决了动态世界生成中的三个基本挑战跨领域的通用性有限、高计算延迟以及文本控制能力不足。Yume1.5 的关键创新包括1一种联合时空通道建模 (TSCM) 方法在保持时间连贯性的同时实现高效的长视频生成2一种减轻推理过程中误差累积的加速方法3通过精心的架构设计和混合数据集训练实现的文本控制世界事件生成能力。展望将 Yume1.5 扩展以支持更复杂的世界交互并在虚拟环境和模拟系统中拥有更广泛的应用场景。参考文献[1] Yume1.5: A Text-Controlled Interactive World Generation Model