网站静态化的好处门户网站自查报告
2026/1/1 21:18:16 网站建设 项目流程
网站静态化的好处,门户网站自查报告,加拿大网站后缀,容桂免费网站建设公司允中 整理自 凹非寺量子位 | 公众号 QbitAI不仅能“听懂”物体的颜色纹理#xff0c;还能“理解”深度图、人体姿态、运动轨迹……统一多模态多任务的视频生成模型来了。来自港科大、港中文、清华大学和快手可灵的研究团队#xff0c;最近提出了一个全新视觉框架——UnityVid…允中 整理自 凹非寺量子位 | 公众号 QbitAI不仅能“听懂”物体的颜色纹理还能“理解”深度图、人体姿态、运动轨迹……统一多模态多任务的视频生成模型来了。来自港科大、港中文、清华大学和快手可灵的研究团队最近提出了一个全新视觉框架——UnityVideo。它通过统一训练多种视觉模态如深度图、光流、骨骼、分割掩码等让模型更懂物理世界规律生成的视频更真实、更可控。不仅模型生成质量更高它还实现了零样本泛化对于从未见过的物体或场景也能生成合理结果。下面是更多详细内容。从文本大模型到视觉大模型当回顾大语言模型(LLMs)的发展历程时会发现一个有趣的现象GPT、Claude等模型之所以拥有强大的泛化和推理能力很大程度上得益于它们统一训练了多种文本子模态——自然语言、代码、数学表达式等。这种多模态统一训练使模型能够在不同领域之间进行知识迁移从而涌现出惊人的推理能力。那么视觉领域是否也存在同样的机会现有的视频生成模型虽然在合成质量上取得了令人瞩目的进步但大多数模型仍然局限于单一的RGB视频学习——就像只用纯文本训练语言模型一样这限制了模型对物理世界的全面理解。但如果想象一下一个模型不仅能看到物体的颜色和纹理还能同时理解其深度、运动轨迹、身体姿态、物体分割等多维度信息它对世界的理解也许会更加深刻。而这正是港科大、港中文、清华大学和快手可灵团队联合提出UnityVideo的核心动机。UnityVideo的核心观察来自一个简单但深刻的实验当模型同时学习多种视觉模态时它在RGB视频生成任务上的收敛速度显著加快最终性能也明显提升。如图所示与单独训练RGB视频或单模态联合训练相比统一多模态多任务训练能够更快达到更低的最终损失而这一现象并非偶然——不同的视觉模态提供了互补的监督信号实例分割帮助模型区分不同类别的物体。DensePose让模型理解人体的部位结构。骨架信息编码精细的运动模式。深度图揭示场景的三维几何结构。光流捕捉像素级的运动信息。当这些模态信息在同一个模型中联合学习时它们之间会产生相互促进的效果模型不再是简单地拟合数据分布而是真正开始“理解”物理世界的运作规律。通过联合优化UnityVideo能在多个任务上取得显著的性能提升。更令人惊喜的是模型展现出强大的零样本泛化能力仅在单人数据上训练就能泛化到多人场景在人体骨架数据上训练后能泛化到动物骨架估计在特定物体上训练的深度估计和分割能力也能泛化到未见过的物体和场景。这种简单的统一训练范式带来了很大的性能改进。此外研究团队还发现统一训练能够增强模型对物理世界的理解能力比如在光的折射、物体运动等物理现象的建模上表现更好。UnityVideo的技术创新具体来说UnityVideo在以下三个方面实现了技术创新动态任务路由三种训练范式的无缝统一传统视频生成模型通常针对单一任务进行训练比如文本生成视频或者深度条件下的可控生成。UnityVideo则突破了这一限制在单个架构中同时支持三种训练范式条件生成从辅助模态(如深度图)生成RGB视频。模态估计从RGB视频估计辅助模态。联合生成从文本同时生成RGB视频和辅助模态。关键的技术突破在于动态噪声调度策略在每个训练迭代中模型会根据预设的概率随机选择一种训练模式并对相应的token施加不同的噪声。这种动态切换机制避免了传统阶段式训练中的灾难性遗忘问题使三种训练目标能够在同一个优化过程中和谐共存。更巧妙的是研究者根据不同任务的学习难度设置了不同的采样概率p_condp_estp_joint这确保了模型在训练过程中能够平衡各个任务的学习进度。模态切换器架构级别的模态区分要在一个模型中处理多种模态最大的挑战是如何让模型明确区分不同的模态信号。UnityVideo提出了两个互补的设计1、上下文学习器(In-Context Learner)通过为不同模态注入特定的文本提示(如“depth map”、“human skeleton”)让模型在语义层面理解当前处理的是哪种模态。这种设计带来了意想不到的泛化能力——例如模型在“two persons”上训练后可以自然地泛化到“two objects”的分割任务。2、模态自适应切换器(Modality-Adaptive Switcher)在架构层面为每种模态学习独立的调制参数。具体来说模型为每种模态维护一个可学习的嵌入列表这些嵌入会调制DiT块中的AdaLN-Zero参数(scale、shift、gate)。这种设计实现了即插即用的模态选择能力——在推理时只需切换模态嵌入就能让模型生成或估计不同的模态。渐进式课程学习策略直接从零开始训练所有模态往往会导致收敛缓慢和次优性能于是UnityVideo采用了两阶段课程学习策略第一阶段在精心筛选的单人场景数据上仅训练像素对齐的模态(光流、深度、DensePose)建立扎实的空间对应关系基础。第二阶段引入所有模态和多样化场景数据包括多人场景和通用场景使模型能够理解全部五种模态同时支持对未见模态组合的鲁棒零样本推理。数据集支撑统一训练为了支持这一统一训练范式研究团队构建了OpenUni数据集包含130万个多模态视频样本数据集精心设计涵盖370358个单人场景片段。97468个双人场景片段。489445个来自Koala36M的片段。343558个来自OpenS2V的片段。为了防止模型对特定数据集或模态过拟合训练时将每个batch划分为四个均衡的组确保所有模态和数据源的均匀采样。同时团队还构建了UniBench评估基准包含3万个样本其中200个高质量样本来自Unreal Engine渲染提供了ground truth深度和光流为公平、全面的评估提供了坚实基础。实验结果全方位的性能提升多任务性能对比在全面的定量对比中UnityVideo在文本生成视频、可控生成和模态估计三大类任务上都取得了优异的表现文本生成视频在所有指标上均获得最佳结果背景一致性达97.44%美学质量64.12%。可控生成在背景一致性、整体一致性和动态程度上表现卓越动态程度达到64.42%远超其他方法。模态估计在视频分割任务上mIoU达到68.82%在深度估计上Abs Rel仅为0.022显著优于专门的单任务模型。定性对比更强的物理推理能力定性结果更直观地展示了UnityVideo的优势(A) 物理现象理解相比先进的文本生成视频模型UnityVideo对物理定律有更准确的理解比如能够正确表现水中的光线折射现象。(B) 可控生成质量与其他可控生成方法相比UnityVideo不仅能更忠实地遵循深度引导还能保持整体视频质量避免了其他方法中常见的背景闪烁和主体扭曲问题。(C-D) 模态估计精度在深度和光流估计中UnityVideo产生更精细的边缘细节、更宽的视野和准确的3D点云得益于多模态的互补性。(E) 泛化能力模型展现出强大的推理能力能够准确地在未见过的数据上进行估计克服了其他专门模型的过拟合问题。消融实验1、多模态互补性验证实验表明联合训练不同模态能够带来明显的性能提升。相比单模态训练统一多模态训练在成像质量和整体一致性上获得了更大的增益证明了不同模态提供的互补监督信号能够相互增强。2、多任务训练的必要性单独训练可控生成任务甚至会导致性能下降但统一多任务训练能够恢复并超越这一性能。这证实了不同任务之间确实存在相互促进的协同效应。3、架构设计的有效性上下文学习器和模态切换器各自都能有效提升性能而结合使用时能获得额外的显著增益证实了它们在促进统一多模态学习中的互补作用。用户研究人类感知的胜利在用户研究中UnityVideo在物理质量、语义质量和整体偏好三个维度上均获得最高评分物理质量得分达到38.50%显著超过商业模型Kling1.6(10.15%)和HunyuanVideo(24.15%)。这说明统一训练带来的世界理解提升是人类可感知的。零样本泛化从”两个人”到”两个物体”一个令人惊喜的发现是上下文学习器赋予了模型强大的组合泛化能力。模型在“two persons”的分割任务上训练后能够自然地泛化到未见过的“two objects”场景。这种泛化不是简单的模式记忆而是真正理解了模态层面的语义。同时统一训练过程中随着模型逐渐学习更多模态(如深度)研究团队观察到RGB视频中的运动理解和语义响应都得到了改善再次证明了不同模态在训练过程中的互补作用。跨模态注意力的演化另外通过可视化自注意力图的演化研究者发现了有趣的现象随着联合训练的进行RGB和辅助模态之间的交互逐渐增强表明跨模态特征交换不断深化。模型学习到越来越丰富的几何表示文本遵循能力也不断提升。这种特征级的交互验证了统一框架不仅实现了技术整合更促进了有意义的跨模态知识迁移。UnityVideo的成功不仅仅是工程上的突破更重要的是验证了一个深刻的理念真正的世界理解需要多维度的感知整合。回想人类理解世界的方式不是单独处理视觉、听觉、触觉信息而是将它们整合成一个统一的世界模型。比如对于一个杯子既能看到它的颜色和形状(RGB)也能感知它的三维结构(深度)理解它在空间中的位置和运动(光流)。UnityVideo展示了当让AI模型以类似的方式学习时——不是孤立地学习单一模态而是让不同模态相互促进、共同进化模型就能够获得更深层的世界理解。这种理解不仅体现在更快的收敛速度和更好的定量指标上更体现在模型对物理规律的准确建模、对未见场景的泛化能力以及在人类感知层面的质量提升上。UnityVideo也为视频生成领域开辟了一条新路径1、规模不是唯一答案提升模型能力不仅仅依赖于增大参数量和数据量更重要的是如何组织和利用多样化的学习信号。2、 任务整合带来涌现能力就像LLMs通过统一多种文本任务涌现出推理能力视觉模型也可以通过统一多种模态和任务来涌现更强的世界理解能力。3、架构设计至关重要简单地把不同模态堆叠在一起是不够的需要精心设计的机制(如动态噪声调度、模态切换器、上下文学习器)来让不同模态真正互相促进。4、评估需要多维度单一任务的性能提升固然重要,但更关键的是模型获得了跨任务、跨模态的泛化能力和更深层的世界理解。当然UnityVideo还有提升空间研究者也坦诚地指出了当前的局限性VAE偶尔会引入重建伪影扩展到更大的backbone和更多视觉模态可能会进一步增强涌现能力但即便如此UnityVideo已经为构建真正理解物理世界的视觉大模型奠定了坚实的基础。从LLMs统一文本子模态到UnityVideo统一视觉子模态能够看到AI向通用智能演进的清晰路径不是在孤立的任务上追求极致而是建立统一的学习范式让不同维度的知识相互促进、协同进化。UnityVideo的出现说明在视频生成领域研究者们可能过于关注RGB像素的精细度而忽视了构建多维度世界模型的重要性。真正智能的视频生成系统应该像人类一样能够同时理解场景的颜色、深度、运动、结构等多个维度并将这些理解整合成对物理世界的统一认知。这正是UnityVideo迈出的关键一步。论文链接https://arxiv.org/abs/2512.07831代码链接https://github.com/dvlab-research/UnityVideo项目主页https://jackailab.github.io/Projects/UnityVideo

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询