|
随着以 Sora 为代表的视频生成模型技术的演进,长视频生成领域在维持长时序内容一致性以及平衡生成质量与计算资源效率方面面临挑战。浙江大学 鲲鹏昇腾科教创新卓越中心计算机学院研究员朱霖潮团队基于此课题持续深耕并取得重要进展。依托昇腾AI基础软硬件平台,该团队提出的技术方案有效提升了长视频内容一致性,同时显著优化了视频生成过程中的计算效率。 针对长序列视觉指令生成的核心技术难题,项目团队成功研发首个无需训练的长序列视觉指令生成框架LIGER,实现了历史提示和视觉记忆机制,以及基于DDIM反演的记忆校准技术。依托昇腾的编码加速能力,通过对每个步骤的图像特征进行采样和存储,捕捉前序步骤中的关键视觉信息,并将其注入到自注意力机制中,确保步骤间的视觉连贯性。同时,通过自反思机制纠正图像中的属性错误、逻辑错误、对象冗余和身份不一致等问题,使用多种图像编辑工具进行精确修正。该系统在长序列任务中展现出优异的逻辑连贯性和对象属性准确性,显著提升了视觉指令的理解性和实用性。 在计算效率方面,项目团队提出了基于昇腾平台优化的引导式渐进蒸馏方法,通过在线教师引导、渐进式蒸馏和高频细节保护三项关键技术,成功加速了视频扩散模型的生成过程。该方法让教师模型实时优化学生模型的中间预测以创建自适应训练目标,通过多阶段训练逐步增加步长将复杂轨迹学习分解为可管理的任务,并引入频域损失函数保持视频精细细节。在保持视频高质量输出基础上,该方法实现8倍加速。 该项目创新性地将大语言模型推理能力与视频生成技术相结合,为多模态交互研究开辟了新方向。目前,研究成果已成功入选人工智能顶级会议ICLR 2025,获得国际学术界的高度认可。项目构建的包含569个任务的评估数据集,为后续研究提供了重要基准。 未来,浙江大学 鲲鹏昇腾科教创新卓越中心将依托昇腾AI基础软硬件平台,持续深化产学研协同创新,着力突破多模态生成技术的核心瓶颈,构建自主创新、技术领先的多模态生成技术生态体系,并为国家人工智能战略与数字经济发展储备核心创新力量。
|
正在阅读:昇腾算力赋能视频生成革命 浙江大学团队攻克长时一致性难题昇腾算力赋能视频生成革命 浙江大学团队攻克长时一致性难题
2025-07-31 16:22
其他
编辑:侯宪勇

相关文章
鸿蒙版航旅纵横重磅升级!整合民航直销机票,购票、飞行、行程管理体验跃升
昇腾算力赋能视频生成革命 浙江大学团队攻克长时一致性难题
暑期高效出行用鸿蒙5,华为钱包畅行无忧卡一碰就过闸、小艺问答智能规划行程
重塑AI算力底座!阿里云服务器操作系统V4正式发布
高效掌控全局,安全运筹帷幄:鸿蒙电脑大屏理财,商务精英必备!
鸿蒙5终端数量突破1000万,超百家伙伴祝贺,共迎生态新起点
首次接入三方大模型!HarmonyOS 5.1 让鸿蒙电脑 AI 能力本地爆发:更快、更安全
2025开放原子开源生态大会开源鸿蒙交流区亮点迭出,社区与伙伴单位共筑万物智联新图景
知乎“学术酒吧”亮相WAIC 2025:没有PPT,只有“AI上头”的思想碰撞
腾讯系超50款鸿蒙应用上架:更新加速度,功能完备度飙升!

西门子(SIEMENS)274升大容量家用三门冰箱 混冷无霜 零度保鲜 独立三循环 玻璃面板 支持国家补贴 KG28US221C
5399元
苏泊尔电饭煲家用3-4-5-8个人4升电饭锅多功能一体家用蓝钻圆厚釜可做锅巴饭煲仔饭智能煮粥锅预约蒸米饭 不粘厚釜 4L 5-6人可用
329元
绿联65W氮化镓充电器套装兼容45W苹果16pd多口Type-C快充头三星华为手机MacbookPro联想笔记本电脑配线
99元
KZ Castor双子座有线耳机入耳式双单元HM曲线发烧HiFi耳返耳麦
88元
格兰仕(Galanz)【国家补贴】电烤箱 家用 40L大容量 上下独立控温 多层烤位 机械操控 烘培炉灯多功能 K42 经典黑 40L 黑色
260.9元
漫步者(EDIFIER)M25 一体式电脑音响 家用桌面台式机笔记本音箱 蓝牙5.3 黑色 520情人节礼物
109元

