查看: 62|回复: 0
收起左侧

[IT业界] 腾讯混元开源首个面向世界模型的强化学习后训练框架 WorldCompass

[复制链接]
anyangmo
发表于 1 小时前 | 显示全部楼层 |阅读模式
本帖最后由 anyangmo 于 2026-3-10 13:07 编辑

腾讯混元开源首个面向世界模型的强化学习后训练框架 WorldCompass

IT之家 3 月 10 日消息,腾讯混元 3D 团队今日宣布开源业界首个面向世界模型的强化学习后训练框架 WorldCompass,这是此前发布的混元世界模型 1.5 官方强化学习扩展模块,能够让世界模型的交互更加准确,体验更好。

11.jpg

WorldCompass 是一个专为长时序、交互式世界模型设计的强化学习(RL)后训练框架。如果说世界模型是引擎,那么 WorldCompass 就是“指南针”,通过引入强化学习机制,直接“引导”模型如何更准确地遵循用户指令探索世界,并保持长时序的视觉一致性。


实验表明,WorldCompass 能提升 SOTA 开源世界模型(WorldPlay)的交互准确率和视觉保真度,特别是在复杂的组合动作场景下,交互准确率提升了近 35%。


团队在最新的开源 SOTA 模型 WorldPlay 上进行了验证。结果显示,经过 WorldCompass 的后训练,模型能力实现了大幅提升。


22.jpg


在最为困难的复合动作(Combined Action)场景下(例如同时进行移动和旋转):基座模型对于复杂组合式动作序列执行的准确率仅为 20% 左右。使用 WorldCompass 训练后,准确率提升至 55% 左右,提升幅度超过 35%。对于基础动作,准确率也提升了约 10%。


同时,在斯坦福大学世界模型 Benchmark WorldScore 上,WorldCompass 取得了更好的评分:


33.jpg


WorldCompass 已在混元 WorldPlay 模型上得到验证,相关代码和模型细节已开源。IT之家附开源地址如下:


https://github.com/Tencent-Hunyuan/HY-WorldPlay





原文地址:https://www.ithome.com/0/927/538.htm



您需要登录后才可以回帖 登录 | 快速注册

本版积分规则

手机版|杀毒软件|软件论坛| 卡饭论坛

Copyright © KaFan  KaFan.cn All Rights Reserved.

Powered by Discuz! X3.4( 沪ICP备2020031077号-2 ) GMT+8, 2026-3-10 14:46 , Processed in 0.082686 second(s), 5 queries , Redis On.

卡饭网所发布的一切软件、样本、工具、文章等仅限用于学习和研究,不得将上述内容用于商业或者其他非法用途,否则产生的一切后果自负,本站信息来自网络,版权争议问题与本站无关,您必须在下载后的24小时之内从您的电脑中彻底删除上述信息,如有问题请通过邮件与我们联系。

快速回复 客服 返回顶部 返回列表