字节 Seed 开源 UI-TARS-1.5:基于视觉-语言模型构建的多模态智能体
作者:周末游戏网时间:2025-05-10 16:00:29
本站 4 月 18 日消息,本站从豆包大模型团队获悉,UI-TARS-1.5 昨日正式发布并开源。这是一款基于视觉-语言模型构建的开源多模态智能体,能够在虚拟世界中高效执行各类任务。
有关的链接如下:
GitHub:https://github.com/bytedance/UI-TARS
Website:https://seed-tars.com/
Arxiv:https://arxiv.org/abs/2501.12326
UI-TARS-1.5 基于字节此前提出的原生智能体方案 UI-TARS,通过强化学习进一步增强了模型的高阶推理能力,使模型能够在“行动”前先进行“思考”。
该版本的模型中,团队还展示了一个新的愿景:以游戏为载体来增强基础模型的推理能力。与数学、编程等领域相比,游戏更多依赖直观的、常识性的推理,并较少依赖专业知识,因此,游戏通常是评估和提升未来模型通用能力的理想测试场景。
据介绍,UI-TARS 是一个原生 GUI 智能体,具备真实操作电脑和手机系统的能力,同时,还可操控浏览器、完成复杂交互任务。UI-TARS-1.5 能够实现精准 GUI 操作,基于团队在四个维度的技术探索:
视觉感知增强:依托大规模界面截图数据,模型可理解元素的语义与上下文,形成精准描述。
System 2 推理机制:在动作前生成“思维(thought)”,支持复杂任务的多步规划与决策。
统一动作建模:构建跨平台标准动作空间,通过真实轨迹学习提升动作可控性与执行精度。
可自我演化的训练范式:通过自动化的交互轨迹采集与反思式训练,模型持续从错误中改进,适应复杂环境变化。
相关文章
-
欧盟为避免影响贸易谈判,被曝推迟罚款苹果和 Meta 公司本站 4 月 19 日消息,《华尔街日报》昨日(4 月 18 日)发布博文,报道称欧盟为了避免影响与美国的贸易谈判,就苹果和 Meta 涉嫌违反《数字市场法案》,推迟实施罚款事宜。本站援引博文介绍,欧
-
谷歌反击:不服垄断裁决,誓言上诉本站 4 月 19 日消息,美国联邦地区法官 Leonie Brinkema 于 2025 年 4 月 17 日裁定,谷歌在广告市场的主导地位构成非法垄断。谷歌对此表示部分认可裁决结果,但同时宣布将对
-
消息称特斯拉美国“平价版”Model Y 量产推迟,已调整至明年年初本站 4 月 19 日消息,路透社今日援引多位知情人士消息称,特斯拉原计划在美国推出一款配置简化的平价版 Model Y,但量产时间已被推迟。特斯拉此前承诺将在今年上半年推出价格更亲民的车型,市场普遍
-
未来 XR 头显交互神器:苹果获批笔状控制器专利本站 4 月 19 日消息,科技媒体 patentlyapple 昨日(4 月 18 日)发布博文,报道称苹果获批最新专利,描述一款多功能手持设备,专为未来 XR 头显用户设计,这款设备形似笔状工具或
-
研究称生成式 AI 背后隐藏高昂水电消耗,直接影响数据中心周边生活成本本站 4 月 19 日消息,据外媒 Tom s Hardware 报道,当地时间周三,《华盛顿邮报》和加州大学河滨分校的研究指出,使用生成式 AI 的环境代价远比外界想象的更高。研究发现,AI 即便仅
-
特斯拉 Model Y 美国 2025 保费暴涨 29%,非模块电池组设计是主因本站 4 月 19 日消息,汽车媒体 autoevolution 今天(4 月 19 日)发布博文,报道称美国多家保险公司大幅提高了特斯拉(Tesla)电动车的保险费用。根据 Insurify 最新研