字节Seed开源多模态智能体UI-TARS-1.5

来自: 和讯财经 收藏 邀请

凤凰网科技讯 (作者/杨睿琪)4月18日,字节跳动旗下Seed团队昨日正式开源多模态智能体UI-TARS-1.5。该模型基于视觉-语言框架构建,旨在通过虚拟环境中的任务执行提升基础模型的通用推理能力,支持精准操作电脑、手机系统及浏览器交互等复杂任务。

据介绍,目前,UI-TARS-1.5已在7个典型的GUI图形用户界面评测基准中取得SOTA表现,并首次展现了其在游戏中的长时推理能力和在开放空间中的交互能力。

UI-TARS-1.5在上一代原生GUI智能体基础上,引入强化学习机制优化高阶推理能力,新增“行动前思考”功能,可规划多步骤任务决策。技术层面,团队通过四大维度实现能力升级:增强视觉感知,利用大规模界面截图数据理解元素语义;构建跨平台标准动作空间,提升执行精度;采用System 2推理机制生成任务思维链;建立自动化交互轨迹采集与反思训练范式,使模型持续优化。

(责任编辑:贺 )

【免责声明】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。邮箱:news_center@staff.hexun.com


鲜花

握手

雷人

路过

鸡蛋
相关推荐
实时动态
焦点话题
热门排行

在线客服(服务时间 9:00~18:00)

在线QQ客服
公司地址:广州市黄埔区康富路32号101房
客服电话:13326565461
电子邮箱:30376048757@qq.com

Powered by 广州丁冬科技有限公司 © 2025 aiwsw.com Inc.( 粤ICP备2024347580号-3 )