豆包1.8杀入多模态Agent核心战场 在技术追赶、安全大考中 火山引擎寻找“加速度” ...

来自: 收藏 邀请

每经记者|李宇彤    每经编辑|魏文艺    

超万人报名、现场开场前十分钟便一座难求。

一方面,年底举行的火山引擎FORCE原动力大会是字节跳动AI(人工智能)实力的集中展现;另一方面,其火热程度也映射出整个大模型行业站在技术拐点前的迫切与躁动。

12月18日,火山引擎正式发布豆包大模型1.8与音视频创作模型Seedance 1.5 pro。其中,旗舰模型豆包1.8明确面向多模态Agent(智能体)场景进行定向优化;Seedance 1.5 pro则在影视级叙事张力、细节捕捉、情绪呈现及音画同步技术上实现了突破。

如果说春季大会是以技术普惠和分段计价切入市场,那么临近2025年底,火山引擎正试图通过提升技术“加速度”,以应对以Agent为核心的下一个竞争阶段。

这条赛道上不乏重量级选手。在火山引擎强化其Agent布局的同时,阿里云也在多模态赛道全力加速:其于9月发布通义万相Wan2.5 preview模型,实现了音画同步生成,并提升了视频时长与画质;在12月的“千问”项目中,阿里接入了最新的视频生成模型万相2.6。

当对技术突破的期待高涨,AI如何从演示和榜单走向真正驱动千行百业的生产力?火山引擎此次押注于Agent和多模态,正试图以更快的技术演进回应这一时代之问。

图片来源:每经记者李宇彤 摄

“多模态大脑”升级:从能力突破到生态扩散

火山引擎此次大会的核心,是升级了模型的“多模态大脑”。

据火山引擎总裁谭待介绍,豆包大模型1.8面向多模态Agent场景进行了定向优化。其工具调用能力、复杂指令遵循能力及OS Agent能力均得到增强,提升了模型在处理复杂任务时的规划与执行水平。

在多模态理解方面,1.8版本提升了视觉基础能力,可低帧率理解超长视频,并在视频运动、复杂空间及文档解析上有所突破。它还原生支持智能上下文管理,能在长任务中智能清理低价值历史信息,确保多步骤任务稳定完成。

测试数据印证了这些进步。根据其公布的评测图表,豆包1.8在AIME 2025测评集上表现提升,于通用智能体测评BrowserComp中取得全球领先的成绩。而在多模态理解方面,在视觉判断准确性、空间理解等多项关键能力上超越了Gemini 3。

豆包1.8 Agent能力测试结果 图片来源:企业供图

多模态能力的提升是模型成为复杂代理的关键。谭待阐释了其战略意义:“多模态其实代表着模型的应用进入更深的领域。”

谭待在接受包括《每日经济新闻》记者在内的媒体采访时指出,现实中的需求输入常带有视觉信息,如车载环境、产品质检,且工具返回的结果也多为视觉化。要有视觉化的理解才能处理这些工具的结果,这让模型能像人一样操作,极大地扩展了适用性。“我们很早就意识到这个(多模态)才是模型真正地成为复杂的Agent(关键)。”

当多模态理解能力与具体的终端场景结合,便催生了颠覆性的体验。

谭待以智能汽车座舱的理解提升为例,接入大模型后,系统在能理解“好热”时就调温,在说“打开天窗”时就打开遮阳板。甚至能完成凭歌词搜歌等复杂操作,以及复杂的语音点餐。

他还描绘了一个更具象的未来场景:在导航至目的地时,系统不仅能推荐附近餐馆,更能无缝完成车内点餐。他以与瑞幸合作的语音点餐为例展开说明,表示若以后这一能力平移到行车场景中,只需提前告知“在公司楼下帮我点杯咖啡”,抵达后便能直接取餐。

谭待总结道:“这种交互就是完全自然的以Agent的方式,像人一样跟它交互,它能帮你做各种各样的事情。”他认为,这种智能交互将覆盖手机、汽车乃至各类终端,展现出一个充满可能性的“智能空间”。

与此同时,这种“多模态Agent”能力正通过标准化的API(应用程序编程接口)与开发平台(AgentKit),快速向更广阔的硬件与行业生态扩散。本次大会上正式宣布的“豆包助手API”,旨在将豆包对话、思考、搜索等核心产品能力打包开放,让企业开箱即用,目前首批四项文本能力已上线火山方舟应用实验室。

目前,火山引擎活跃的生态已经在调用量上有所体现。截至今年12月,豆包大模型日均tokens(大模型处理文本的最小单位)调用量已突破50万亿,较去年同期增长超十倍;同时,有超过百家企业累计使用量超过1万亿tokens。

直面竞争与安全挑战:如何应对行业激战与用户信任?

但站在日均50万亿tokens调用量的节点上,火山引擎接下来将面临的是一个竞争日趋白热化的市场。

在国内,阿里等对手在多模态与视频生成领域紧追不舍。今年9月,阿里发布通义万相Wan2.5模型,首次实现音画同步生成,并显著提升了视频时长与清晰度。紧接着在11月,阿里宣布全力进军AI to C市场,将“通义App”更名为“千问App”。

到了12月,千问App已快速接入迭代后的万相2.6模型。该版本不仅支持多镜头生成、音频驱动等进阶功能,更宣称实现了Sora2(OpenAI发布的新一代视频生成模型)尚未具备的某些能力,力图在视频生成的功能全面性上建立竞争优势。此外,其他云厂商与AI公司也在通过价格策略、行业深度合作等方式争夺市场份额。

对此,谭待在采访中表现出一种开放的“竞合”观,他更倾向于将市场视为一个共同做大的蛋糕。在他看来,更多重量级玩家的投入能加速市场教育和基础设施成熟。“越多人进来是能够加速(行业发展),能带来更多的人,更多的想法,我们就能把这个事加速做好。”

而当被问及如何评估与公认顶尖模型Gemini 3的差距时,火山引擎总裁谭待展现出务实的追赶心态。他坦言:“你要衡量距离那有差距。”但他更强调动态的追赶过程,将竞争维度分解为距离、速度与加速度。“我觉得加速度我们现在在提升。”谭待表示:“最终肯定能看到越来越接近。”

并且,随着AI能力深入消费电子与企业核心,安全从技术问题演变为市场信任的基石。豆包手机助手上线后,其安全实践便成为密集关注的焦点,促使官方两度作出公开澄清。

对于INJECT_EVENTS(注入权限/注入事件)权限争议,豆包手机助手于12月3日声明,该权限是实现自动化操作所必需的系统级能力,需经用户主动授权且已在清单中明确披露,不会代替用户进行任何敏感授权与操作。

12月13日,豆包手机助手又一次就安全争议作出回应,称其采用原生截屏接口,严格遵循应用声明的Secure标记(安全标记),无法截取银行安全键盘等受保护界面的内容。

针对豆包手机助手引发的安全讨论,谭待也在采访中表示,无论是面向消费者的产品还是企业级服务,安全都是字节跳动的首要考量。

此次发布会上,安全也被置于议程最前端,通过新功能MaaS on AICC(模型即服务基于人工智能机密计算平台),火山方舟上的所有模型,包括豆包大模型家族和deepseek等开源模型,都可以直接运行在AICC加密环境中,只需要在火山方舟选择“机密部署”方式,就可以一键开启各种模型的机密推理服务。

押注Agent是火山引擎给出的战略答案,最终的检验将取决于智能体所创造的实际价值,以及能否在运行全周期中筑牢可靠的安全防线。

免责声明:本文内容与数据仅供参考,不构成投资建议,使用前请核实。据此操作,风险自担。

封面图片来源:每经记者 李宇彤 摄


鲜花

握手

雷人

路过

鸡蛋
相关推荐
热门排行
← 返回股票

在线客服(服务时间 9:00~18:00)

QQ:30376048757
公司地址:广州市黄埔区康富路32号101房
客服电话:13326565461
电子邮箱:30376048757@qq.com

Powered by 广州丁冬科技有限公司 © 2025 aiwsw.com Inc.( 粤ICP备2024347580号-3 )