豆包1.8杀入多模态Agent核心战场在技术追赶、安全大考中火山引擎寻找“加速度” ...

来自: 收藏邀请

每经记者｜李宇彤每经编辑｜魏文艺

超万人报名、现场开场前十分钟便一座难求。

一方面，年底举行的火山引擎FORCE原动力大会是字节跳动AI（人工智能）实力的集中展现；另一方面，其火热程度也映射出整个大模型行业站在技术拐点前的迫切与躁动。

12月18日，火山引擎正式发布豆包大模型1.8与音视频创作模型Seedance 1.5 pro。其中，旗舰模型豆包1.8明确面向多模态Agent（智能体）场景进行定向优化；Seedance 1.5 pro则在影视级叙事张力、细节捕捉、情绪呈现及音画同步技术上实现了突破。

如果说春季大会是以技术普惠和分段计价切入市场，那么临近2025年底，火山引擎正试图通过提升技术“加速度”，以应对以Agent为核心的下一个竞争阶段。

这条赛道上不乏重量级选手。在火山引擎强化其Agent布局的同时，阿里云也在多模态赛道全力加速：其于9月发布通义万相Wan2.5 preview模型，实现了音画同步生成，并提升了视频时长与画质；在12月的“千问”项目中，阿里接入了最新的视频生成模型万相2.6。

当对技术突破的期待高涨，AI如何从演示和榜单走向真正驱动千行百业的生产力？火山引擎此次押注于Agent和多模态，正试图以更快的技术演进回应这一时代之问。

图片来源：每经记者李宇彤摄

“多模态大脑”升级：从能力突破到生态扩散

火山引擎此次大会的核心，是升级了模型的“多模态大脑”。

据火山引擎总裁谭待介绍，豆包大模型1.8面向多模态Agent场景进行了定向优化。其工具调用能力、复杂指令遵循能力及OS Agent能力均得到增强，提升了模型在处理复杂任务时的规划与执行水平。

在多模态理解方面，1.8版本提升了视觉基础能力，可低帧率理解超长视频，并在视频运动、复杂空间及文档解析上有所突破。它还原生支持智能上下文管理，能在长任务中智能清理低价值历史信息，确保多步骤任务稳定完成。

测试数据印证了这些进步。根据其公布的评测图表，豆包1.8在AIME 2025测评集上表现提升，于通用智能体测评BrowserComp中取得全球领先的成绩。而在多模态理解方面，在视觉判断准确性、空间理解等多项关键能力上超越了Gemini 3。

豆包1.8 Agent能力测试结果图片来源：企业供图

多模态能力的提升是模型成为复杂代理的关键。谭待阐释了其战略意义：“多模态其实代表着模型的应用进入更深的领域。”

谭待在接受包括《每日经济新闻》记者在内的媒体采访时指出，现实中的需求输入常带有视觉信息，如车载环境、产品质检，且工具返回的结果也多为视觉化。要有视觉化的理解才能处理这些工具的结果，这让模型能像人一样操作，极大地扩展了适用性。“我们很早就意识到这个（多模态）才是模型真正地成为复杂的Agent（关键）。”

当多模态理解能力与具体的终端场景结合，便催生了颠覆性的体验。

谭待以智能汽车座舱的理解提升为例，接入大模型后，系统在能理解“好热”时就调温，在说“打开天窗”时就打开遮阳板。甚至能完成凭歌词搜歌等复杂操作，以及复杂的语音点餐。

他还描绘了一个更具象的未来场景：在导航至目的地时，系统不仅能推荐附近餐馆，更能无缝完成车内点餐。他以与瑞幸合作的语音点餐为例展开说明，表示若以后这一能力平移到行车场景中，只需提前告知“在公司楼下帮我点杯咖啡”，抵达后便能直接取餐。

谭待总结道：“这种交互就是完全自然的以Agent的方式，像人一样跟它交互，它能帮你做各种各样的事情。”他认为，这种智能交互将覆盖手机、汽车乃至各类终端，展现出一个充满可能性的“智能空间”。

与此同时，这种“多模态Agent”能力正通过标准化的API（应用程序编程接口）与开发平台（AgentKit），快速向更广阔的硬件与行业生态扩散。本次大会上正式宣布的“豆包助手API”，旨在将豆包对话、思考、搜索等核心产品能力打包开放，让企业开箱即用，目前首批四项文本能力已上线火山方舟应用实验室。

目前，火山引擎活跃的生态已经在调用量上有所体现。截至今年12月，豆包大模型日均tokens（大模型处理文本的最小单位）调用量已突破50万亿，较去年同期增长超十倍；同时，有超过百家企业累计使用量超过1万亿tokens。

直面竞争与安全挑战：如何应对行业激战与用户信任？

但站在日均50万亿tokens调用量的节点上，火山引擎接下来将面临的是一个竞争日趋白热化的市场。

在国内，阿里等对手在多模态与视频生成领域紧追不舍。今年9月，阿里发布通义万相Wan2.5模型，首次实现音画同步生成，并显著提升了视频时长与清晰度。紧接着在11月，阿里宣布全力进军AI to C市场，将“通义App”更名为“千问App”。

到了12月，千问App已快速接入迭代后的万相2.6模型。该版本不仅支持多镜头生成、音频驱动等进阶功能，更宣称实现了Sora2（OpenAI发布的新一代视频生成模型）尚未具备的某些能力，力图在视频生成的功能全面性上建立竞争优势。此外，其他云厂商与AI公司也在通过价格策略、行业深度合作等方式争夺市场份额。

对此，谭待在采访中表现出一种开放的“竞合”观，他更倾向于将市场视为一个共同做大的蛋糕。在他看来，更多重量级玩家的投入能加速市场教育和基础设施成熟。“越多人进来是能够加速（行业发展），能带来更多的人，更多的想法，我们就能把这个事加速做好。”

而当被问及如何评估与公认顶尖模型Gemini 3的差距时，火山引擎总裁谭待展现出务实的追赶心态。他坦言：“你要衡量距离那有差距。”但他更强调动态的追赶过程，将竞争维度分解为距离、速度与加速度。“我觉得加速度我们现在在提升。”谭待表示：“最终肯定能看到越来越接近。”

并且，随着AI能力深入消费电子与企业核心，安全从技术问题演变为市场信任的基石。豆包手机助手上线后，其安全实践便成为密集关注的焦点，促使官方两度作出公开澄清。

对于INJECT_EVENTS（注入权限/注入事件）权限争议，豆包手机助手于12月3日声明，该权限是实现自动化操作所必需的系统级能力，需经用户主动授权且已在清单中明确披露，不会代替用户进行任何敏感授权与操作。

12月13日，豆包手机助手又一次就安全争议作出回应，称其采用原生截屏接口，严格遵循应用声明的Secure标记（安全标记），无法截取银行安全键盘等受保护界面的内容。

针对豆包手机助手引发的安全讨论，谭待也在采访中表示，无论是面向消费者的产品还是企业级服务，安全都是字节跳动的首要考量。

此次发布会上，安全也被置于议程最前端，通过新功能MaaS on AICC（模型即服务基于人工智能机密计算平台），火山方舟上的所有模型，包括豆包大模型家族和deepseek等开源模型，都可以直接运行在AICC加密环境中，只需要在火山方舟选择“机密部署”方式，就可以一键开启各种模型的机密推理服务。

押注Agent是火山引擎给出的战略答案，最终的检验将取决于智能体所创造的实际价值，以及能否在运行全周期中筑牢可靠的安全防线。

免责声明：本文内容与数据仅供参考，不构成投资建议，使用前请核实。据此操作，风险自担。

封面图片来源：每经记者李宇彤摄