OpenAI开源浏览智能体评测基准BrowseComp

  在丁冬财经看资讯行情,选丁冬财经证券一站式开户交易>>

  当地时间4月10日,美国开放人工智能研究中心(OpenAI)宣布开源包含1266个挑战性问题的基准测试BrowseComp。OpenAI表示,一个高性能的浏览智能体应该能够定位那些难以查找、可能需要在浏览数十甚至数百个网站的过程中才能获取的信息。现有基准测试(如SimpleQA)主要衡量模型检索基本孤立事实的能力,这类测试已被具备快速浏览工具(如支持浏览功能的GPT-4o)的模型所饱和。为了衡量AI智能体在互联网上定位难以查找、相互关联信息的能力,现开源基准测试BrowseComp。

(文章来源:界面新闻)


鲜花

握手

雷人

路过

鸡蛋
上一篇:
社论丨美国滥施关税,忽略了其对中国供应链的深层依赖发布时间:2025-04-11
下一篇:
韩国KOSPI指数跌幅扩大至2%发布时间:2025-04-11
相关推荐
热门排行
← 返回全球财经

在线客服(服务时间 9:00~18:00)

QQ:30376048757
公司地址:广州市黄埔区康富路32号101房
客服电话:13326565461
电子邮箱:30376048757@qq.com

Powered by 广州丁冬科技有限公司 © 2025 aiwsw.com Inc.( 粤ICP备2024347580号-3 )