OpenAI宣布推出AI Agent评测基准PaperBench

OpenAI宣布推出AI Agent评测基准PaperBench

  在丁冬财经看资讯行情,选丁冬财经证券一站式开户交易>>

  当地时间4月2日,美国开放人工智能研究中心(OpenAI)宣布推出PaperBench——一个评估AI智能体复现前沿AI研究能力的基准。智能体需从零开始复现20篇ICML 2024 Spotlight和Oral论文,包括理解论文贡献、开发代码库并成功执行实验。据介绍,在PaperBench上测试多个前沿模型后发现,表现最佳的智能体Claude 3.5 Sonnet(新版)结合开源框架,平均复现得分为21.0%。最终其招募顶尖机器学习博士尝试部分测试集,发现上述模型表现尚未超越人类基线。

(文章来源:界面新闻)


鲜花

握手

雷人

路过

鸡蛋
相关推荐
热门排行

在线客服(服务时间 9:00~18:00)

在线QQ客服
公司地址:广州市黄埔区康富路32号101房
客服电话:13326565461
电子邮箱:30376048757@qq.com

Powered by 广州丁冬科技有限公司 © 2025 aiwsw.com Inc.( 粤ICP备2024347580号-3 )