大语言模型仍无法可靠区分信念与事实为高风险领域应用敲响警钟 ... - 资讯 - 丁冬财经

登陆注册

返回顶部

大语言模型仍无法可靠区分信念与事实为高风险领域应用敲响警钟 ...

收藏邀请

大语言模型仍无法可靠区分信念与事实为高风险领域应用敲响警钟

　　在丁冬财经看资讯行情，选丁冬财经证券一站式开户交易>>

　　在最新一期《自然·机器智能》发表的一篇论文中，美国斯坦福大学研究提醒：大语言模型（LLM）在识别用户错误信念方面存在明显局限性，仍无法可靠区分信念还是事实。研究表明，当用户的个人信念与客观事实发生冲突时，LLM往往难以可靠地作出准确判断。

　　这一发现为其在高风险领域（如医学、法律和科学决策）的应用敲响警钟，强调需要审慎对待模型输出结果，特别是在处理涉及主观认知与事实偏差的复杂场景时，否则LLM有可能会支持错误决策、加剧虚假信息的传播。

　　团队分析了24种LLM（包括DeepSeek和GPT-4o）在13000个问题中如何回应事实和个人信念。当要求它们验证事实性数据的真或假时，较新的LLM平均准确率分别为91.1%或91.5%，较老的模型平均准确率分别为84.8%或71.5%。当要求模型回应第一人称信念（“我相信……”）时，团队观察到LLM相较于真实信念，更难识别虚假信念。具体而言，较新的模型（2024年5月GPT-4o发布及其后）平均识别第一人称虚假信念的概率比识别第一人称真实信念低34.3%。相较第一人称真实信念，较老的模型（GPT-4o发布前）识别第一人称虚假信念的概率平均低38.6%。

　　团队指出，LLM往往选择在事实上纠正用户而非识别出信念。在识别第三人称信念（“Mary相信……”）时，较新的LLM准确性降低4.6%，而较老的模型降低15.5%。

　　研究总结说，LLM必须能成功区分事实与信念的细微差别及其真假，从而对用户查询作出有效回应并防止错误信息传播。

（文章来源：科技日报）

上一篇：

韩将大幅提升AI相关预算发布时间：1970-01-01

下一篇：

超导量子比特相干时间纪录刷新相应量子芯片能完全运行发布时间：1970-01-01

相关推荐

实时动态

23:21 12月22日东方财富财经晚报（附新闻联播）

In 资讯

23:21 美股三大指数集体上涨特斯拉、美光科技股

In 资讯

22:38 城市24小时 | 逐鹿万亿“游戏经济”，第一

In 股票

22:38 加科思拿下临床阶段小分子抗癌药金额最大授

In 股票

22:37 5万公里高铁冲刺：广东登顶，湖北赢了？

In 股票

22:21 黄金把预期吃得太满了吗？站上4400后，真正

In 全球财经

焦点话题

12月22日东方财富财经晚报（附新闻联播）

美股三大指数集体上涨特斯拉、美光科技股

前天 23:21

城市24小时 | 逐鹿万亿“游戏经济”，第一

前天 22:38

5万公里高铁冲刺：广东登顶，湖北赢了？

前天 22:37

黄金把预期吃得太满了吗？站上4400后，真正

前天 22:21

欧盟、丹麦、格陵兰岛总理表态！

前天 21:40

热门排行

1 12月22日东方财富财经晚报（附新闻联播）

　　热点聚焦　　“十五五”规划《纲要草案》：　　中共中央政治局常委、国务院总理李

阅读：3662|前天 23:21

2 美股三大指数集体上涨特斯拉、美光科技股

　　美东时间周一，美股三大指数集体上涨，截至发稿，道指涨0.24%，纳指涨0.57%，标普

阅读：3583|前天 23:21

3 城市24小时 | 逐鹿万亿“游戏经济”，第一

每经记者｜刘艳美每经编辑｜杨欢澎湃新闻、解放日报消息，在近日召开的2025年度中

阅读：3195|前天 22:38

4 5万公里高铁冲刺：广东登顶，湖北赢了？

每经记者｜刘旭强每经编辑｜刘艳美图片来源：中国铁路高铁第一省，再度易主。 1

阅读：2572|前天 22:37

5 黄金把预期吃得太满了吗？站上4400后，真正

周一（12月22日），现货黄金延续强势，北美时段交投4420美元附近，仍处于历史高位区间

阅读：4540|前天 22:21

6 欧盟、丹麦、格陵兰岛总理表态！

每经编辑｜黄胜央视新闻消息，当地时间22日，欧盟委员会发言人就美国任命驻格陵兰

阅读：1654|前天 21:40

7 三大指数继续反弹，超20只基金单日涨逾5%

每经记者｜肖芮冬每经编辑｜赵云 12月22日，市场高开高走，三大指数集体反弹，创业

阅读：1279|前天 21:39

8 智谱VS MiniMax：港交所“AI第一股”争夺战

　　近日，国产大模型厂商智谱华章（智谱）和稀宇科技（MiniMax）先后通过港交所聆讯

阅读：2089|前天 21:06

9 三花智控：预计2025年净利润38.74亿元

　　12月22日，三花智控(002050.SZ)公告称，公司发布2025年度业绩预告，预计归属于上

阅读：1769|前天 21:05

10 A股今年排第三！复盘近10年各大类资产回报

　　站在2025年年末，观察过去10年各大类资产表现，均在各自周期中轮动。2025年黄金以

阅读：1533|前天 21:05

← 返回资讯

在线客服（服务时间 9:00～18:00）

QQ：30376048757

公司地址：广州市黄埔区康富路32号101房

客服电话：13326565461

电子邮箱：30376048757@qq.com

Powered by 广州丁冬科技有限公司 © 2025 aiwsw.com Inc.( 粤ICP备2024347580号-3 )