不只是“小升级”！DeepSeek-R1新版获海外盛赞，每经记者亲测挑战三大编程任务 ... - 股票 - 丁冬财经

登陆注册

返回顶部

不只是“小升级”！DeepSeek-R1新版获海外盛赞，每经记者亲测挑战三大编程任务 ...

来自: 每日经济新闻收藏邀请

每经记者｜宋欣悦每经编辑｜兰素英

5月29日凌晨，DeepSeek-R1-0528正式在Hugging Face平台开源。此前一日（5月28日），DeepSeek官方宣布DeepSeek-R1模型已完成小版本试升级，用户可通过官方网页、App、小程序进行测试（打开深度思考），API接口和使用方式保持不变。

在此次更新中，模型代码能力的提升最为显著。知名代码测试平台LiveCodeBench显示，更新后的R1性能可以媲美OpenAI o3模型的高版本。

除代码能力外，R1新版本模型的文本理解与推理能力亦实现跨越式升级。其上下文长度拓展至128k，长文本提取的准确率也有显著提升。

《每日经济新闻》记者（以下简称“每经记者”）通过俄罗斯方块游戏开发、太阳系模拟与交互展示，以及设计英伟达最新财报网页这三项任务对R1新版本进行了实测，发现DeepSeek-R1-0528的编程能力确实强大，对物理世界的理解以及文本的提取都相当准确。

知名AI评论人Haider在社交媒体上评价称，这是开源的一大胜利。

瑞士IT咨询公司CTOL Digital Solutions首席执行官Max Zhang则表示，在这一“小”进步之后，我们确实可以期待更大突破（DeepSeek-R2）的到来。

图片来源：Hugging Face

“小升级”实现“大跨越”：升级后的R1性能媲美o3模型高版本

DeepSeek延续了其一贯的低调风格，此次升级率先在微信群进行官宣，并轻描淡写地将其定义为“小版本升级”。

然而，众多开发者实测后发现，此次的“小”升级，并不小。升级后的DeepSeek-R1，模型能力可以说实现了跨越式提升。

图片来源：DeepSeek官方微信群截图

编码能力方面，代码测试平台LiveCodeBench显示，更新后的DeepSeek-R1性能接近OpenAI在4月中旬发布的o4-mini和o3模型高版本。

据测试者反馈，DeepSeek-R1-0528能够一次性生成超千行无Bug代码，且在HTML/CSS/JS动态交互实现（如天气卡片动画、数据可视化）中更加精准。

图片来源：代码测试平台LiveCodeBench

除代码能力外，新版本模型的文本理解与推理能力亦实现跨越式升级。其上下文长度拓展至128k，长文本提取的准确率也有显著提升。

在Extended NYT Connections基准测试中，相比于前一代DeepSeek-R1，最新的0528版本的提升非常明显，得分从38.6%大幅升至49.8%。

图片来源：X

目前，ChatBot Arena也已经“上架”了最新版本的DeepSeek-R1，但还没有任何的测试结果。

图片来源：X

记者实测编程能力

为了更全面地测试DeepSeek-R1-0528的编程能力，每经记者设计了三项不同难度和类型的编程任务，包括网页游戏制作、物理世界模拟、财报可视化，来检验其在实际场景中的表现。

任务一：俄罗斯方块游戏开发

作为一款经典的休闲游戏，俄罗斯方块游戏的开发涉及图形绘制、游戏逻辑处理、用户交互等多个方面，能够很好地考察模型对于综合编程知识的掌握和运用能力。

每经记者首先向DeepSeek-R1提出需求：“请帮我开发一个网页端俄罗斯方块小游戏，要求包含游戏分数、彩色方块及多个关卡。”

DeepSeek仅思考了7秒，就开始输出代码。然而，初步生成的游戏无法正常运作，虽有预设的分数与关卡显示，但游戏区域内并没有俄罗斯方块。

图片来源：由DeepSeek生成

随后，记者调整提示词，仅提了最基础的要求，“请帮我写个俄罗斯方块游戏（网页端），直接可以上手玩。”

简洁的指令似乎对DeepSeek-R1-0528更加奏效。这次R1思考9秒，用时约3分30秒便生成了代码。

图片来源：由DeepSeek生成

从游戏页面来看，色彩搭配鲜明且协调，不同颜色的方块在深色背景下十分醒目，游戏区域布局合理，操作说明也清晰明了。

在游戏逻辑方面，方块的下落、移动和旋转都很流畅，没有出现延迟或卡顿现象。

可以说，已经具备了一个成熟俄罗斯方块游戏应有的功能和体验。

任务二：太阳系模拟与交互展示

接下来，难度升级。对于大模型而言，对物理世界进行准确模拟长期以来都是一项极具挑战性的任务。

此次，记者特意选取“行星轨道运动的物理模拟”这一任务，在考察其编码能力的同时，也考察DeepSeek-R1-0528对物理世界的理解能力。

记者向R1提出要求——写一个太阳系模拟网页，并且网页可交互展示。

因为任务更复杂，R1思考时间也相应变长，耗时54秒后开始输出代码。

图片来源：由DeepSeek生成

可以看出，R1的整体完成度极高，完全可以作为中小学科普动画的原型演示。

从界面呈现看，太阳居于中心，八大行星依照各自轨道有序排布，色彩搭配也符合人们对天体的认知。此外，行星的大小比例、相对位置都比较精准。

在交互功能方面，右侧控制面板设计简洁且功能丰富。

同时，页面“行星信息”板块还以简洁明了的文字介绍了太阳及各大行星的关键特征，如太阳的质量、直径，水星的公转周期、表面温度等，兼具科普性与趣味性。

任务三：设计英伟达最新财报网页

最后，每经记者上传了英伟达2026财年第一财季财报的文档，要求R1根据财报中的内容，制作一个可交互的网页。

财报中数据繁杂，文本较长，非常考察模型准确提取文本的能力。

图片来源：由DeepSeek生成

DeepSeek-R1生成的网页令人眼前一亮。在视觉呈现上，网页采用了标志性的“英伟达绿”，颜色搭配协调。

数据方面，基本做到了准确无误，很少出现“幻觉”情况。此外，模型还绘制了柱状图、饼图等图表，让复杂的数据变得一目了然。

尽管可能还存在一些细微的提升空间。比如，在涨跌幅的颜色上，我们通常用红色表示上涨，绿色表示下跌。但可能由于记者投喂的是美股公司财报（美股一般用绿色表示上涨，红色表示下跌），R1用了与之对应的颜色来展示涨跌幅。

整体来看，R1已充分彰显其在复杂任务处理上的卓越潜力。

“全球AI竞赛关键节点”！DeepSeek-R1新版获海外盛赞

DeepSeek最新发布的R1模型升级版在全球AI领域掀起热议，多位国际主流科技大佬及行业高管纷纷发声，盛赞其技术突破。

机器学习研究者kalomaze实测后赞叹道，“DeepSeek太出色了。”

Hyperbolic Labs联合创始人兼首席技术官Yuchen Jin表示，新版R1似乎是唯一能回答9.9减9.11等于几的模型。

知名AI评论人Haider直呼，这是开源的一大胜利。“DeepSeek王者归来了。新版本的DeepSeek-R1在编程方面简直令人难以置信，这是我测试过的最佳模型。”

AI撰稿人乔治·霍普金（George Hopkin）表示，DeepSeek的R1模型更新后，推理和输出能力大幅提升，标志着中国在全球AI竞赛中的影响力日益增强。

瑞士IT咨询公司CTOL Digital Solutions首席执行官Max Zhang指出，DeepSeek的最新版R1模型，正悄然成为谷歌Gemini 2.5 Pro的强劲竞争对手。“这一发展不仅仅是技术进步，更是全球AI竞赛中的一个关键节点。该模型凭借其双倍输出能力和增强的数学推理能力，展示了中国在AI领域的快速崛起。”

DeepSeek此次更新的亮眼表现，为DeepSeek的下一代模型R2注入更多想象空间。Max Zhang表示，在这一“小”进步之后，我们确实可以期待更大突破的到来。

上一篇：

*ST创兴6700万股被拍卖，控股股东华侨实业“亏本”清仓竞买人之一称是“纯投资” ...发布时间：2025-05-29

下一篇：

郑眼看盘 | 情绪好转，A股港股双双上涨发布时间：2025-05-29

相关推荐

实时动态

23:21 12月22日东方财富财经晚报（附新闻联播）

In 资讯

23:21 美股三大指数集体上涨特斯拉、美光科技股

In 资讯

22:38 城市24小时 | 逐鹿万亿“游戏经济”，第一

In 股票

22:38 加科思拿下临床阶段小分子抗癌药金额最大授

In 股票

22:37 5万公里高铁冲刺：广东登顶，湖北赢了？

In 股票

22:21 黄金把预期吃得太满了吗？站上4400后，真正

In 全球财经

焦点话题

12月22日东方财富财经晚报（附新闻联播）

美股三大指数集体上涨特斯拉、美光科技股

昨天 23:21

城市24小时 | 逐鹿万亿“游戏经济”，第一

昨天 22:38

5万公里高铁冲刺：广东登顶，湖北赢了？

昨天 22:37

黄金把预期吃得太满了吗？站上4400后，真正

昨天 22:21

欧盟、丹麦、格陵兰岛总理表态！

昨天 21:40

热门排行

1 12月22日东方财富财经晚报（附新闻联播）

　　热点聚焦　　“十五五”规划《纲要草案》：　　中共中央政治局常委、国务院总理李

阅读：3024|昨天 23:21

2 美股三大指数集体上涨特斯拉、美光科技股

　　美东时间周一，美股三大指数集体上涨，截至发稿，道指涨0.24%，纳指涨0.57%，标普

阅读：2996|昨天 23:21

3 城市24小时 | 逐鹿万亿“游戏经济”，第一

每经记者｜刘艳美每经编辑｜杨欢澎湃新闻、解放日报消息，在近日召开的2025年度中

阅读：2751|昨天 22:38

4 5万公里高铁冲刺：广东登顶，湖北赢了？

每经记者｜刘旭强每经编辑｜刘艳美图片来源：中国铁路高铁第一省，再度易主。 1

阅读：2158|昨天 22:37

5 黄金把预期吃得太满了吗？站上4400后，真正

周一（12月22日），现货黄金延续强势，北美时段交投4420美元附近，仍处于历史高位区间

阅读：4045|昨天 22:21

6 欧盟、丹麦、格陵兰岛总理表态！

每经编辑｜黄胜央视新闻消息，当地时间22日，欧盟委员会发言人就美国任命驻格陵兰

阅读：1305|昨天 21:40

7 三大指数继续反弹，超20只基金单日涨逾5%

每经记者｜肖芮冬每经编辑｜赵云 12月22日，市场高开高走，三大指数集体反弹，创业

阅读：1200|昨天 21:39

8 智谱VS MiniMax：港交所“AI第一股”争夺战

　　近日，国产大模型厂商智谱华章（智谱）和稀宇科技（MiniMax）先后通过港交所聆讯

阅读：1810|昨天 21:06

9 三花智控：预计2025年净利润38.74亿元

　　12月22日，三花智控(002050.SZ)公告称，公司发布2025年度业绩预告，预计归属于上

阅读：1518|昨天 21:05

10 A股今年排第三！复盘近10年各大类资产回报

　　站在2025年年末，观察过去10年各大类资产表现，均在各自周期中轮动。2025年黄金以

阅读：1351|昨天 21:05

← 返回股票

在线客服（服务时间 9:00～18:00）

QQ：30376048757

公司地址：广州市黄埔区康富路32号101房

客服电话：13326565461

电子邮箱：30376048757@qq.com

Powered by 广州丁冬科技有限公司 © 2025 aiwsw.com Inc.( 粤ICP备2024347580号-3 )