小红书Hi Lab团队提出可大幅降低平均思考长度的强化学习训练方式 ...

小红书Hi Lab团队提出可大幅降低平均思考长度的强化学习训练方式

  炒股第一步,先开个股票账户

  6月19日,小红书技术团队发文称,深度思考模型通过Test-Time Scaling(测试时扩展)大幅提升了模型推理能力,但同时也出现了大量冗余和无效思考。小红书Hi Lab团队提出了Think When You Need的强化学习训练方式;在不影响最终效果的前提下,实现动态CoT能力,大幅降低平均思考长度。实验证明,这种思想在推理和非推理等各种任务上广泛适用。团队还发现了一种现象:即在相同任务下,越聪明(参数量大)的模型,需要的思考长度越短;这与当前深度思考模型表现相违背,却十分符合人类的认知。

(文章来源:界面新闻)


鲜花

握手

雷人

路过

鸡蛋
上一篇:
89名在伊朗中国公民经土库曼斯坦顺利回国发布时间:1970-01-01
下一篇:
普京:我的外孙女正在学中文发布时间:1970-01-01
相关推荐
热门排行

在线客服(服务时间 9:00~18:00)

在线QQ客服
公司地址:广州市黄埔区康富路32号101房
客服电话:13326565461
电子邮箱:30376048757@qq.com

Powered by 广州丁冬科技有限公司 © 2025 aiwsw.com Inc.( 粤ICP备2024347580号-3 )