世界论坛网 > 时事新闻 > 正文  
DeepSeek发布新版R1 称能力接近美国顶尖模型
www.wforum.com | 2025-05-29 18:42:33  联合早报网 | 0条评论 | 查看/发表评论

中国人工智能起步公司深度求索(DeepSeek)发布其热门推理模型R1的首次更新版本,称新版R1模型深度思考能力得到强化,整体表现上已接近美国竞争对手OpenAI和谷歌推出的顶尖模型。

DeepSeek星期四(5月29日)晚在官方微信公众号发文称,DeepSeek R1模型已完成小版本升级,当前版本为DeepSeek-R1-0528。

文章称,DeepSeek-R1-0528仍然使用去年12月所发布的DeepSeek V3 Base模型作为基座,但在后训练过程中投入了更多算力,显著提升了模型的思维深度与推理能力。相较于旧版R1,新版模型在复杂推理任务中的表现有了显著提升。

文章特别提到,更新后的R1模型对“幻觉”问题(错误或误导性输出)进行了优化,在改写润色、总结摘要、阅读理解等场景中,幻觉率降低了45%至50%左右。其他方面的提升则包括更贴近人类偏好的创意写作,和更好的前端代码生成、角色扮演能力。

DeepSeek表示,更新后的R1模型在数学、编程与通用逻辑等多个基准测评中,取得当前中国“所有模型中首屈一指的成绩”,在整体表现上已接近OpenAI的o3和谷歌的Gemini-2.5-Pro等美国顶尖模型。

DeepSeek同时也说,该公司在蒸馏DeepSeek-R1-0528的思维链后,训练中国科技巨头阿里巴巴的Qwen3-8B基础模型,得到了DeepSeek-R1-0528-Qwen3-8B,在性能上比原版模型高出10%。

DeepSeek称:“我们相信,DeepSeek-R1-0528 的思维链对于学术界推理模型的研究和工业界针对小模型的开发都将具有重要意义。”

DeepSeek也将继续开源新版R1模型,允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。

另据路透社报道,今年1月发布的R1在全球引发热议,导致中国以外的科技股暴跌,挑战了“扩展人工智能需要巨大算力和投资”这一观点。阿里巴巴和腾讯等中国科技巨头此后纷纷发布声称超越DeepSeek的模型。

报道称,DeepSeek的成功也颠覆美国出口管制阻碍中国人工智能进步的看法,因为它以极低成本发布了与美国行业领先模型相当甚至更好的人工智能模型。

为了应对来自DeepSeek的竞争,谷歌的Gemini已推出折扣版本,而OpenAI也降低了价格,并发布对算力要求更低的o3 Mini模型。

DeepSeek曾在3月发布V3大型语言模型的升级版。外界普遍预计DeepSeek将推出R1的后续版本R2,路透社3月曾引述消息人士称,R2最初计划在5月发布。

(0)
当前新闻共有0条评论 分享到:
评论前需要先 登录 或者 注册
全部评论
暂无评论
查看更多
实用资讯
24小时新闻排行榜
“不要再打啦!只剩最后一架”
重大反转,歼10不要了?印尼敲定阵风大单
印度要求俄停供发动机 切断“枭龙”生产
阵风折翼 印度翻脸取消74亿美元军购?
歼15DT亮相 中国第二型舰载电子战机来了
48小时新闻排行榜
“不要再打啦!只剩最后一架”
重大反转,歼10不要了?印尼敲定阵风大单
印度要求俄停供发动机 切断“枭龙”生产
阵风折翼 印度翻脸取消74亿美元军购?
歼15DT亮相 中国第二型舰载电子战机来了
印度传来坏消息 日本抢先研究霹雳15残骸
俄军后院失火?日本在北方四岛开第一枪
靠中国救命?朝鲜驱逐舰侧翻事故追责至部长
普京迎来一个坏消息
折叠弹鳍霹雳-15:让歼-20携带由4枚升至6枚
热门专题
1中美对抗2以哈战争3乌克兰战争
4美国大选5李克强猝逝6新冠疫情
7香港局势8委内瑞拉9华为
10黑心疫苗11“低端人群”12美国税改
13红黄蓝幼儿园14中共19大15郭文贵
广告服务 | 联系我们 | 关于我们 | 网站导航 | 隐私保护
Jobs. Contact us. Privacy Policy. Copyright (C) 1998-2025. Wforum.COM. All Rights Reserved.