世界论坛网 > 时事新闻 > 正文  
DeepSeek该降降温了 哪有什么神仙技术
www.wforum.com | 2025-01-28 13:40:29  哲史微言 | 0条评论 | 查看/发表评论

最近大火的Deepseek,虽然在某些方面测试取得了不错的成绩,但在相关技术人员看来,也没有太多的理论创新,全局上了说都是在做工程创新,这种创新和遥遥领先的创新之道很类似,基本上是持续集成前沿科学成果,在实施上作局部工程和工艺优化,然后给消费者呈现一个变脸的不一样,从而满足某种高大上的虚荣心。

当然话说回来世界那有那么多新东西,在理解的基础上,变个法子也是一种表现式创新。那么Deepseek到底做了哪些工程和技术集成创新?

1、核心架构还是基于Transformer,工程设计上进行了创新和工艺提升, 实现效率优化。架构上, 采用了混合专家模型 (MoE)、多头潜注意力 (MLA)、多令牌预测 (MTP)、长链式推理 (CoT)、DualPipe 算法等设计, 并进行了依赖强化学习 (RL) 而不加入监督微调 (SFT) 的训练尝试。工程上, 在数据精度 (FP8 混合精度)、底层通信等方面进行了优化。这些都是业界已有的技术,但Deepseek做到了理论应用和工程上的平衡。

2、开发了高效的通信内核, 优化内部数据传输速度, 保证数据传输效率, 并能支持大规模部署,这为训练成本的优化至关重要。

3、所用语料的标注应该更加精准,估计,这不是某一家标注外包提供的,数学类的问答,深度推理还远远不足。

4、亲自测试的几个数学问题,复杂问题,只具备基本计算能力,不具备,深度推理及验算能力,问几个迷惑性的逻辑问题,答案会有明显错误。

(0)
当前新闻共有0条评论 分享到:
评论前需要先 登录 或者 注册
全部评论
暂无评论
查看更多
实用资讯
24小时新闻排行榜
印巴空战8:1,达索要求印“禁飞”阵风?
真相来了?印度航母空袭 卡拉奇港陷入火海
霹雳15残骸被捡到 雷达竟然是10年前生产的
印度触碰“国际红线” 导弹炸向中巴大坝
罕见!央视披露中国空空导弹生产线
48小时新闻排行榜
印巴空战8:1,达索要求印“禁飞”阵风?
真相来了?印度航母空袭 卡拉奇港陷入火海
霹雳15残骸被捡到 雷达竟然是10年前生产的
印度触碰“国际红线” 导弹炸向中巴大坝
罕见!央视披露中国空空导弹生产线
印巴空战创纪录 巴方:已摧毁77架
歼16出手,击退7架美菲军机?
法兰西阵风,败絮其中
一些中国人高兴坏了 恍惚看到“重大胜利”
解放军愈来愈担心 中国逾百核反应堆成头号
热门专题
1中美对抗2以哈战争3乌克兰战争
4美国大选5李克强猝逝6新冠疫情
7香港局势8委内瑞拉9华为
10黑心疫苗11“低端人群”12美国税改
13红黄蓝幼儿园14中共19大15郭文贵
广告服务 | 联系我们 | 关于我们 | 网站导航 | 隐私保护
Jobs. Contact us. Privacy Policy. Copyright (C) 1998-2025. Wforum.COM. All Rights Reserved.