AI的天要塌了，50美元训练的大模型横空出世-时事新闻-世界论坛网（电脑版）

首页

即时

热点

图片

论坛

简体/繁体 | 广告服务 | 联系我们 | 关于我们 |

世界论坛网 > 时事新闻 > 正文

AI的天要塌了，50美元训练的大模型横空出世
www.wforum.com \| 2025-02-07 09:33:34 你们的中产先生 \| 0条评论 \| 查看/发表评论




蒸馏大法好。今天，AI行业突然传出一个爆论：斯坦福用50美元就跑出了媲美DeepSeek的大模型。我一开始是有点不相信的，之前即便是DeepSeek用600万美元训练大模型，都被认为是不可能，50美元，怎么可能？但是后来我发现居然是真的。主要找到两个信息： 1、跑出这个模型的人是李飞飞李飞飞是业界公认的国内最顶尖的AI人员，号称AI教母，她16岁才去的美国，甚至表示以后得了诺贝尔奖的话要以中国人的身份领奖，有她做背书，可信度大大提升。 2、我找到了这个大模型论文原文发在论文预印本网站arxiv上的（https://arxiv.org/html/2501.19393v1），那就更不可能有假了。但我还是觉得震惊。机翻了一下论文，终于了解了一个大概。这个模型叫S1，是怎么训练成功的呢？先说结论： S1是用知识蒸馏的方式通过低成本训练出了推理能力。再详细来说： S1本身是有一个大模型，名字就不说了，这个大模型的推理能力不太行，李飞飞团队是怎么做的呢？蒸馏了1000条谷歌Gemini 2.0的数据，然后用16块H100 GPU、26分钟就训练出了推理能力。当然，这个50美元只是云计算的费用，不包括购置显卡的硬件费用，因为硬件不是一次性使用，26分钟的使用摊薄费用也没必要。接下来，由这个具备了推理能力的S1对原来的大模型进行监督微调，就这样之前的大模型瞬间有了灵魂脱胎换骨，直接可以媲美DeepSeek甚至是OpenAI。我的理解就是：推理能力是核心，一旦训练出来就一通百通。这个研究其实跑出了一个新方向：只要蒸馏的数据质量足够高，很低的成本就可以训练出高质量的推理能力，这简直把AI的天给翻了。算力还是王道吗？知识蒸馏才是大法好啊。现在我有点相信，DeepSeek可能真的只花了600万美元就训练出这么厉害的模型了。这简直是开创了AI新时代。以后小模型训练更方便了，甚至每个人都能训练自己的小模型了，信息平权的时代这么快就到了？ OpenAI现在堵知识蒸馏的口子还来得及吗？要不然干脆放开付费调用吧。笑。就这样。

当前新闻共有0条评论	分享到：

评论前需要先登录或者注册哦

全部评论

暂无评论

	实用资讯

24小时新闻排行榜

	击落“阵风” 巴铁没使用歼10C和红旗9P
	使用中国装备的巴铁，不只打疼了印度？
	印巴空战8：1，达索要求印“禁飞”阵风？
	印空军遭遇三战以来最惨败巴方公布四大证
	印巴空战逆天宣传效果堪比数届航展

48小时新闻排行榜

	击落“阵风” 巴铁没使用歼10C和红旗9P
	使用中国装备的巴铁，不只打疼了印度？
	印巴空战8：1，达索要求印“禁飞”阵风？
	印空军遭遇三战以来最惨败巴方公布四大证
	印巴空战逆天宣传效果堪比数届航展
	巴外长曝猛料：歼-10C本可团灭15架“阵风”
	莫迪咽不下这口气 30小时后再次挑起战火
	多残骸曝光！印度阵风战机证实被击落
	性质全变了，日本连续3架飞机直闯钓鱼岛领
	印度触碰“国际红线” 导弹炸向中巴大坝

热门专题

1	中美对抗	2	以哈战争	3	乌克兰战争
4	美国大选	5	李克强猝逝	6	新冠疫情
7	香港局势	8	委内瑞拉	9	华为
10	黑心疫苗	11	“低端人群”	12	美国税改
13	红黄蓝幼儿园	14	中共19大	15	郭文贵

广告服务 | 联系我们 | 关于我们 | 网站导航 | 隐私保护

Jobs. Contact us. Privacy Policy. Copyright (C) 1998-2025. Wforum.COM. All Rights Reserved.