世界论坛网 > 时事新闻 > 正文  
浙江私募大佬,一夜震惊硅谷
www.wforum.com | 2025-01-17 15:03:57  华商韬略 | 0条评论 | 查看/发表评论

墙内自媒体华商韬略文章:2024年冬天,杭州。

当西方还沉浸在圣诞节的狂欢中时,一位中国码农,站在巨大的落地窗前,远眺着窗外的京杭大运河。

几分钟后,他做了一件令硅谷震惊的事。

01 来自东方的神秘力量

“一种新的模式,让整个山谷都嗡嗡作响!”

美国CNBC电视台在报道这件事对硅谷的影响时,这样评价道。

12月26日,杭州一家名为“深度求索”的中国初创公司,发布了全新一代大模型:

DeepSeek-V3。

在多个基准测试中,DeepSeek-V3的性能均超越了其他开源模型,甚至与顶尖的闭源大模型GPT-4o不相上下。

尤其在数学推理上,DeepSeek-V3更是遥遥领先。

令人惊讶的是,DeepSeek-V3在性能比肩GPT-4o的同时,研发却只花了558万美元,训练成本不到后者的二十分之一。

这让美国人彻底坐不住了。

在此之前,谷歌和Open AI花了几年时间,耗资数亿甚至数十亿美元,调用了几万块最先进的GPU,才干成同样的事情。

强烈的对比,让美国人反思:大模型和算力,是否还值得投资?

很多硅谷大佬在纷纷点赞的同时,也体验到中国科技带来的苦涩:当美国人休息时,他们在奋力追上我们!

有意思的是,这件事与中国空军六代机现身,几乎前后脚发生。

不少美国人认为,这比六代机更像上世纪50年代,苏联抢先发射第一颗人造卫星的斯普特尼克时刻。

然而,真正让美国硅谷感到震撼的,还不是DeepSeek-V3的高性能、低成本,而是中国人展现出的首创精神。

中国AI公司过去几乎都在照搬硅谷,以致人们普遍认为:美国擅长从0到1的技术突破,而中国只擅长从1到100的应用落地。

DeepSeek-V3打破了这种成见,它以MLA、DeepSeekMoE等多项开创性技术,大幅提升了模型的性能和训练效率。

美国人惊讶地发现,原来中国公司也可以作为创新贡献者,在他们的游戏之外,自定游戏规则。这在过去是极其罕见的。

因为表现太过优越,DeepSeek在硅谷被誉为来自东方的神秘力量。

这股神秘的东方力量,令人称奇的地方在于,它幕后的资方并不是腾讯、阿里这样的互联网巨头,而是一家低调的私募基金——幻方量化。

目前,国内拥有万卡GPU的企业不超过5家,幻方就是其中之一。

它在2023年成立子公司“深度求索”,开始DeepSeek大模型的研发,整个团队只有139名成员,远少于OpenAI的1200人。

执掌这支战队的,是一个叫梁文峰的80后,也是幻方量化的创始人。

02 当好奇心驱动了疯狂

梁文峰和幻方的故事,始于2008年。

那一年,从浙大毕业、主修软件工程的他,没有像同龄人一样,进入大厂当码农,而是一个人跑到成都,蜗居在出租屋里。

在那里,梁文峰开始研究用计算机赚钱的各种路子。

几番折腾下来,他决定下场做量化投资。但这个决定并不容易,毕竟当时量化在国内还是个新事物。

很多人并不相信,量化可以赚钱。

每当困难时,梁文峰总会想起量化投资之父西蒙斯的一句话:一定有办法对价格建模。

在这个信念支撑下,梁文峰苦苦熬了两年,终于柳暗花明。2010年,沪深300股指期货推出,量化投资迎来了春天。

乘着这股东风,梁文峰和他的团队大赚一笔,自营资金超过5亿元。

也就是同一时期,随着深度学习算法的突破,人工智能大爆发。早年在浙大就研究人工智能的梁文峰,燃起雄雄斗志。

2015年,他和浙大校友,共同创立了幻方量化。

几个意气风发的年轻人,试图用数学和人工智能,在中国打造一个像文艺复兴那样世界顶级的量化对冲基金。

仅仅一年后,他们就上线了第一笔由AI驱动的实盘交易,并在随后,将所有交易策略都AI化。

新技术的加持,让幻方量化旗下基金回报率,远超同期沪深300指数。

这推动幻方量化基金规模持续攀升,2021年一度超千亿元大关,位列国内量化四大天王之一。

然而,基金规模膨胀的同时,梁文峰却面临一个棘手问题。

AI交易策略需要算力支持,尤其是,随着模型参数的激增,对GPU算力的需求也在不断增长。

如何破解这一难题?梁文峰的选择是:堆算力!

从2019年开始,幻方量化大规模布局AI算力。

当年就投资2亿元,建成“萤火一号”AI算力集群,搭载1100块GPU算卡。而彼时的特斯拉,才刚刚提出Dojo超算概念。

几个月后,当英伟达发布最新A100芯片时,梁文峰再次抢跑,成为亚太地区第一批拿到此卡的人。

紧接着2021年,他又投资10亿元,建成“萤火二号”,搭载1万A100算卡,算力相当于76万台个人电脑。

其占地面积,比10个篮球场还要大。

在AI大模型还没有爆发的年代,梁文峰的举动,让很多人感到疯狂。

一家私募基金囤这么多算力,究竟意欲何为?甚至有媒体抱怨:幻方量化把A股散户吓坏了。

外界对幻方量化的想象,还停留在资本市场上。

但梁文峰的目光,早已望向星辰大海。

2017年,谷歌研究团队在一篇开创性的论文中,首次提出Transformer架构。这是一种完全基于注意力机制的神经网络,它颠覆了过去的传统算法。

一家叫OpenAI的美国初创公司,基于新架构不断训练自己的大模型。最终在2022年以ChatGPT引爆AI大模型时代。

此后,全球互联网巨头,沿着OpenAI的路线推进,很少有人质疑。

但一群初生牛犊的年轻人,在梁文峰的带领下,干了一件极其疯狂的事:他们试图改进Transformer架构。

事实上,从2023年创立深度求索,进军大模型的第一天起,梁文峰及其团队对算法框架的反思就开始了。

当别人陷入简单模仿OpenAI的惯性中时,这群年轻人不走寻常路。

他们冒着失败的风险,大胆尝试了MLA(多头潜在注意力机制)、DeepSeekMoE(混合专家模型)等多种开创性技术。

几年前囤下的海量算力芯片,为他们的梦想,插上了翅膀。

最终,这群年轻人创造了历史:DeepSeek-V3横空出世,一夜震惊了硅谷。

03 “中国不可能永远跟随!”

对比中美科技产业,我们常常感叹:

中国为什么出不了像乔布斯、马斯克、黄仁勋一样伟大的企业家?

乔布斯生前只有一个目标:活着,就是为了改变世界。

黄仁勋早在青年时,就立下雄心壮志:要做不一样的事,要彻底改变计算。

马斯克更是疯狂地喊出:要殖民火星,为人类寻找第二家园。

相比之下,中国企业家似乎把更多的目光,放在了赚钱和生存上,很少抬头仰望星空,对创新的重视也不够。

事实上,过去30年,我们已经习惯摩尔定律从天而降,躺在家里18个月就会出来更好的硬件和软件。

这使得我们在一轮又一轮的IT浪潮中,基本没有参与到真正的技术创新里。

但这种局面,在近几年悄然改变,中国新生代企业家正以突破性创新,在西方的游戏之外另起炉灶。

“中国也要逐步成为创新贡献者,而不是一直搭便车。”梁文峰表示。

早在上大学时,梁文峰就笃定:AI一定会改变世界。毕业后,他在量化投资上,赚了足够多的钱。

这使得他,有足够的资本,听从内心的声音,去做自己喜欢的事情,而不是首先权衡利弊得失。

DeepSeek创立之初,就确立了核心使命:探索通用人工智能的本质!

在中国AI界,还很少有企业敢提出如此疯狂的目标。

于是,过去几年,当很多大模型厂商忙着抢用户,做商业化变现时,梁文峰却苦哈哈搞起了看似不赚钱的基础研究。

“创新不完全是商业驱动的,还需要好奇心和创造欲。”他说。

在梁文峰看来,中国企业在过去被商业驱动的惯性束缚了。他希望DeepSeek能摆脱这种束缚。

这样的经营理念,在当下的中国企业界,显得有点离经叛道。

曾经有不止一位业内人士表示:

梁文峰是中国AI界非常罕见的人,他拥有恐怖的学习能力,兼具强大的infra工程和模型研究能力,又能调动资源。

在内部员工看来,梁文峰则完全不像老板,更像一个极客。

时至今日,他依旧延续着低调的作风,和公司其他研究员一样,每天看论文,写代码,参与小组讨论。

这个低调的大佬,就连选人、用人的方式也跟主流格格不入。

当很多大模型公司热衷于去海外挖人时,梁文峰却反其道而行之,坚持从本土招人,并放出豪言:

“世界前50名顶尖人才可能不在中国,但也许我们能自己打造这样的人。”

不仅没有海外人才,也没有行业大佬。梁文峰更喜欢没有经验的年轻人,因为他们不受条条框框的束缚。

在DeepSeek,选人的标准一直都是热爱和好奇心。

事实上,这家初创公司并非外界传言的,有一批高深莫测的奇才,而都是一些毕业才几年的年轻人。

甚至,很多是北大、清华等Top高校还没毕业的博四、博五实习生。

因为工作太前沿,这些年轻人在开展工作时,几乎没有参考资料。但也正是这种空白,让他们敢于突破传统。

比如,DeepSeek-V3最重要的创新之一MLA架构,就来自一个年轻人的突发奇想。

DeepSeek内部,也没有上下级分工。

研究过程中,如果有想法,每个人都可以拉人讨论,并随时调用公司训练集群的卡,无需审批,不设上限。

这种看似松散的管理方式,极大地调动了所有人的好奇心和创造欲,让DeepSeek-V3得以横空出世。

在梁文峰身上,我们依稀看到了乔布斯、马斯克、黄仁勋的影子。

“中国AI不可能永远处在跟随的位置!”

“真正的差距不是一年或两年,而是原创与模仿之差。”

这两句从梁文峰口中喊出的话,不仅事关AI产业,也是中国企业在跟随、模仿了西方几十年后,不得不面对的突破方向。

低垂的果子都被摘完了,只有敢于突破,才能找到新的出路。

梁文峰并不孤单。

今天,从大疆无人机汪滔,到宇树机器人王兴兴……一大批新生代企业家,正将中国科技产业带向无人区。

(0)
当前新闻共有0条评论 分享到:
评论前需要先 登录 或者 注册
全部评论
暂无评论
查看更多
实用资讯
24小时新闻排行榜
印度开始拉闸断水 中美俄罕见反应一致
印度刚晒印巴装备差距 不料外界泼冷水
中国超轻型60mm迫击炮 钛合金打造?
潜舰都快造好了 中国突然遭毁约 被群嘲了
1.2万朝军赴俄“血战”,换回了什么?
48小时新闻排行榜
印度开始拉闸断水 中美俄罕见反应一致
印度刚晒印巴装备差距 不料外界泼冷水
中国超轻型60mm迫击炮 钛合金打造?
潜舰都快造好了 中国突然遭毁约 被群嘲了
1.2万朝军赴俄“血战”,换回了什么?
印度大坝开始蓄水 莫迪要冒天下之大不韪?
乌军各级官兵,对朝军战力评价如何?
中国六代机恐用新型航发 推力比涡扇15更大
什么原因?北京迟迟不敢发布…
不再掩饰!美军在中国周边开展实战化演习
热门专题
1中美对抗2以哈战争3乌克兰战争
4美国大选5李克强猝逝6新冠疫情
7香港局势8委内瑞拉9华为
10黑心疫苗11“低端人群”12美国税改
13红黄蓝幼儿园14中共19大15郭文贵
广告服务 | 联系我们 | 关于我们 | 网站导航 | 隐私保护
Jobs. Contact us. Privacy Policy. Copyright (C) 1998-2025. Wforum.COM. All Rights Reserved.