| 大芯片,再度崛起? | |
| www.wforum.com | 2026-01-25 11:21:44 半导体行业观察 | 0条评论 | 查看/发表评论 |
|
|
|
|
|
|
|
|
2025年开年,AI芯片领域就传出两则重磅的消息: 埃隆·马斯克在社交平台确认特斯拉重启Dojo 3超级计算机项目,其表示特斯拉将成为全球最大的AI芯片厂商; 同为AI芯片行业的重要参与者Cerebras Systems则与OpenAI敲定了一份价值超百亿美元、承诺交付750兆瓦算力的多年采购协议,该产能将在2028年前分批投入使用。 一个是自研训练芯片的“死而复生”,一个是晶圆级系统的商业突破——两条迥异新闻背后,让“大芯片”这一曾被视为异类的技术路线再次站回了聚光灯下。 两种大芯片的分野 在AI芯片的演进史上,大芯片从来不是一个精确的技术术语,而更像是对两种截然不同设计的概括。 一种是以Cerebras为代表的晶圆级单片集成,另一种则是特斯拉Dojo这类介于单芯片与GPU集群之间的“晶圆级系统”。前者追求大道至简,用一整片300毫米晶圆构建单一处理器,后者则走中间路线,通过先进封装将多个预测试芯片集成为类单芯片系统。 这种分野的根源,在于对“内存墙”和“互连瓶颈”两大痛点的不同解法。 传统GPU架构下,处理器与内存的分离导致数据不断在HBM与计算核心间往返。根据技术文献,英伟达从A100到H100,计算能力增加约6倍,但内存带宽仅增长1.7倍,这种失衡让训练时间的主导因素从计算能力转向了内存带宽。而多GPU系统更是将这种开销放大——即便NVLink 6.0已将单GPU带宽推至3.6TB/s,芯片间通信的延迟依然是片上互联的数百倍。 2024年发布的Cerebras WSE-3用4万亿晶体管、90万个AI核心和44GB片上SRAM给出了一个自己的答案:把计算和存储塞进同一块硅片,让数据足不出户就能完成处理。其片上互联带宽达到214Pbps,是英伟达H100系统的3715倍,内存带宽高达21PB/s,是H100的880倍。这种极致的集成密度带来了极致的性能提升,在Llama 3.1 8B模型上跑出1800 token/s的生成速度,而H100仅为242 token/s。 但这种极致也带来了极致的工程挑战。一整片晶圆的良率问题几乎是反摩尔定律的:面积越大,缺陷概率指数级上升。Cerebras的破局之道是将每个AI核心缩小到0.05平方毫米——仅为H100 SM核心的1%,并通过冗余设计和智能路由绕过缺陷区域。这种蚁群式的容错机制让单颗芯片即便存在瑕疵也能维持整体性能,但代价是需要专门的固件映射和复杂的散热系统,WSE-3的23千瓦功耗需要定制的液冷循环和混合冷却剂。 相比之下,特斯拉Dojo走的是介于两者之间的晶圆级系统路线。D1芯片本身只有645平方毫米,但通过5×5阵列排列在载片上,利用台积电InFO封装技术实现高密度互连,让25颗芯片像单一处理器般协同工作。这种设计既避免了单片晶圆的良率风险.每颗D1都可以预先测试,又在一定程度上缓解了多芯片系统的互联瓶颈,芯片间延迟仅100纳秒,远低于传统GPU集群的毫秒级。
特斯拉的务实转向 2025年8月,彭博社报道特斯拉解散Dojo超算团队,这一度被视为自研训练芯片路线的终结。但在短短半年后,Dojo就迎来了重启,而它背后逻辑也已发生根本性转变。 马斯克在社交平台透露,AI5芯片设计状况良好,特斯拉将重启Dojo 3的工作,其将采用AI6或AI7芯片,目标不再是训练地球上的自动驾驶模型,它将专注于“太空人工智能计算”。 这个转向耐人寻味。原本Dojo被定位为对标10万张H100的通用训练平台,摩根士丹利一度估值其能给特斯拉带来5000亿美元增量。但现实是核心团队接连离职,项目在2024年底被叫停,特斯拉转而采购6.7万张H100等效算力组建Cortex集群。背后原因不难理解,尽管D1纸面性能强大,但训练芯片的关键并不是单芯片性能。 英伟达的护城河,是CUDA生态的十几年积累、CoWoS先进封装产能的锁定、HBM供应链的深度绑定。对比之下,特斯拉的自研Dojo2方案即便流片成功,也要在软件适配、集群调度、可靠性工程上补课数年,而这段时间英伟达早已迭代两至三代产品。 特斯拉如今选择的是训练外采和推理自研,其本质上是对机会成本的重新计算。马斯克表示,特斯拉在两种完全不同的AI芯片设计上分散资源不合理,AI5、AI6及后续芯片在推理方面将非常出色,至少在训练方面也相当不错。AI5芯片采用3nm制程,由台积电代工,预计2026年底量产,单颗性能接近英伟达Hopper级别,双芯片配置则可接近Blackwell架构。 更关键的是战略重心的转移。Dojo 3不再是对标GPU集群的通用训练平台,而是面向太空算力部署,马斯克计划通过SpaceX未来的IPO为该设想融资,利用星舰部署可在持续日照下运行的算力卫星。 这种定位的精妙在于:太空算力作为新兴赛道,既没有英伟达的生态壁垒,也不需要与成熟GPU生态正面硬刚,而是开辟全新应用场景。2025年11月,英伟达投资的Starcloud首次将H100发射上天,3天后谷歌宣布要在2027年初将TPU部署到太空,这场太空算力竞赛才刚刚开始。 但即便重启,依旧有其他方面的挑战。据报道,特斯拉已将Dojo 3芯片制造合同授予三星,芯片封装业务交由英特尔承接。这一供应链调整既反映了台积电产能饱和无法为Dojo 3提供积极支持的现实,也暴露出特斯拉在争抢代工产能上的弱势。 Cerebras的精准卡位 如果说特斯拉的Dojo是在试错中重新定位,那么Cerebras与OpenAI的百亿美元合作则是在推理爆发前夜的一次精准卡位。OpenAI承诺到2028年从Cerebras购买高达750兆瓦的计算能力,交易金额超过100亿美元。这笔订单的关键在于OpenAI愿意为所谓的“超低延迟推理”支付溢价。 巴克莱研报预测,未来AI推理计算需求将占通用AI总算力的70%以上,推理计算的需求甚至可以超过训练计算需求,达到后者的4.5倍。当ChatGPT等生成式AI应用从“训练一次、部署多次”转向“持续推理、实时交互”之际,低延迟推理能力的价值陡增。OpenAI基础设施负责人Sachin Katti表示,当AI实时响应时,用户会做更多事情、停留更长时间、运行更高价值的工作负载。 Cerebras的独特速度来自于将大量计算、内存和带宽集成在单个巨型芯片上,消除了传统硬件中减慢推理速度的瓶颈。这种架构优势能够在实际应用中转化为惊人的性能差距。Cerebras WSE-3在碳捕获模拟中跑出比H100快210倍的速度,在AI推理上实现20倍加速。如果Cerebras能持续在规模上提供亚秒级响应,它可能会削减基础设施成本,并为依赖流式响应的更丰富、更对话化的应用打开大门。 但这种商业突破来之不易。在2024年上半年,Cerebras 87%的收入来自阿联酋的G42,这种过度依赖单一客户的状况一度让其IPO计划受阻。2024年10月,Cerebras撤回IPO申请,但持续融资,最新报道称公司正在洽谈新一轮10亿美元融资,估值约220亿美元。OpenAI的订单金额超过了Cerebras目前的公司估值,实际上使OpenAI成为Cerebras最大也是唯一的主要客户,这种紧密关系既是商业突破,也潜藏风险。 知情人士认为,如果OpenAI的财务状况更强劲,它或许会效仿其他科技巨头,直接收购Cerebras及其工程人才和运营基础设施。当前的合作结构更多是出于财务现实而非战略意图。OpenAI CEO Sam Altman早在2017年就个人投资了Cerebras,2018年埃隆·马斯克还曾试图收购Cerebras并入特斯拉,这些历史纠葛让当前合作显得更加微妙。 这笔投资,也在一定程度上促成了供应链多元化。2025年,OpenAI与英伟达、AMD和博通都签署了协议。在9月,英伟达承诺投入1000亿美元支持OpenAI,建设至少10吉瓦的英伟达系统,相当于400万至500万个GPU。OpenAI执行官表示,计算规模与收入增长高度相关,但计算能力的可用性已成为进一步增长的最重要限制因素之一。在这种背景下,Cerebras提供了专为低延迟推理优化的专用系统的差异化选项。 分析师Neil Shah指出,这促使超大规模提供商实现计算系统多样化,针对通用AI工作负载使用英伟达GPU,针对高度优化任务使用内部AI加速器,针对专业低延迟工作负载使用Cerebras等系统。推理场景的碎片化(从对话生成到代码补全到图像渲染)意味着没有一种芯片架构能通吃所有场景,专用加速器的存在价值恰在于此。 生态壁垒的裂痕与机会 无论是Cerebras还是特斯拉,都无法回避一个终极问题:在竞争愈发激烈的当下,大芯片路线的生存空间究竟有多大? 要知道,AI芯片市场早已人满为患,去年6月,AMD推出了MI350X和MI355X两款GPU,训练及推理速度与 B200 相当或更优,而在今年1月,英伟达又在CES上推出了Rubin平台,这两家芯片早已到了一个令人咋舌的更新速度。 当GPU市场走向一超多强,留给第三条技术路线的窗口期急剧收窄——客户可以用AMD这样的通用GPU厂商对冲英伟达,何必冒险押注尚未成熟的晶圆级系统? Cerebras的应对策略是彻底错位竞争。CS-3系统不以训练平台自居,而是主打推理专用机,通过存算一体架构将推理延迟压到极致,同时简化软件栈。这种定位的精妙在于:推理市场的爆发才刚刚开始,生态锁定效应远弱于训练侧,而推理任务的多样性给专用架构留下了施展空间。OpenAI的百亿订单本质上是在用真金白银验证这一商业逻辑,当推理成本占运营支出的大头时,15倍的性能提升足以重塑供应商格局。 而特斯拉,则是押注于先进封装之上。台积电预计2027年推出的晶圆级CoWoS技术,将实现40倍于现有系统的计算能力、超过40个光罩的硅片面积、容纳60+个HBM芯片——这几乎是为晶圆级集成量身定制的工艺路线。 当封装技术允许在单一衬底上集成数十颗预先测试的逻辑芯片和数十块HBM,传统意义上的“大芯片”与“小芯片互联”之间的界限将变得模糊。此前特斯拉D2芯片选择的就是这条路:用CoWoS封装实现晶圆级性能,同时规避单片晶圆的良率风险,未来的Dojo3可能也会在这方面继续进行探索。 重新定义“大”的边界 大芯片再度走入大家的视线,但“大”的边界似乎已悄然改变。 首先是物理尺寸上的“大”——Cerebras那块占据整片晶圆的单芯片依然是技术奇迹,但商业价值被限定在特定场景。Cerebras WSE系统大约需要200万至300万美元,迄今为止部署在阿贡国家实验室、梅奥诊所等机构,以及与G42合作的Condor Galaxy设施。它不会取代GPU成为通用训练平台,但可以在推理、科学计算等对延迟敏感的领域开辟新战场。 其次是系统集成度上的“大”——无论是特斯拉的晶圆级封装,还是英伟达GB200 NVL72的整柜方案——正在成为主流。SEMI报告显示,2025年全球晶圆厂设备支出将达1100亿美元,2026年增长18%至1300亿美元,逻辑微组件领域在2纳米制程和背面供电技术等先进技术投资推动下成为关键驱动力。台积电CoWoS路线图的演进、HBM4的标准化推进、UCIe互联协议的普及,都在推动小芯片异构集成走向系统级单芯片化。 最后是商业模式上的“大”——这是真正的分水岭。OpenAI与Cerebras的合作被广泛视为领先科技公司吸收有前途的AI芯片初创公司的又一例证,无论是通过直接收购,还是通过独家、大规模的商业合作关系,有效地将这些初创公司纳入一个主导的生态系统。SambaNova、Groq和Cerebras各自采用了不同的技术方案,多年来被视为少数几家能够在特定工作负载方面与AI芯片市场行业领导者竞争的利基挑战者,但随着竞争加剧和客户接受度持续有限,许多此类初创公司难以突破与主要客户的试点部署阶段。 特斯拉Dojo的停摆与重启,本质上是一次昂贵的商业试错——它验证了全栈自研训练芯片对非云巨头不具可复制性,但也为推理侧的自主可控保留了技术储备。Cerebras与OpenAI的联姻,则是在推理爆发前夜的一次精准卡位,用晶圆级架构的极致性能换取垂直场景的定价权。 在摩尔定律放缓、先进封装接力、AI场景碎片化的三重背景下,晶圆级集成这条看似小众的技术路线,正在以意想不到的方式重新定义“大”的边界。 它们不是要复刻英伟达的成功,而是在AI算力版图的裂隙中,找到那些被通用方案忽视的价值洼地。从这个意义上说,它不是崛起或没落的二元叙事,而是一场关于如何在巨人阴影下生存,并最终开辟新疆域的持久战。 |
|
|
|
|
|
|
| 突发!《央视》宣告张又侠刘振立… | |
| 伊朗终于盼来救兵:数千援军一眼望不到头 | |
| 网传习张翻脸内幕、张又侠家门口便衣.... | |
| 含泪签下苏-57 印度终为当年的狂妄买单 | |
| 055甘当“绿叶”?2万吨级“怪兽”呼之欲出 |
