裁剪:乔杨 好困
【新智元导读】最近,许久莫得新动向的马斯克放出了大音讯——他旗下的东说念主工智能初创公司xAI将插足巨资建造一个超算中心,以保证Grok 2及之后版块的锻真金不怕火。这个「超等料想打算工场」预测于2025年秋季建成,规模将达到咫尺最大GPU集群的四倍。
前段时间,OpenAI、谷歌、微软接踵开大会,AI圈子的竞争热火朝天。
这样吵杂的时候,怎么能少得了马斯克。
前段时间忙着特斯拉和星链的他,最近好像初始腾开头,而且不鸣则已、一鸣惊东说念主,径直放出一个大音讯——我方要造全国上最大的超算中心。
本年3月,他旗下的xAI发布了最新版的Grok 1.5,而后一直关联于Grok 2行将面世的神话,但却迟迟莫得官方音讯。
难说念是因为算力不够?
没错,亿万财主可能也买不到饱和的芯片。本年四月他曾亲身下场暗示,莫得饱和多的先进芯片,推迟了Grok 2模子的锻真金不怕火和发布。
他暗示,锻真金不怕火Grok 2需要好像2万个基于Hopper架构的英伟达H100 GPU,并补充说Grok 3模子及更高版块将需要10万个H100 芯片。
特斯拉第一季度的财报也深入,公司此前一直受到算力的规章,其时马斯克的料想打算如故年底前部署8.5万个H100 GPU,将xAI从红杉成本和其他投资者那处筹集的60亿好意思元中的大部分皆花在芯片上。
咫尺每台H100的售价约为3万好意思元,不算建造用度和其他奇迹器征战,只是是芯片就需要花掉28亿好意思元。
字据马斯克的估算,这个芯片储量锻真金不怕火Grok 2绰绰过剩。
但可能老马想考了一个月之后,以为这一步迈得还不够大,不够有打破性。毕竟xAI的定位是要和OpenAI、谷歌这种强壮敌手正面掰头的,以后想锻真金不怕火模子可不行再因为算力掉链子。
于是,他最近公开暗示,xAI需要部署10万个H100来锻真金不怕火和运行Grok的下一个版块。
而且,xAI还料想打算将系数芯片串联成一个宏大的料想打算机——马斯克称之为「超等料想打算工场」(Gigafactory of Compute)。
老马这个月依然向投资者暗示,他但愿在2025年秋季之前让这台超等料想打算机运行起来,而且他将「个东说念主崇敬依期委派超等料想打算机」,因为这关于开发LLM至关紧要。
这台超算可能由xAI与Oracle配合共建。这几年来,xAI依然从Oracle租用了带有约1.6万个H100芯片的奇迹器,是这些芯片最大的订单来源。
若是不发展我方的算力,将来几年xAI在云奇迹器上很可能就要破耗100亿好意思元,算下来确切如故「超等料想打算工场」相比省钱。
咫尺最大GPU集群
这个「超等料想打算工场」一朝完工,规模将至少是刻下最大GPU集群的4倍。
比如Meta官网在3月发布的数据深入,他们其时推出了2个包含2.4万个H100 GPU的集群用于Llama 3的锻真金不怕火。
天然英伟达依然文告本年下半岁首始出产并委派全新架构Blackwell的B100 GPU,但马斯克咫尺的料想打算如故采购H100。
为什么无谓最新式号的芯片,反而要大宗量购入将近淘汰的型号?这其中的原因,老黄本东说念主向咱们讲明过——「在今天的AI竞争里,时间很紧要」。
英伟达会每一年更新一代家具,而若是你想等我的下一个家具,那么你就丢失了锻真金不怕火的时间和先发上风。
下一个达到里程碑的公司认知告一个打破性的AI,而接下来的第二名只在它上头进步0.3%。你要遴荐作念哪一种?
这便是为什么一直作念时期跨越的公司很紧要,你的客户会在你上头缔造况兼笃信你会一直跨越。这内部时间很紧要。
这便是为什么我的客户当今依然纵容的在缔造Hopper系统。时间便是一切。下一个里程碑巧合就来。
可是,期货投资即使一切获胜,「超等料想打算工场」在马斯克的「个东说念主崇敬」下依期委派,这个集群到了来岁秋天是否仍然有规模上风,亦然一个未知数。
扎克伯格本年1月也曾在Instagram上发帖,称Meta到本年底将再部署35万个H100,加上之前的算力所有这个词相等于60万个H100,但他并未说起单个集群的芯片数目。
但这个数字没过半年就险些翻了一番,5月初Llama 3发布前,有音讯称Meta已从英伟达特别购买了50万块GPU,总和达到 100 万块,零卖价值达300亿好意思元。
同期,微软的筹议是到年底领有180万个 GPU,OpenAI以致愈加激进,但愿为最新的AI模子使用1000万个GPU。这两家公司也在参议开发一个价值1000亿好意思元的超等料想打算机,包含数百万个英伟达GPU。
这场算力之战,终末谁会胜出呢?
应该是英伟达吧。
而且不单是是H100,英伟达CFO Colette Kress也曾提到过一份Blackwell旗舰芯片的优先客户名单,包括OpenAI、亚马逊、谷歌、xAI等等。
行将投产的B100,以及英伟达之后将要一年一更的芯片,将会辍毫栖牍地进入科技巨头们的超算中心,匡助他们完成算力的升级迭代。
芯片穷乏,电也不够
马斯克在谈到特斯拉的算力问题时也补充说,天然迄今为止芯片穷乏是AI发展的一大制约要素,但电力供应在将来一两年将至关紧要,以致会取代芯片成为最大的规章要素。
包括新建的这家「超等料想打算工场」的选址,最需要筹议的要素亦然电力供应。一个领有10万GPU的数据中心可能需要100兆瓦的专用电力。
要提供这种量级的电力,xAI总部办公室处所的旧金山湾区彰着不是想象的遴荐。为了裁汰成本,数据中心时时建在电力更低廉且供应更充足的偏远地区。
举例,微软和OpenAI除了料想打算阿谁耗资千亿好意思元的超算,也正在威斯康星州建造大型数据中心,缔造成本约为100亿好意思元;亚马逊云奇迹的数据中心则选址在亚利桑那州。
「超等料想打算工场」一个非常可能的选址,是特斯拉总部,德克萨斯州奥斯汀市。
旧年特斯拉文告建造的Dojo就部署在了这里。这台超算基于定制芯片,匡助锻真金不怕火AI自动驾驶软件,也不错用于向外界提供云奇迹。
第一台Dojo运行在1万个GPU上,建形成本约为3亿好意思元。马斯克4月暗示,特斯拉咫尺共有3.5万个GPU用于锻真金不怕火自动驾驶系统。
在数据中心进行模子锻真金不怕火是一个极其耗电的历程。据料想,锻真金不怕火GPT-3的耗电量为1287兆瓦时,好像相等于130个好意思国度庭每年破钞的电量。
细心到AI电力问题的CEO不啻马斯克一东说念主,Sam Altman本东说念主曾向初创公司Helion Energy投资3.75 亿好意思元,这家公司旨在愚弄核聚变提供一种更环保、更低成本的 AI 数据中心运行表情。
马斯克则莫得押注在核聚变时期上,他认为,AI公司很快将初始争夺降压变压器(step down transformer),不错将高压电流相似为电网可用的电力,「从公用电网取得的电力(举例 300 千伏)降至 1 伏以下是一个宏大的下落」。
芯片之后,AI行业需要「transformers for Transformers」。