查看原文
其他

CoreWeave首席战略官:英伟达今年芯片已经卖完了,我们的订单已经排到明年Q2了~

有新 有新Newin 2023-10-09



CoreWeave 是这波生成式 AI 过程中发展比较神奇的一家公司,目前是一家专为大规模 GPU 加速工作负载而打造的云提供商,实际上这家公司在 2017 年就成立了,公司三位创始人之前都是干商品交易、对冲基金和家族办公室的。


CoreWeave 当时主要经营以太坊加密货币挖矿,而在 2018 年居然干到了北美最大的以太坊矿工!当时的 CoreWeave 就已经部署了超过 50000 个GPU,代表了以太坊网络的 1% 以上。


2019 年的时候,CoreWeave 的创始人们觉得挖矿这做起来太没有壁垒,发现零售 GPU 和企业级 GPU 有很大的套利空间,于是乎开始采购这个企业级芯片,包括 A100,并花了 4 年搭建云平台,在这个过程中开始将公司业务转向关到通用计算机和生成式 AI。


PS:最近开始尝试运营知识星球会员群,更新不限于公众号目前的内容,配套 AI项目的数据库,也会同步不错的资料与内容,感兴趣长按扫码即可加入~


8 月 3 日,CoreWeave 宣布完成了 23 亿美元的债权融资,这笔资金将用于 AI 培训的新设备,本轮融资由 Magnetar Capital领投,DigitalBridge、Coatue、PIMCO、贝莱德、Great Elm、凯雷等跟投,而在 5 月 31 日,CoreWeave 才刚完成 4.21 亿美元的 B 轮融资。


目前来看,CoreWeave 似乎想要围绕芯片技术构建一个庞大的生态系统,提供与芯片相关的开源软件和服务,以帮助用户更轻松地使用他们的芯片,并提供适合用户需求的定制化设置。


这期内容带来 CoreWeave 联合创始人&首席战略官 Brannin McBee 在彭博社的采访,除了回顾 CoreWeave 的发展,随之还有 Brannin 对于生成式 AI 这波最底层的 GPU 市场需求洞察(个人认为非常精彩)英伟达不可替代的优势,以及作为一家创业公司的 CoreWeave 挑战硅谷云服务大厂的底气是什么?


此外,Brannin 还谈到了整个行业商业化的问题,尽管目前 AI 处于炒作周期,许多公司都在构建 AI 模型和应用,但这种繁荣是否能持续取决于这些公司的成功和商业化变现的能力,如果整个行业的末端 AI 产品本身很难商业化,那么这种繁荣就有可能戛然而止,毕竟技术天天变,这位首席战略官自己也感叹。


下面是这期内容的话题:


  • 前身:对冲基金,干到北美最大以太坊矿工,

  • 投我 1亿美元, 我是不是也能造个GPT

  • 英伟达今年芯片卖光了,我们订单排到明年Q2了

  • GPU 集群搭建和CPU的差异

  • 云服务大厂,船大难掉头

  • 为什么英伟达,AMD 不 Yes?

  • 推理GPU需求是训练的百倍,一般人玩不起

  • 新的数据中心是耗电大户,4倍电力才满足



前身:对冲基金

干到北美最大以太坊矿工


Tracy Alloway 

我可以问一下关于贵公司自身的发展吗?因为我记得你们最初是从以太坊挖矿开始的。在某个时候,我相当确定加密货币挖矿在你们的业务中是一个重要的,如果不是最重要的部分,但你们显然已经适应或者转向了 AI 领域。那么这个过程是怎样的?你能描述一下你们在发展历程中看到的一些趋势吗?


Brannin McBee

是的,没错。我们确实是在 2017 年左右开始进入加密货币领域的。这源于我和我的两位联合创始人,我们曾经是商品交易员,经营对冲基金和家族办公室;因此我们在能源市场进行交易,我们一直被供需机制所吸引。


但是在加密货币领域吸引我们的是这种无需许可的收入流,对吧?我知道电力成本,我知道硬件使用电力的收入能力。因此,这实际上是一种套利机会,对吧?所以我们进行了探索。


我们在我们的地下室里建立了一些基础设施,正如你所说的,我们是在我们的地下室里开始的,然后很快就扩大到了仓库规模,在 2018 年的某个时候,我们成为了北美最大的以太坊矿工,超过 50000 个GPU,代表了以太坊网络的1% 以上。


在整个过程中,我们一直认为没有什么壁垒,没有什么可以相对于竞争对手创造出来的优势,当然你可以专注于电力价格,追求最便宜的电力,但那只是在追逐最低点。我们本可以进入生产自己的芯片领域,因为如果生产自己的芯片,并在其他人获得它之前运行挖矿设备,那么在这段时间内你就占有了优势,但我们不打算设计和制造自己的芯片。


我们一直回到了 GPU 计算这个问题,如果我们能做其他的事情会如何?比如,能够在多个高增长市场中开发不相关的选择权,而这些市场正是我们今天主要涉足的领域,包括 AI 、媒体和娱乐以及计算化学。


最初的构想是,每当我们的计算资源没有被分配到这些领域时,我们就将其用于挖掘加密货币,这样我们就可以建立一个令人惊叹的公司,使基础设施实现 100% 的利用率,因为它可以立即从 AI 工作负载中释放出来,转而回到以太坊网络中,在2021年,当我们的云平台上线并拥有 AI 客户时,我们确实曾经短暂地以这种方式运营,但在 2022 年第三季度的合并过程中,以太坊挖矿实际上已经结束了。


我想说的另一件事是,我们从未意识到运营云服务提供商的极度复杂性,先不考虑业务的软件方面,单单是为了构建一个现代化的云平台、进行基础设施编排并真正成为云服务提供商,我们花了大约 4 年时间开发软件,而整个行业广泛使用的组件是这些零售级别的 GPU,这些是你插入桌面电脑上玩游戏的那种东西;在那段时间里,要找到用于加密货币挖矿的基础设施真是太疯狂了


Joe Weisenthal 

所有的视频游戏玩家都讨厌加密货币人,因为他们想玩游戏,然后他们会排队,像是 GameStop,但是他们买不到,因为你们先得到了芯片,并从中获得更多价值,以便你们可以抬高价格。 


Brannin McBee

确实是问题的一部分,但最终我们发现,就像那些芯片一样,它们不适合用于运行企业级工作负载,它们不能支持全球最大的 AI 公司;从2019年开始,我们停止购买任何这些芯片,只专注于购买英伟达提供的企业级 GPU 芯片组,他们大概有 12 种不同的产品规格,包括 A100 和 H100 芯片,并将我们的业务定位在这些芯片上。


我不指望看到这种被用于加密货币挖矿的旧式零售级 GPU 设备被大量重新利用,因为在加密货币挖矿中,你想购买的是能够完成任务的最便宜的芯片,它们可以参与加密货币挖矿,但是零售级芯片与企业级芯片之间存在巨大的价格差异。


零售级芯片只需插入电脑即可用于玩视频游戏,而企业级芯片可以全天候运行,它们没有停机时间,故障率低,并且在技术和价格上与加密货币挖矿所需的芯片有很大的差别;企业级工作负载对可用时间的容忍度以千分之一的百分比来衡量,这是一种不同类型的基础设施。因此,我们不指望这些组件能够被重新使用,或者即使能够被重新使用,也不会有太多。


回到对话的最开始,我们谈到了这些设备所在的数据中心。正如之前所说,我们位于 Tier3 和 Tier4 数据中心,这基本上是能够为这种工作负载提供服务的行业标准,而加密货币挖矿设备则位于 Tier0 和 Tier1 数据中心,这些设备具有高度的可中断性,它们能够执行一些有趣的任务,比如帮助平衡电力市场,当电力价格过高时,它们会关闭以平衡电网。


企业级 AI 工作负载对此没有容忍度,它们的可用时间容忍度再次以千分之一的百分比来衡量。因此,不仅基础设施无法满足加密货币挖矿的需求,而且它们所在的数据中心也不适用于当前的配置,它们有可能将自己的站点转换为 Tier3 和 Tier4  数据中心。这本身就是一项极具挑战性的任务,需要大量的专有知识和行业专业知识才能完成,不仅仅是在房间里放几个风扇和几个空调设备那么简单,它实际上感觉就像走进了一艘太空船。


Tracy Alloway 

我看到过关于重新利用加密货币GPU的估计,我想我看到过像是5到15%之间的数字,我相信会有人尝试。 


Brannin McBee 

作为一个曾经是这种基础设施的极大运营商,并构建了最大的面向 AI 工作负载的云服务提供商之一,我可以告诉你,这样做是非常困难的,因为我们在这两个领域都有所涉猎。到头来,它们只是非常不同的业务,无论是从你雇佣的工程师和开发人员的类型,还是基础设施和所处的数据中心。



投我 1亿美元, 

我是不是也能造个GPT

“太天真了”


Joe Weisenthal 

如果现在有家 VC 给到我们 1 亿美元投资,让我们创办一家与OpenAI竞争,开发基于LLM的 GPT,你觉得我现在打电话给英伟达能买到芯片吗?


Brannin McBee 

我认为所有人都在问这个问题,现在市场对于基础设施的需求量变得非常大,可以说它是目前地球上最关键的信息技术资源之一,突然间每个人都需要它,即 AI 软件被接受的速度是前所未见的,这也要求基础设施与之保持同步发展速度,目前的基础设施实际上已经造成了巨大的供需失衡,非常有限的基础设施可供购买,这个问题未来一段时间内将持续存在。


Tracy Alloway 

那么 CoreWeave 到底是做什么的?


Brannin McBee 

CoreWeave 是一家专门从事高度可并行化工作负载的云服务提供商,在规模上构建和运营全球性能最强的 GPU 基础设施,并主要服务于三个领域,即 AI、媒体娱乐和计算化学领域,专注于在超级计算规模上构建这种基础设施,字面上可以达到 16000 个 GPU 架构,我们可以详细讨论构建过程的复杂性,但构建这些基础设施是为了让客户能够使用它们来训练下一代基础机器学习模型,我们发现自己在这方面比其他任何人都做得更好。目前,在全球范围内,我们是唯一一个可以大规模提供 H100 的公司。


Tracy Alloway 

当你们说帮助客户构建基础设施时,我们应该如何理解这一点?这种类型的 AI 基础设施实际上是什么样的?与其他大规模技术项目的基础设施有什么区别?


Brannin McBee 

我认为在上一次英伟达财报会议中,Jensen(黄仁勋)做出了很好的解释,我们正处于一个为期 10 年的数据中心现代化的第 1 年,或者说是使数据中心智能化的过程,你可以认为上一代或者 2000s 的数据中心由 CPU、计算、存储等组成,它们之间并没有真正智能地协同工作,而英伟达的定位是打造一个智能的数据中心,即数据、数据包和不同基础设施之间的智能路由,这一切都专注于如何扩展基础设施之间的吞吐量和可通信性。这是一种非常不同的数据中心部署方法。


因此,我们正在构建的东西与所谓的 Tier3 或 Tier4 数据中心相符,CoreWeave 与这些数据中心合作进行合作定位, Tier3 或 Tier4 数据中心是指具备极高工作负载服务能力的合格数据中心,其可用性达到 99.999%,这是通过其电力冗余、互联网冗余、安全性以及与互联网骨干网的连接来保证的。因此,作为第一步,你会位于这些数据中心中,它们是互联网基础设施的关键部分。然后,你开始在其中构建服务器。


Joe Weisenthal 

你能简单地解释一下 Tier3 和 Tier4 是什么意思吗?


Brannin McBee 

Tier3 和 Tier4 ,这都与你所在的数据中心的质量有关,这一切都关乎你应该能够在该数据中心实现的可靠性和正常运行时间,这是对其周围服务进行资格认证的另一种方式,比如你可以获得冗余电力,即多个电力服务,以防一个掉线,还可以获得冗余的冷却和冗余的互联网连接。所有这些服务实际上都有助于确保你以最高的正常运行时间和安全级别运行。



英伟达今年芯片卖光了

我们订单排到明年Q2了


Joe Weisenthal 

我猜这与谁能获得什么、谁能获得芯片有关,不仅需要大量的资金来与英伟达建立关系,还可能需要规划下一年发展,规划真的很难,当你有这种 AI 、机器语言,无论怎样,然后突然间 ChatGPT 之类的东西出现了,突然间每个人都想获得 AI 的接入,和我们谈谈这种情况下你们是如何进行规划并迎接挑战的? 


Brannin McBee

是啊,很疯狂,对吧?回到去年,供应链和获得零部件的能力,你要联系OEM,OEM就是那些超微、技嘉这样的原始设备制造商,他们实际上建造节点、构建服务器,你通过他们购买,然后他们从英伟达购买GPU,并将所有组件组装在一起,如果你给他们打电话说,需要交付这么多节点,他们会说,好的,然后开始组装,一般 1~2 周的时间来获得所有零部件并组装,然后还需要 1 周的时间物流,然后我们需要 2~3 周的时间将它们插上电源上线。


现在情况完全变了,整个供应链都被打乱得很厉害,英伟达已经完全分配完了,在今年年底之前完全售罄了他们的基础设施,你给他们打电话也没用,和OEM打电话也一样,以至于当客户今天来找我们时,他们要求为他们建造一个4000 GPU的集群,我们告诉他们得等到明年第一季度,而且现在越来越倾向于第二季度,因为第一季度现在开始被预订了。


这个过程需要花费很多时间。而且其中还有其他供应链变量。今年早些时候,我们与一位客户进行了合同的谈判,我们真的希望在时间上表现得很好。所以我们知道,由于我们在供应链中的定位,有一些关键零部件需要提前订购,以减少我们将基础设施投入运营的时间。当时,这些关键零部件是电源和节点的风扇,由 OEM 组装。如果我们没有这样做,我想在建设过程中还需要额外的8周,因为不是所有的零部件都会同时到齐。



GPU 集群搭建和CPU的差异


Tracy Alloway 

关于CPU 和 GPU 之间的区别,实际上是如何将这些更新型号的芯片连接在一起的?因为旧的数据中心可能只有一堆以太网电缆之类的设备,但对于这种处理能力,你是否需要一些不同的设备?


Brannin McBee 

通用的计算数据中心实际上就是超大规模运算商的样子,亚马逊、谷歌、微软、甲骨文这些公司主要使用一种称为以太网(Ethernet)的技术将所有服务连接在一起,之所以使用这种技术,是因为不需要高数据吞吐量来连接所有这些服务器,它们只需要能够互相发送一些消息,它们彼此之间交流正在做些什么,但它们不一定需要进行大量数据传输的高度协同任务。不过这种情况已经改变了。


今天人们关注并需要构建的是这些实际上是超级计算机,我们将它们之间的连接性、网络称为“网络结构”,如果我们正在构建某种帮助训练下一代 GPT 模型,通常客户会告知需要一个 16000 个 H100 GPU 的网络结构,所以每个服务器大约有 8 个GPU,然后必须在每个服务器之间运行这种连接性,但是现在的方式与你所说的不同。


因此,我们使用一种名为 Infinite Band 的英伟达技术,它具有最高的数据吞吐量,将这些设备连接在一起,以这个16000 个 GPU 集群为例,其中有两个惊人的数字。首先,需要建立 48000 个独立的连接,就像将一台计算机的东西插入到另一台计算机中,但在它们之间有很多交换机和路由器,但需要让它发生 48000 次,为了在这 16000 个GPU 集群中成功完成这一操作,需要超过 500 英里的光纤电缆。


再次提醒,在一个小空间内进行这样的操作,需要大量的功率密度和冷却,这完全是一种不同的构建基础设施的方式,而且这只是因为需求发生了变化,现在我们已经进入了设计下一代 AI 模型的领域,它需要完全不同类型的计算,这使整个行业感到供应不足,以至于在当今的超级规模扩展器那里很难获得该技术,因为他们没有专门从事这方面的建设,这就是Core Weave的作用,只专注于为客户构建这种类型的计算,最终我们的目标是将这种基础设施交到最终用户手中,这样他们就能构建令人惊叹的 AI 公司,并将其融入企业和软件公司的使用中。



云服务大厂,船大难掉头


Joe Weisenthal 

当你提到超级云服务商时,比如亚马逊、谷歌、微软和 CoreWeave ,这些都是万亿美元的公司,而你们只是一个 20 亿美元的公司,为什么呢?它们都在致力于 AI 等方面。为什么它们不会简单地碾压你们,毕竟它们的预算肯定比你们大上几个数量级? 


Brannin McBee 

我们服务器内部确实没有什么超级秘密的技术或者其他类似的东西,但是我喜欢用另一个行业来进行广义的比较,比如说福特应该能够生产一辆 Model Y,他们有预算,有人才,有几十年的经验,但是如果要求他们生产一辆 Model Y,你必须要求他们从根本上改变他们生产汽车的方式,从研究到维修以及整个机制的运作方式,这是一个庞大的组织,现在你必须去要求这个庞大的组织的人们改变他们的工作方式。


Joe Weisenthal 

我理解这一点,但我稍微反驳一下,公司内部有一种难以复制的默契知识。我们可以在制造半导体设备的公司、制造飞机的公司以及知道如何将办公楼转变为公寓的房地产开发商身上看到这一点,我认为这是一个深刻的观点,但他们确实提供了 AI 相关的产品,比如现在可以看到谷歌云,AWS和 Azure,各家都有自己的说法,所以我想了解的是,你们提供的东西与这些大厂提供的AI计算平台有何不同? 


Brannin McBee

广义而言,通过基础设施差异化,也就是使用不同的组件来构建我们的云平台,并通过软件差异化,我们使用不同的软件来运营和优化我们的云平台,我们能够提供一个相对于任何超级大厂而言,在工作负载调整的基础上效率提高了大约 40%~60%的产品。换句话说,如果你在超级大厂和 CoreWeave 上使用完全相同的 GPU 计算进行相同的工作负载或过程,我们在执行这些任务时将比他们高效 40%~60%,因为我们在相对于超级大厂配置了一切。


这又回到了为什么福特不能生产 Model Y 的类比上,再次强调,他们不能生产。我们在谈论的是万亿美元的公司,如你所说的,他们有预算,有人员,肯定有动力这样做,但这不仅仅是他们需要改变的一个单一因素,他们必须协调一种完全不同的建立业务的方式。,就像需要多少英里才能转变一艘航空母舰一样,对吧?


他们需要一段时间来做到这一点,而且我认为,即使他们最终实现了这一点,我不反对你的观点,他们肯定有动力去做,他们可能需要花费多年的时间,而且他们会看起来与我们非常相似。与此同时,我已经在市场上占据了主导地位,并在软件方面不断与众不同。



为什么英伟达

AMD 不 Yes?


Tracy Alloway 

CoreWeave 与英伟达的关系究竟如何?为了提供这种类型的服务,大量的处理能力非常适用于特定类型的技术,例如 AI ,是否必须与英伟达建立良好的关系才能使其发挥作用?


Brannin McBee 

这是个很好的问题,我会试着从英伟达的角度来回答。对英伟达来说,最重要的是赋予计算终端用户以能够在规模上以及迅速地访问计算的最高性能变体的能力,就像有新一代产品发布,他们想要能够尽快获取。我们在构建Core Weave 时,正是满足了所有这些需求,我们按照 DGX 参考规格进行构建,并且在一个新一代芯片组发布后的几个月内将其上线,而不是传统的大规模超大规模数据中心需要数个季度的时间。


因此,我们能够做到这一点使我们在英伟达内部获得了极佳的资源分配,我们历来以实现所说的计算为特点,我们的商业理念是承诺较低,交付较高,正是这种表现使得英伟达有信心将基础设施分配给我们,因为他们知道它会上线,他们知道它会比市场上的任何其他公司更快地交付给消费者,并且他们知道它将以最高性能的配置交付。


Tracy Alloway 

当谈到规模时,你一直提到超大规模云服务提供商,这是一个很好的词,比如亚马逊、谷歌、微软、IBM等。你认为他们在这个领域能够快速反应吗?他们能够多快地应对你所描述的一些趋势?


Brannin McBee 

我可以告诉你我今天看到的情况。我认为这将导致基础设施的扩展能力相对较慢,不符合 AI 软件的采用速度,这将导致供需失衡,而这种状况将持续一段时间。


Tracy Alloway 

你不停地提到 H100,是否考虑过其他芯片,或者如果例如开发出一种能够与英伟达 H100 相媲美甚至更好的芯片,这对你们自己的商业模式会有什么影响?比如,我听到很多关于 AMD 正在开发的一些东西的,虽然我不是芯片专家,如果突然有一家不同的芯片制造商在 AI 领域崭露头角,这会对你产生多大的影响?


Brannin McBee 

当然,我会给出两个大体的回答。首先,通常情况下,当你训练一个模型时,你会在推理时使用相同的芯片,对吗?例如,我是在 100 系列芯片上进行训练的,那么在推理时也会主要使用 100 系列芯片,可能会加入一些更高效的新一代芯片,但并不意味着你需要一个带有更多显存的显卡,你只需要一个 40 GB或 80 GB的显存芯片,因为训练的模型的大小就是这样的,你不需要使用下一代多个芯片,你也不能真正采用它们来改变提供该模型的效率。


因此,我们认为芯片的寿命是这样的:前 2~3 年用于训练模型,接下来的 4~5 年用于对这些训练过的模型进行推理,此外在这个过程中,还有一种叫做微调(fine-tuning)的操作,用于使用新信息更新模型,比如如何让模型了解Twitter 上或媒体上发生的事情,你必须不断对其进行重新训练,而使用的仍然是同样的芯片。


你问到其他芯片组的问题,我们对此有特别有见解,因为我们与 650 个AI客户进行日常交流,以确保我们满足他们的扩展需求,这使我们能够提前 6~12 个月了解他们预计需要的基础设施类型,结果表明人们仍然极其希望获得英伟达的芯片,原因可以追溯到大约 15 年前,当时英伟达和 Jensen 决定开源 CUDA 并使这个软件集对机器学习社区可用。


如今,如果你在 Github 上搜索机器学习项目,它们都会引用 CUDA 驱动程序,在机器学习领域,英伟达已经建立了一个完全主导的生态系统,就像 x86 指令集在 CPU 与 ARM 之间的使用情况一样,x86 被广泛使用,而 ARM 一直试图进入这个领域,但一直面临困难,因为所有的工程师和开发者都习惯使用 x86,就像所有 AI 领域的工程师和开发者都习惯使用 CUDA 一样。


显然,AMD 非常有动力找到进入这个领域的途径,但他们缺乏这样的生态系统,这是一个巨大的壁垒,对于英伟达来说是一个巨大的优势,他们能够在过去的 15 年里坚持支持该社区,这对他们来说现在带来了巨大的回报,如果有一天需求出现,我们可以在我们的数据中心运行其他基础设施,但我还发现英伟达在竞争中具有如此大的优势,不仅拥有廉价的 GPU,还有支持 GPU 的所有组件,比如  Infinite Band 技术。因此,在 AI 基础设施的最佳标准方面,要想取代这家公司将是非常困难的。



推理GPU需求是训练的百倍

一般人玩不起


Joe Weisenthal

我们能从英伟达的业绩中看到你所描述的情况吗?市场规模有多大?我知道在 AI 领域,有训练和推理两个方面,训练是构建模型,而推理则是输出结果。你能谈一谈这两个方面的增长情况吗?哪个更大,哪个增长更快?与已有的计算基础设施规模相比如何?


Brannin McBee 

这是我最喜欢的话题之一,因为支持 AI 并扩展基础设施所需的规模令人难以置信,今天大部分投入到 AI 领域的资金是用于训练下一代基础模型,当一家公司筹集大量资金时,最终大部分资金都会投入到云计算中,用于训练下一代基础模型,它是建立知识产权的重要途径,使他们能够将模型引入推理市场。我们面临供需问题,就像在训练阶段出现芯片访问紧缺的情况一样,而实际上,推理市场的规模才是真正需求所在。


我想提供一个帮助大家理解的例子,假设市场上有一些众所周知的模型,它需要大约 1 万个上一代 GPU 的训练,尽管相对规模有所不同,假设有家公司使用了 1 万个GPU来训练他们的模型,预计在产品推出后的 1~2 年内,他们将需要大约 100 万个 GPU 来支持整个推理需求。


Joe Weisenthal 

如果要训练这个模型,你需要 1万个这样的芯片,如果他们真的要进入市场销售某个产品或提供某项服务,他们将需要 100 万个。


Brannin McBee 

对,100万个,我认为这只是在产品推出后的头两年内,我们正在讨论的是一种将会继续增长的东西,100 万个 GPU 意味着什么呢?显然,去年年底,所有超大规模云服务提供商(如亚马逊、谷歌、微软、甲骨文)加起来全球共有约50 万个可用的 GPU,到今年年底,这个数字将接近 100 万,但这意味着一个 AI 公司的一个模型可能会消耗整个全球 GPU 基础设施。


你会想,难道市场上没有其他公司在训练这些模型吗?我的回答是“是的”,确实有其他公司在这个市场上,可以推理,在短期内推理市场就需要几百万个 GPU 的需求,而全球的基础设施远远不够,当我们退出训练阶段并进入这些模型的产品化或商业化阶段时,市场将面临巨大的挑战,如何从这些模型中获得收入?我认为很多人并没有真正理解所需的规模和建设量。


把这个问题放在之前讨论的数据中心框架下,就是缺乏数据中心空间,缺乏芯片供应,这将成为我们看到的几年中的一个问题。



新的数据中心是耗电大户

4倍电力才满足


Joe Weisenthal 

我们对现在的情况非常感兴趣,也就是现在出现了供不应求的情况,现在数据中心有容量吗?比如说我们想要与你们合作,你们有很好的电力供应,与互联网连接良好,有良好的保安措施,可以24 x 7运营?我们想要建立一个类似的东西,那里有空间吗?


Brannin McBee 

这是一个很棒的问题。实际上,在过去的八周左右,这个问题才真正浮出水面,这是一个数据中心空间、合作空间,在这个空间中一直缺乏投资,因为超大规模建设了自己的数据中心,但是发生了一些变化。我们在这些数据中心中放置的计算方式与上一代不同,我们主要关注的是GPU计算,而不是CPU计算,GPU计算的功率密度约为 CPU 计算的四倍,这就导致数据中心规划陷入混乱。


假设你在数据中心有一个 10000 平方英尺的房间,你有一定数量的电力,假设是 100 个单位的电力,由于我的功率密度是四倍,这意味着现在我只需要这 100 个电力单位的约 25% 的数据中心面积,或者换句话说,在该 10000 平方英尺的面积内只需要 2500 平方英尺。因此,不仅数据中心的空间利用效率变低了,因为理论上需要将更多的电力引入数据中心以使用全部 2000 平方英尺的面积,由于功率密度的差异,现在还有冷却问题。


Joe Weisenthal 

假设给定X数量的电力,100 个电力单位,你的意思是使用这一代计算能力,现在只足够为数据中心的四分之一供电,换句话说,为了整个空间供电,实际上需要四倍的电力?


Brannin McBee 

是的。问题的复杂性主要源于所需的冷却,如果设想可以冷却一片面积为 10000 平方英尺的空间,并进行设计,那是一回事,但是如果必须在一个更密集的区域进行冷却,那就是一种不同类型的冷却需求,这就导致了这样一个问题,即在美国只有一部分 Tier3 和 Tier4 数据中心,目前已经被设计为能够迅速适应这个新的功率密度问题,所以现在不仅仅是你把所有的芯片放在地下室,但可能没有地方插电源,这对整个行业来说是一个相当大的问题,而且在过去的八周内才出现,并且在未来几个季度内将持续存在。

Source:

https://podcasts.apple.com/gb/podcast/how-to-build-the-ultimate-gpu-cloud-to-power-ai/id1056200096?i=1000621737651


----- End -----


活动1:ITA 创新科技与艺术发展高峰论坛2023  🌍
香港中国企业协会副会长兼总裁于晓、大中华文化全球协会创会主席赵曾学韫、投资推广署财经金融及金融科技主管梁瀚璟将出席“创新科技与艺术发展高峰论坛2023” (ITA2023)。于晓将担任论坛主礼嘉宾并与赵曾学韫一同出席“ITA2023暨数字艺术之门——慈善欢迎晚宴”。梁瀚璟将出席论坛,并在分论坛“投资人对话”致辞,与会者将在此关注到《开放与融合:香港投资机遇》、《Web3.0时代的艺术创新和趋势 》、《Web3的构建与发展》三大议题。 
本次论坛由紫荆杂志社主办、三角形科技(香港)有限公司联合主办,论坛以“Web3.0回归:建构黄金新起点”为主题,在对接国家战略和香港定位的同时,也致力于推动香港Web3.0产业的合规发展。

时间:2023.08.15

地点:香港君悦酒店

报名:下方扫码购票 👇



活动2:社交娱乐出海交流  🌍

时间:2023.08.11 13:45

地点:谷歌北京办公室

人数:35人左右

报名:下方扫码报名👇



活动3:机器·人·智能|重构未来哈佛大学(无锡)校友会周年庆暨AI高峰论坛(预告)

本次活动将定向邀请国内头部机构的投资人、明星创业公司、头部大厂从业者、全球顶尖高校的研究人员和学者,本次活动信息如下👇


时间:2023.08.26~2023.08.27

地点:无锡

人数:300人左右

嘉宾邀请:请添加微信 jiangtian26 与您对接










您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存