新闻动态
产品由中国人民保险公司承担质量保险
您现在的位置:
/
马斯克详解:xAI若何正在122天内搭建上线万张卡

马斯克详解:xAI若何正在122天内搭建上线万张卡

  • 分类:木材知识
  • 作者:Bwin国际
  • 来源:
  • 发布时间:2025-04-26 09:29
  • 访问量:

【概要描述】

  他取xAI的首席工程师Igor Babuschkin、结合创始人Jimmy Ba、Yuhuai Tony Wu配合表态,细致引见了Grok 3的焦点特点,包罗其显著提拔的推理能力、天然言语处置能力以及新推出的“Deep Search”(深度搜刮)东西。这一东西被设想用来处置复杂的查询,可以或许整合收集搜刮和X平台上的及时消息,为用户供给更精准、深切的回覆。回忆起来,我认为最坚苦的部门是让整个模子正在10万个H100 GPU上协调锻炼,这几乎就像正在取的最终BOSS——熵——做斗争。由于正在任何时候,都有可能射下来一根射线,翻转晶体管中的一个比特,若是梯度更新中有一个比彪炳错,整个梯度更新就会乱套。而现正在我们有10万个如许的GPU,每次我们都必需让它们协同工做,Jimmy Ba,华人,大学帮理传授,人工智能杰弗里·辛顿(Geoffrey Hinton)的学生,xAI团队创始12员工之一一起头,我们其实并没有筹算本人建数据核心。我们去找了数据核心供给商,问他们正在一个处所协调运转10万个GPU需要多长时间。他们给出的时间范畴是18到24个月。我们想,,我们不克不及本人建,必需利用现有的建建。所以我们根基上寻找了一些被烧毁、但本身情况优良的工场,好比由于某家公司破产了之类的。我们正在孟菲斯找到了一家伊莱克斯工场。这就是为什么它正在孟菲斯——猫王的家乡,也是古埃及的首都之一。,最后至多需要120兆瓦,但建建本身只要15兆瓦。而最终为了20万个GPU,我们需要0。25吉瓦的电力。我们最后租了一大堆发电机。正在建建的一侧,我们有一排排的发电机,。所以正在建建的另一侧,我们有一排排的冷却设备。我们租用了美国大约四分之一的挪动冷却能力。然后,我们需要安拆所有的GPU,它们都是液冷的。为了实现需要的密度,这是一个液冷系统。所以我们必需为液冷系统安拆所有的管道。没有人已经大规模地搭建过液冷的数据核心。很是猛烈,这就像一场庞大的交响乐。想象一下,一场有10万或20万人参取的交响乐,整个乐团会正在100毫秒内从恬静变到清脆。这导致了庞大的电力波动,进而导致发电机失控,它们从没意料到这种环境。为了缓冲电力,我们利用了特斯拉的Megapack来滑润电力。Megapack必需从头编程,于是xAI取特斯拉合做,我们从头编程了Megapack,让它可以或许应对这些猛烈的电力波动,滑润电力,以便计较机可以或许一般运转。都必需处理。我们调试了无数的收集电缆,凌晨四点钟还正在调试网卡问题,我们大约正在凌晨4点20分处理了问题。我们发觉有良多问题,此中之一是BIOS不婚配。没错,BIOS没有准确设置。我们必需正在两台分歧的机械之间比力lspci号令(注:一个Linux号令,用于列出系统中所有PCI设备)的输出。一台工做一般,一台纷歧般。还有良多其他问题。是的,没错。若是我们实的列出所有问题,会需要很长的时间。但这很风趣,这并不是说,哦,我们奇异地做到了。我们必需像Grok正在推理时那样,将问题分化成各个构成部门,然后处理每个构成部门,以便正在比其他人短得多的时间内完成一个协调的锻炼集群。然后,一旦锻炼集群启动并运转,能够交付利用,我们就必需确保它正在整个过程中连结健康,这本身就是一个庞大的挑和。我们必需确保锻炼的每一个细节都准确,才能获得一个Grok 3级此外模子,这其实很是很是坚苦。我们不晓得能否有其他模子具备Grok 3的能力,但任何锻炼出比Grok 3更好的模子的人,都必需正在深度进修的科学和工程的各个方面都很是超卓。

马斯克详解:xAI若何正在122天内搭建上线万张卡

【概要描述】

  他取xAI的首席工程师Igor Babuschkin、结合创始人Jimmy Ba、Yuhuai Tony Wu配合表态,细致引见了Grok 3的焦点特点,包罗其显著提拔的推理能力、天然言语处置能力以及新推出的“Deep Search”(深度搜刮)东西。这一东西被设想用来处置复杂的查询,可以或许整合收集搜刮和X平台上的及时消息,为用户供给更精准、深切的回覆。回忆起来,我认为最坚苦的部门是让整个模子正在10万个H100 GPU上协调锻炼,这几乎就像正在取的最终BOSS——熵——做斗争。由于正在任何时候,都有可能射下来一根射线,翻转晶体管中的一个比特,若是梯度更新中有一个比彪炳错,整个梯度更新就会乱套。而现正在我们有10万个如许的GPU,每次我们都必需让它们协同工做,Jimmy Ba,华人,大学帮理传授,人工智能杰弗里·辛顿(Geoffrey Hinton)的学生,xAI团队创始12员工之一一起头,我们其实并没有筹算本人建数据核心。我们去找了数据核心供给商,问他们正在一个处所协调运转10万个GPU需要多长时间。他们给出的时间范畴是18到24个月。我们想,,我们不克不及本人建,必需利用现有的建建。所以我们根基上寻找了一些被烧毁、但本身情况优良的工场,好比由于某家公司破产了之类的。我们正在孟菲斯找到了一家伊莱克斯工场。这就是为什么它正在孟菲斯——猫王的家乡,也是古埃及的首都之一。,最后至多需要120兆瓦,但建建本身只要15兆瓦。而最终为了20万个GPU,我们需要0。25吉瓦的电力。我们最后租了一大堆发电机。正在建建的一侧,我们有一排排的发电机,。所以正在建建的另一侧,我们有一排排的冷却设备。我们租用了美国大约四分之一的挪动冷却能力。然后,我们需要安拆所有的GPU,它们都是液冷的。为了实现需要的密度,这是一个液冷系统。所以我们必需为液冷系统安拆所有的管道。没有人已经大规模地搭建过液冷的数据核心。很是猛烈,这就像一场庞大的交响乐。想象一下,一场有10万或20万人参取的交响乐,整个乐团会正在100毫秒内从恬静变到清脆。这导致了庞大的电力波动,进而导致发电机失控,它们从没意料到这种环境。为了缓冲电力,我们利用了特斯拉的Megapack来滑润电力。Megapack必需从头编程,于是xAI取特斯拉合做,我们从头编程了Megapack,让它可以或许应对这些猛烈的电力波动,滑润电力,以便计较机可以或许一般运转。都必需处理。我们调试了无数的收集电缆,凌晨四点钟还正在调试网卡问题,我们大约正在凌晨4点20分处理了问题。我们发觉有良多问题,此中之一是BIOS不婚配。没错,BIOS没有准确设置。我们必需正在两台分歧的机械之间比力lspci号令(注:一个Linux号令,用于列出系统中所有PCI设备)的输出。一台工做一般,一台纷歧般。还有良多其他问题。是的,没错。若是我们实的列出所有问题,会需要很长的时间。但这很风趣,这并不是说,哦,我们奇异地做到了。我们必需像Grok正在推理时那样,将问题分化成各个构成部门,然后处理每个构成部门,以便正在比其他人短得多的时间内完成一个协调的锻炼集群。然后,一旦锻炼集群启动并运转,能够交付利用,我们就必需确保它正在整个过程中连结健康,这本身就是一个庞大的挑和。我们必需确保锻炼的每一个细节都准确,才能获得一个Grok 3级此外模子,这其实很是很是坚苦。我们不晓得能否有其他模子具备Grok 3的能力,但任何锻炼出比Grok 3更好的模子的人,都必需正在深度进修的科学和工程的各个方面都很是超卓。

  • 分类:木材知识
  • 作者:Bwin国际
  • 来源:
  • 发布时间:2025-04-26 09:29
  • 访问量:
详情

  他取xAI的首席工程师Igor Babuschkin、结合创始人Jimmy Ba、Yuhuai Tony Wu配合表态,细致引见了Grok 3的焦点特点,包罗其显著提拔的推理能力、天然言语处置能力以及新推出的“Deep Search”(深度搜刮)东西。这一东西被设想用来处置复杂的查询,可以或许整合收集搜刮和X平台上的及时消息,为用户供给更精准、深切的回覆。回忆起来,我认为最坚苦的部门是让整个模子正在10万个H100 GPU上协调锻炼,这几乎就像正在取的最终BOSS——熵——做斗争。由于正在任何时候,都有可能射下来一根射线,翻转晶体管中的一个比特,若是梯度更新中有一个比彪炳错,整个梯度更新就会乱套。而现正在我们有10万个如许的GPU,每次我们都必需让它们协同工做,Jimmy Ba,华人,大学帮理传授,人工智能杰弗里·辛顿(Geoffrey Hinton)的学生,xAI团队创始12员工之一一起头,我们其实并没有筹算本人建数据核心。我们去找了数据核心供给商,问他们正在一个处所协调运转10万个GPU需要多长时间。他们给出的时间范畴是18到24个月。我们想,,我们不克不及本人建,必需利用现有的建建。所以我们根基上寻找了一些被烧毁、但本身情况优良的工场,好比由于某家公司破产了之类的。我们正在孟菲斯找到了一家伊莱克斯工场。这就是为什么它正在孟菲斯——猫王的家乡,也是古埃及的首都之一。,最后至多需要120兆瓦,但建建本身只要15兆瓦。而最终为了20万个GPU,我们需要0。25吉瓦的电力。我们最后租了一大堆发电机。正在建建的一侧,我们有一排排的发电机,。所以正在建建的另一侧,我们有一排排的冷却设备。我们租用了美国大约四分之一的挪动冷却能力。然后,我们需要安拆所有的GPU,它们都是液冷的。为了实现需要的密度,这是一个液冷系统。所以我们必需为液冷系统安拆所有的管道。没有人已经大规模地搭建过液冷的数据核心。很是猛烈,这就像一场庞大的交响乐。想象一下,一场有10万或20万人参取的交响乐,整个乐团会正在100毫秒内从恬静变到清脆。这导致了庞大的电力波动,进而导致发电机失控,它们从没意料到这种环境。为了缓冲电力,我们利用了特斯拉的Megapack来滑润电力。Megapack必需从头编程,于是xAI取特斯拉合做,我们从头编程了Megapack,让它可以或许应对这些猛烈的电力波动,滑润电力,以便计较机可以或许一般运转。都必需处理。我们调试了无数的收集电缆,凌晨四点钟还正在调试网卡问题,我们大约正在凌晨4点20分处理了问题。我们发觉有良多问题,此中之一是BIOS不婚配。没错,BIOS没有准确设置。我们必需正在两台分歧的机械之间比力lspci号令(注:一个Linux号令,用于列出系统中所有PCI设备)的输出。一台工做一般,一台纷歧般。还有良多其他问题。是的,没错。若是我们实的列出所有问题,会需要很长的时间。但这很风趣,这并不是说,哦,我们奇异地做到了。我们必需像Grok正在推理时那样,将问题分化成各个构成部门,然后处理每个构成部门,以便正在比其他人短得多的时间内完成一个协调的锻炼集群。然后,一旦锻炼集群启动并运转,能够交付利用,我们就必需确保它正在整个过程中连结健康,这本身就是一个庞大的挑和。我们必需确保锻炼的每一个细节都准确,才能获得一个Grok 3级此外模子,这其实很是很是坚苦。我们不晓得能否有其他模子具备Grok 3的能力,但任何锻炼出比Grok 3更好的模子的人,都必需正在深度进修的科学和工程的各个方面都很是超卓。

扫二维码用手机看



河北Bwin国际木业有限公司

服务热线: 

生产基地:

中国 河北 正定县 南岗村北工业园

版权所有:河北Bwin国际木业有限公司            Bwin国际网站地图

河北Bwin国际木业有限公司