Published on

面向AI超节点的灵衢总线

Authors
  • Name
    Twitter

什么是灵衢?

灵衢是AI超节点的互联总线,是面向AI超节点的互联协议。

什么是超节点?

超节点(SuperPod)是由多个计算节点互联组成的一台超级计算机,与传统的数据中心机柜比较,对使用者的体验是一台计算机、无需感知到多台计算机。 超节点当前主要是在AI大模型训练与推理场景下使用,最早由英伟达提出,英伟达的NVL72是全球第一个超节点。

下面我们展示英伟达NNVL72超节点的结构

1个Blackwell型号的GPU芯片
2个GPU芯片,加上一个CPU芯片,构成一个Blackwell SoC
2个SoC,构成一个Blackwell计算节点(4个GPU,2个CPU)
18个计算节点,构成NVL72超节点计算部分
加上网络节点,构成完整的NVL72超节点
可以继续将8个NVL72超节点,组成一个NVL72阵列

为什么超节点需要灵衢总线?

因为将多台机器组成一台机器,面临下面2个挑战

灵衢总线有哪些关键能力?

提供如下关键能力

我从哪里可以获取到灵衢总线的相关信息?

UnifiedBus官网:https://unifiedbus.com

灵衢总线已经开源

参考资料

NVL72:https://youtu.be/0JxowHz0JsM?si=nTRvYSLumt3fmxtI

UnifiedBus:https://unifiedbus.com