整个拥抱UECAMD宣布第三代 DPU博鱼电竞 Salina :以AI速率交付收集更始

 行业动态     |      2024-10-11 08:50:13    |      小编

  C114讯 10月11日音尘(岳明)大模子必要大算力,大算力必要大集群,大集群必要大收集!

  怎样去修筑这张大收集,正在本周实行的“Advancing AI 2024”上,AMD给出了真切的谜底:统统拥抱以太网,统统拥抱DPU。

  与守旧数据中央存正在很大差别,要紧由GPU办事器联网组成的智算中央必要十足差另表收集架构。

  当大模子教练时,并行盘算推算节点越多,通讯成果越主要,智算收集本能成为集群算力擢升的枢纽。但守旧收集技艺难以适合大界限AI集群的兴盛需求博鱼电竞,正在实质组网历程中面对着四大困难:大界限收集堵塞驾驭难、突发大象流负载平衡难、巨量链道永远平稳运转难、敏锐隐私数据安笑保证难。

  对此,业界有几种差另表处置计划。例如英伟达主导的InfiniBand,固然现正在市占率很高,但InfiniBand正在家产怒放性、铺排本钱方面绝顶不友情。别的便是从底层鼎新守旧以太网机造,正在最步地部的操纵以太网家产怒放性和成熟性的同时,重构高扩展、高平稳、高牢靠的以太网仓库,满意大界限AI和HPC继续增加的收集需求博鱼电竞。UEC便是该技艺道途的样板代表,通过修筑帮帮RoCE(RDMA over Converged Ethernet)的无损收集,做到不丢包,帮帮以太网RDMA,满意高带宽和高操纵率需求硬件产品。

  正在“Advancing AI 2024”上,AMD实践副总裁,数据中央处置计划事迹部总司理Forrest Norrod就指出,收集成为限造AI体系本能的枢纽,均匀30%的教练时辰被用来等候联网;而正在教练和漫衍式推理中,通讯更是占40%-75%的时辰。这对待动辄铺排万卡集群的用户而言是难以担当的。

  正在他看来,UEC是AI收集革新的首选:从总体具有本钱(TCO)角度来看,比拟较于InfiniBand,以太网降落了50%;可扩展性角度来看,以太网能够帮帮高达100万+GPU的超大界限集群铺排,远远越过InfiniBand;从生态体系的角度来看,UEC定约曾经有越过97名成员,此中征求微软、Meta、AMD、博通等繁多大厂,UEC1.0类型也将正在来岁一季度颁布。有头脑的是,英伟达正在前段时辰也出席了UEC博鱼电竞。

  正在“Advancing AI 2024”的现场博鱼电竞,不光是AMD,思科、微软等多位技艺负担人均举行了分享。他们以为正在如今的RDMA 情况下,超以太网公约希望帮帮百万节点互联,同时以太网的怒放特质,不妨让诸如LPO等新技艺加快排泄,带来高性价比、高容量、高怒放水平的AI收集。

  正在AMD的AI收集政策拼图中,既相眷注底层芯片级互联的Infinity Fabric,极具本能上风的正在AMD的AI收集政策拼图中,既相眷注底层芯片级互联的Infinity Fabric,但DPU攻陷了更为主要的幅员。

  对待云办事供给商而言,要杀青长处最大化,就必须要充离开释CPU/GPU等算力资源。云办事前驱亚马逊率先引入了DPU观点和产物,杀青将收集、存储、处置、安笑和监控等处事负载一并卸载,而这也为亚马逊获得了市集先机。

  DPU的好处取得用户的平凡认同。2022年4月,AMD斥资19亿美元进货DPU厂商Pensando,并告捷杀青了第一代Capri和第二代Elba两大DPU的量产。正在“Advancing AI 2024”的现场,AMD正式颁布了采用P4引擎的第三代DPU产物—Salina,以AI速率交付收集革新。

  从AMD供给的产物技艺规格上来看,Salina采用5nm造程工艺打造,杀青两倍于上一代的本能。并且,AMD Pensando DPU帮帮软件前向兼容,节俭了利用法式开拓所需的时辰。正在本能方面,Salina最高帮帮800G(400G*2)收集,这与AI数据中央收集演进是十足结婚的,同时Salina帮帮十足可编程,具备相当的灵敏性硬件产品。

  正在聚会现场博鱼电竞,征求IBM云、微软Azure、甲骨文云、思科等用户的技艺高管也都叙到了AMD Pensando DPU正在差别利用场景中的代价。微软Azure要紧是用基于DPU的智能换取机来告竣SDN解耦,而甲骨文云和IBM云则是硬件上用到DPU卡,软件上除了行使Pensando供给的SDK和库,又有定造的逻辑利用,利便客户增加软件界说的办事。整个拥抱UECAMD宣布第三代 DPU博鱼电竞 Salina :以AI速率交付收集更始