K8凯发(中国) OpenAI公开大界限雄厚测验的秘密,英伟达AMD英特尔皆受益
OpenAI,此次又真 · Open 了一下。
刚刚,OpenAI 通过 OCP 通达了超大界限 AI 测验时使用的辘集契约——MRC。
此次通达的 MRC,是完了微秒级故障规复、能援手 10 万块以上 GPU 高效相助的底层通讯契约。
中枢奥义便是,在大界限的测验环境下,确保辘集通讯的雄厚性。

何况这一波是和硬件厂商合作,在 OpenAI 的组织下,英伟达、AMD 和英特尔皆参与了这个技俩。
有网友暗意,把这些厂商聚在一起合作制定尺度,着实比完了 AGI 还难以和洽。

大界限集群,也要通讯雄厚
这套 MRC(Multipath Reliable Connection)契约,是 OpenAI 蚁合英伟达、AMD、英特尔、微软和博通,花了两年期间作念出来的,上周通过 Open Compute Project 向全行业通达。
它目下跑在 OpenAI 扫数最大界限的 NVIDIA GB200 超算上,包括 OCI 在德克萨斯 Abilene 建的星际之门和微软的 Fairwater 超算。
这件事的配景是,同步预测验(synchronous pretraining)的通讯阵势对辘集绝顶敏锐。
十几万块 GPU 在每个测验 step 里以 all-reduce 为主要通讯原语协同职责,单次迭代可触发数百万次点对点数据传输。
这类集和会信的完成期间由最慢的那次传输决定,任何链路拥塞或丢包皆会以滚雪球的姿色传导到通盘 job,轻则酿成蒙眬骤降,重则触发 checkpoint 回滚。
跟着集群界限扩大,辘集故障的足够频率只会高潮。

为了照拂这个问题,MRC 主要作念了三件事。
第一件是多平面辘集拓扑(Multi-Plane Network)。
传统作念法是把 800Gb/s 的网卡当一整条链路用,通盘集群需要三四层交换机才调连起来。
MRC 把它拆成 8 条 100Gb/s 子链路,各自连到寂然的交换机,形成 8 个并行的辘集平面。
单台交换机能接入的端口数因此扩大了 8 倍,拓扑也随之扁平,层数从三四层压到两层,13 万块 GPU 的互联资本和故障点皆随之大幅下落。
层数少还意味着故障点少,8 个平面并行又意味着冗余旅途大幅加多,这亦然后头两项时刻好像树立的物理基础。

第二件是自适合包喷射(Adaptive Packet Spraying)。
经典 RoCE 条目归并条 RDMA 传输的所极端据包走归并齐径以保管规矩语义,这在多平面环境下会酿成严重的流量碰撞和旅途诈欺率不及。

MRC 彭胀了 RoCE 的乱序处理才略,在包头中镶嵌观念内存地址,K8凯发中国官方网站使罗致端不错将乱序到达的包径直写入正确位置,从而允许将单次传输的包喷射到数百条旅途上并行传输。
拥塞检测和旅途切换则是在联结层完成,发现拥塞则换路,检测到丢包则立即停用该旅途并触发重传,通盘反映在微秒级完成。
这种阵势不错统一为,正本一批货必须走归并辆车按规矩投递,MRC 让这批货同期上几百辆车分头跑,每个箱子上贴好收成地址,到了径直入库,哪条路堵就换哪条。
集和会信对尾蔓延绝顶敏锐,这套机制险些摈斥了辘集中枢的拥塞,径直压低了测验 step 完成期间的抖动。

第三件是用SRv6(IPv6 Segment Routing)静态源路由取代动态路由契约。
传统决策依赖 BGP 在交换机间动态运筹帷幄和同步路由,链路故障时路由握住需要数秒致使更长,这段期间内测验流量会大面积中断。
SRv6 将旅途决策完全移到发送端,把逐跳的交换机标记符序列径直编码进数据包的主视力址,沿路每台交换机只需按腹地静态路由表履行转发,无需感知任何拓扑变化。

也曾拿物流来类比,这就相当于登程前就把无缺路子写在包裹上,每个路口的职责主说念主员只管照单操作,不需要和任何抨击中心有关。
某条旅途出现故障,MRC 发送端径直罢手在该旅途喷包、切换到其他旅途,交换机侧零感知、零看成,整类路由握住激励的抖动从压根上被摈斥。
三层盘算从拓扑、传输、路由三个维度同期发力,确保了大界限下的辘集可靠性。
One More Thing
MRC 时刻博客公布之后,OpenAI 还同步发布了一期播客。
这期播客中,OpenAI 辘集精良东说念主 Mark Handley 和职责负载精良东说念主 Greg Steinbrecher 聊了 MRC 从动机到落地的无缺流程。

感有趣有趣的话,不错去听一听。
参考联结:
https://openai.com/index/mrc-supercomputer-networking/
播客地址:
https://www.youtube.com/watch?v=TiW96H5HmAw
一键三连「点赞」「转发」「阻挠心」
接待在指摘区留住你的思法!
— 完 —
5 月 20 日,咱们将在北京金茂万丽旅社举办一年一度的中国 AIGC 产业峰会。
首波嘉宾声威已公布!昆仑万维方汉、智谱吴玮杰、EverMind 邓亚峰、风行在线易正朝、百度秒哒朱广翔、Fusion Fund 张璐、香港大学黄超、MarsWave 冯雷皆来了,� �了解细目
请你和咱们一起,不再仅仅征询 AI 的异日,而是目下就用起来。� �
一键祥和 � � 点亮星标
科技前沿施展逐日见K8凯发(中国)
雅博体育app中国官网入口