中國電信韋樂平:以網(wǎng)補(bǔ)算 提升閑散智算中心算力資源利用率

4 月 23 日,在“2025 云網(wǎng)智聯(lián)大會(huì)”上,SNAI 推委會(huì)榮譽(yù)主席、原中國電信科技委主任韋樂平發(fā)表了“大模型驅(qū)動(dòng)下智算網(wǎng)的發(fā)展趨勢”主題演講。他指出,當(dāng)前國內(nèi)智算中心數(shù)量已超 280 個(gè),但 GPU 利用率不均衡,平均不到 30%。同時(shí),機(jī)內(nèi)總線帶寬與機(jī)間網(wǎng)絡(luò)帶寬不匹配,機(jī)間網(wǎng)絡(luò)帶寬太窄,算效不高。此外,機(jī)內(nèi)總線架構(gòu)的開放性、兼容性和擴(kuò)展性也不理想,缺乏可盈利的商業(yè)模式。

韋樂平表示,生成式人工智能的聯(lián)網(wǎng)技術(shù)主要包括以太網(wǎng)、IB(InfiniBand)、芯片光互連、PCIe、CXL(計(jì)算機(jī)快速鏈路)、OCS(光纖交換)等。以太網(wǎng)是世界上規(guī)模最大的低成本聯(lián)網(wǎng)技術(shù),但其傳統(tǒng)形態(tài)和協(xié)議已經(jīng)不能滿足大集群聯(lián)網(wǎng)的苛刻性能需求。目前有三個(gè)改進(jìn)方向:RoCE 是一種基于以太網(wǎng)的 RDMA,允許直接訪問遠(yuǎn)程節(jié)點(diǎn)內(nèi)存,減小了數(shù)據(jù)傳遞時(shí)延,降低了 CPU 的使用率,適合 GenAI 應(yīng)用的需求;無損以太網(wǎng)在現(xiàn)有以太網(wǎng)基礎(chǔ)上進(jìn)一步采用先進(jìn)的流控、改進(jìn)擁塞處理、優(yōu)化哈希算法等新技術(shù),性能大為改進(jìn),但是長尾時(shí)延仍偏高(5-10us),趕不上 IB(1us),適合不高于 2000GPU 互連場景;超級以太網(wǎng)聯(lián)盟(UEC)從物理層、鏈路層、傳輸層和軟件層全面改進(jìn)以太網(wǎng),具有優(yōu)異的負(fù)荷均衡、更好的網(wǎng)絡(luò)利用率和更短的時(shí)延,滿足 GenAI 和 HPC 所需,同時(shí)保留以太網(wǎng)生態(tài)系統(tǒng)的優(yōu)勢,期望性價(jià)比全面趕超 IB。預(yù)計(jì) 2026 年起量。

IB 是一種用于高性能計(jì)算的計(jì)算機(jī)網(wǎng)絡(luò),具備高寬帶、高擴(kuò)展、高可靠、無阻塞、超低時(shí)延(1us)的特點(diǎn)。但其需要采用專用硬件 IB 交換機(jī)和 IB 網(wǎng)卡,成本較高,擴(kuò)展性受限,產(chǎn)業(yè)生態(tài)較弱,過于封閉,由英偉達(dá)獨(dú)家控制。最適用高性能計(jì)算和高質(zhì)量大模型訓(xùn)練場景。

此外,芯片光互連技術(shù)還不成熟,標(biāo)準(zhǔn)缺失,預(yù)計(jì)最快 2026 年有產(chǎn)品;PCIe 是一種計(jì)算機(jī)串行擴(kuò)展總線技術(shù)。2025 年計(jì)劃發(fā)布 PCIe7.0 版本,期望進(jìn)一步提升至 128GT/S 能力;CXL 是一種架構(gòu)在 PCIe 串行總線上的新接口協(xié)議和高速互聯(lián)技術(shù),長期看,CXL 將導(dǎo)致現(xiàn)有服務(wù)器架構(gòu)的解構(gòu),將處理、內(nèi)存分別納入不同物理模塊,使能資源的查詢和共享,適應(yīng)大集群的訓(xùn)練需要和高性能計(jì)算的需要;OCS 是一種以光纖通道為交換顆粒的大容量交換,近中期主要替代 AIDC 中的 Spine 層的電交換機(jī),長期會(huì)進(jìn)一步向外擴(kuò)展。

韋樂平還提到了大模型訓(xùn)練智算拉遠(yuǎn)的思考。市場需求層面,以網(wǎng)補(bǔ)算,提升閑散智算中心算力資源利用率。

微信掃描分享本文到朋友圈
掃碼關(guān)注5G通信官方公眾號,免費(fèi)領(lǐng)取以下5G精品資料

本周熱點(diǎn)本月熱點(diǎn)

 

  最熱通信招聘

  最新招聘信息