醫(yī)療健康信息技術(shù)裝備制造汽車及零部件文體教育現(xiàn)代服務(wù)業(yè)金融保險旅游酒店綠色環(huán)保能源電力化工新材料房地產(chǎn)建筑建材交通運輸社消零售輕工業(yè)家電數(shù)碼產(chǎn)品現(xiàn)代農(nóng)業(yè)投資環(huán)境
產(chǎn)業(yè)新聞產(chǎn)業(yè)資訊產(chǎn)業(yè)投資產(chǎn)業(yè)數(shù)據(jù)產(chǎn)業(yè)科技產(chǎn)業(yè)政策
1、海外科技巨頭積極布局多 DC 分布式訓(xùn)練
海外科技巨頭積極布局多 DC 分布式訓(xùn)練。關(guān)于 AI 大模型訓(xùn)練在什么階段需要 DCI聯(lián)接,需要多少 DCI 帶寬,我們認為不同的互聯(lián)網(wǎng)公司,因為 IDC 資源不同、業(yè)務(wù)模型不同,會有較大的配置差異。但是我們可以清楚的看到 Meta 和 Google 已經(jīng)開始了多 DC 分布式訓(xùn)練,其中 Google 的 Gemini 1 Ultra 就是通過多 DC 的分布式訓(xùn)練實現(xiàn)的。
谷歌積極布局多 DC 分布式訓(xùn)練。谷歌有兩個主要的多數(shù)據(jù)中心區(qū)域,分別位于俄亥俄州和愛荷華州/內(nèi)布拉斯加州??瞪獱柌祭蛩怪車膮^(qū)域正在積極擴展,容量將超過現(xiàn)有容量的兩倍。除了上述園區(qū)外,谷歌還在該地區(qū)擁有另外三個正在建設(shè)中的站點,這些站點都在升級高帶寬的網(wǎng)絡(luò)。有三個站點彼此相距約 15 英里(康瑟爾布拉夫斯、奧馬哈和愛荷華州帕皮?。硪粋€站點距離約 50 英里,位于內(nèi)布拉斯加州林肯市。預(yù)計到 2026 年,四個園區(qū)的結(jié)合將形成一個 GW 級的人工智能訓(xùn)練集群,其中林肯數(shù)據(jù)中心將是谷歌最大的單個站點。
OpenAI 和微軟更加雄心勃勃,計劃將各個超大型園區(qū)互連在一起起來,并在全國范圍內(nèi)進行大規(guī)模的分布式訓(xùn)練。
2、分布式訓(xùn)練給網(wǎng)絡(luò)帶來挑戰(zhàn)
AI 訓(xùn)練步入十萬卡時代,跨 DC 協(xié)同訓(xùn)練對網(wǎng)絡(luò)帶來挑戰(zhàn)。
(1)AI 訓(xùn)練對網(wǎng)絡(luò)丟包的敏感度高,即使是 0.1%的丟包率也可能導(dǎo)致訓(xùn)練效率降低 50%,嚴(yán)重影響協(xié)同訓(xùn)練效果。
(2)大象流會導(dǎo)致網(wǎng)絡(luò)中的傳統(tǒng)基于五元組的負載分擔(dān)方法失效,鏈路負載不均衡,降低網(wǎng)絡(luò)使用率。
(3)在萬卡集群中,由于業(yè)務(wù)高突發(fā)和高并發(fā),極端情況下流量瞬時并發(fā)可達上千 Tbps。目前,十公里的跨機樓并行訓(xùn)練算效損失可低于 5%,具備可行性,未來百公里級、千公里級的跨地域并行訓(xùn)練欲將損失控制在 10%以下,除需建設(shè)長距離超寬 DCI 網(wǎng)絡(luò)之外,還涉及模型切分策略、集合通信算法、無損網(wǎng)絡(luò)技術(shù)等。
為了實現(xiàn)多園區(qū)訓(xùn)練,Google 目前使用功能強大的分片工具 MegaScaler,它能夠使用 Pathways 的同步訓(xùn)練將一個園區(qū)內(nèi)的多個 pod 和一個區(qū)域內(nèi)的多個校區(qū)進行分區(qū)。在擴大單個訓(xùn)練工作負載所需的芯片數(shù)量時,MegaScaler 為 Google 在穩(wěn)定性和可靠性方面提供了強大優(yōu)勢。
未來在多園區(qū)、多區(qū)域集群上訓(xùn)練的模型將達到 100T+的數(shù)量級。在不久的將來,我們認為,一個區(qū)域內(nèi)的園區(qū)站點間的帶寬增長到 5Pbit/s 左右是較為合理的假設(shè),而不同區(qū)域之間的合理帶寬是 1Pbit/s。
3、DCI 互聯(lián)方案和市場空間分析
更大的帶寬可以通過更高階的調(diào)制方式或者采用 DWDM(密集波分復(fù)用)來實現(xiàn)。與使用 PAM4 的強度調(diào)制直接檢測方案(IMDD)相比,DP-16QAM 的帶寬增加了 8 倍。長距離傳輸仍然存在光纖限制,DWDM 將多種波長的光聚合到同一根光纖上,也可以用來實現(xiàn)更高的帶寬。在下面示例中,C 波段(1530nm 到 1565nm)上的 76 個波長和 L波段(1565nm 到 1625nm)上的 76個波長被復(fù)用到同一根光纖上。
400G ZR 相干光學(xué)技術(shù)有望在 DCI 中取代傳統(tǒng)的波分復(fù)用(WDM)系統(tǒng)。相比于傳統(tǒng)的 WDM 系統(tǒng),400G ZR 系統(tǒng)更加簡潔,主要有 MUX/DEMUX,并采用可調(diào)諧激光器的相干光模塊,直接放在客戶側(cè)的交換機/路由器上。
根據(jù)通信距離的不同,DCI 場景也會選擇不同的產(chǎn)品。(1)在 IDC 園區(qū)內(nèi)部,多個不同的 DC 之間互連,一般會優(yōu)先選擇在樓宇間布放大量光纜+LR 光模塊的方式。(2)跨園區(qū)的 DCI 互聯(lián),一般選擇 DWDM+ZR 光模塊的方案。根據(jù) LightCounting 的預(yù)測,2024-2028 年,400G LR 的光模塊保持增長。產(chǎn)品價值量方面,根據(jù) LightCounting 預(yù)測,2023 年 400G LR 的價格為 760 美元,2024 年400G ZR 的價格為 646 美元。
根據(jù) LightCounting 的預(yù)測,2024-2028 年,400G ZR,ZR+、600G、800G、1.2T、1.6T的光模塊保持增長。產(chǎn)品價值量方面,根據(jù) LightCounting 預(yù)測,2023 年 400G ZR的價格為 3230 美元,2024 年 800G ZR 的價格為 4800 美元。
更多行業(yè)研究分析請參考思瀚產(chǎn)業(yè)研究院官網(wǎng),同時思瀚產(chǎn)業(yè)研究院亦提供行研報告、可研報告(立項審批備案、銀行貸款、投資決策、集團上會)、產(chǎn)業(yè)規(guī)劃、園區(qū)規(guī)劃、商業(yè)計劃書(股權(quán)融資、招商合資、內(nèi)部決策)、專項調(diào)研、建筑設(shè)計、境外投資報告等相關(guān)咨詢服務(wù)方案。