国产成人片视频一区二区,精品国产免费一区二区,无码专区久久综合久中文字

當(dāng)前位置：思瀚首頁 >> 行業(yè)新聞 >> 產(chǎn)業(yè)新聞

樞紐間算力互聯(lián)，構(gòu)筑高速可靠全光底座
思瀚產(chǎn)業(yè)研究院 2024-10-10

萬億級參數(shù)大模型訓(xùn)練推動部署分布式智算集群方案。隨著 AI大模型參數(shù)量從千億邁向萬億，對超大規(guī)模算力需求急劇增長，單個數(shù)據(jù)中心集群部署面臨供電挑戰(zhàn)。以 GPT6 為例，需要超 10 萬張 H100卡的集群規(guī)模，整體功耗約 197 兆瓦，相當(dāng)于一個典型火電站 1/5 發(fā)電量。

Google Gemini Ultra 模型參數(shù)量約 1.8 萬億，已采用多數(shù)據(jù)中心協(xié)同訓(xùn)練的分布式智算集群部署方案，解決供電問題并滿足超大規(guī)模算力需求。

千卡/萬卡數(shù)據(jù)中心互聯(lián)帶寬需求達到百 Tbps 量級。華為 Atlas900 AI 集群由數(shù)千顆昇騰訓(xùn)練處理器構(gòu)成，要求全節(jié)點 200Gbps 網(wǎng)絡(luò)互聯(lián)，英偉達最新的Blackwell GB200單向網(wǎng)絡(luò)速率達到400Gbps。按照單卡出口帶寬 200Gbps 或 400Gbps 來核算千卡、萬卡規(guī)模的數(shù)據(jù)中心間互聯(lián)帶寬需求，初期按照 10%規(guī)劃互聯(lián)帶寬將達到10~200Tbps，未來最大互聯(lián)帶寬將達到 100~2000Tbps。

數(shù)據(jù)中心互聯(lián)推動 400G/800G 高速光傳輸系統(tǒng)部署。從全球相干光傳輸網(wǎng)絡(luò)帶寬預(yù)測看，數(shù)據(jù)中心互聯(lián)（DCI）帶寬從 2023 年開始占據(jù)光網(wǎng)絡(luò)總帶寬需求的 50%以上，且整體年增速達到 47%，同時電信運營商及互聯(lián)網(wǎng)企業(yè)的光傳輸帶寬也在穩(wěn)步增長。國內(nèi)樞紐中心的出局總帶寬規(guī)劃都在 100Tbps 以上，部分節(jié)點如長三角樞紐的上海青浦節(jié)點，部署帶寬已經(jīng)超過 300Tbps。

2024 年 5 月，北京電信分公司和中國電信研究院聯(lián)合在現(xiàn)網(wǎng)完成智算長距無損互聯(lián)技術(shù)驗證，使用了單波長 800Gbps 的超高速光波分復(fù)用傳輸系統(tǒng)，光層采用 C+L 擴展波段，整個系統(tǒng)傳輸容量近 100Tbps。

分布式大模型訓(xùn)練對 DCI 網(wǎng)絡(luò)的可靠性要求非常高。在大模型訓(xùn)練過程中，大約每 4 小時設(shè)置 1 個檢查點（checkpoint）。一旦發(fā)生光模塊或網(wǎng)絡(luò)鏈路故障，需要從上個 checkpoint 點重新訓(xùn)練，損失 4個小時訓(xùn)練時間將導(dǎo)致訓(xùn)練成本增加，因此對 DCI 網(wǎng)絡(luò)的可靠性要求很高。

此外傳輸網(wǎng)絡(luò)的誤碼損傷會觸發(fā) RDMA 協(xié)議的回退機制，每次丟包報文重傳，傳輸時延會增加一個 RTT 周期，導(dǎo)致訓(xùn)練交互時延變大，降低計算效率。分布式 AI 大模型訓(xùn)練要求高可靠無損傳輸，確保網(wǎng)絡(luò)可用性達到 6 個 9。

更多行業(yè)研究分析請參考思瀚產(chǎn)業(yè)研究院官網(wǎng)，同時思瀚產(chǎn)業(yè)研究院亦提供行研報告、可研報告（立項審批備案、銀行貸款、投資決策、集團上會）、產(chǎn)業(yè)規(guī)劃、園區(qū)規(guī)劃、商業(yè)計劃書（股權(quán)融資、招商合資、內(nèi)部決策）、專項調(diào)研、建筑設(shè)計、境外投資報告等相關(guān)咨詢服務(wù)方案。來源：中國信通院思瀚研究院

免責(zé)聲明：
1.本站部分文章為轉(zhuǎn)載，其目的在于傳播更多信息，我們不對其準(zhǔn)確性、完整性、及時性、有效性和適用性等任何的陳述和保證。本文僅代表作者本人觀點，并不代表本網(wǎng)贊同其觀點和對其真實性負(fù)責(zé)。
2.思瀚研究院一貫高度重視知識產(chǎn)權(quán)保護并遵守中國各項知識產(chǎn)權(quán)法律。如涉及文章內(nèi)容、版權(quán)等問題，我們將及時溝通與處理。