醫(yī)療健康信息技術裝備制造汽車及零部件文體教育現(xiàn)代服務業(yè)金融保險旅游酒店綠色環(huán)保能源電力化工新材料房地產(chǎn)建筑建材交通運輸社消零售輕工業(yè)家電數(shù)碼產(chǎn)品現(xiàn)代農(nóng)業(yè)投資環(huán)境
產(chǎn)業(yè)新聞產(chǎn)業(yè)資訊產(chǎn)業(yè)投資產(chǎn)業(yè)數(shù)據(jù)產(chǎn)業(yè)科技產(chǎn)業(yè)政策
隨著 AIGC 技術的迅猛發(fā)展,尤其是以 Transformer 為基礎的大模型,對算力的需求激增。這些先進模型在訓練和推理過程中,需要巨大的計算資源,包括高性能 GPU、高速存儲以及高速通信網(wǎng)絡。自2017 年Transformer模型問世以來,它已成為構(gòu)建大型語言模型的基石。
該模型摒棄了傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡結(jié)構(gòu),通過自注意力機制處理序列數(shù)據(jù),實現(xiàn)了對整個數(shù)據(jù)序列的并行處理,從而顯著提升了訓練和推理的效率。然而,這一技術進步也帶來了對更高算力的迫切需求,進而增加了模型訓練和部署的成本。
根據(jù)英偉達的數(shù)據(jù)顯示,在引入 Transformer 模型之前,算力需求每兩年增長約 8 倍;而采用 Transformer 模型后,這一數(shù)字飆升至每兩年增長約275倍。為了滿足不斷攀升的算力需求,數(shù)據(jù)中心正朝著超大規(guī)模的發(fā)展方向邁進,以提供更強大的計算能力和更優(yōu)越的可擴展性。同時,AI 服務器集群也在快速迭代與升級,以確保能夠滿足日益增長的算力需求。
根據(jù) Scaling-law 法則,大語言模型的性能隨著模型參數(shù)量、訓練數(shù)據(jù)量和計算資源的增加而顯著提升。從大模型的算力需求來看,隨著參數(shù)規(guī)模、Token 數(shù)量以及訓練所需算力的同步增長,模型性能不斷提升。
以GPT-4為例,其參數(shù)量從 GPT-3 的約 1750 億提升至約 1.8 萬億,增幅超過10 倍;而訓練數(shù)據(jù)集的規(guī)模也從 GPT-3 的幾千億 Token 擴大到13 萬億Token。這種規(guī)模上的提升使得 GPT-4 在處理復雜問題和生成自然語言文本方面的能力得到了極大的增強。
隨著 AIGC 大模型性能的顯著提升,對計算資源的需求也呈現(xiàn)出指數(shù)級的增長。以 GPT-4 為例,其訓練過程需要約 2.15e25 FLOPS 的運算量,這通常需要動用約 25000 塊 A100 GPU,且訓練周期長達90 至100 天。
此外,數(shù)據(jù)采集、模型優(yōu)化和強化學習等環(huán)節(jié)的額外開銷,使得整體成本變得更加高昂。根據(jù)斯坦福大學 2024 年發(fā)布的 AI 指數(shù)報告,AIGC 模型的訓練成本正在急劇上升,GPT-4 的成本從 2022 年 GPT-3 的大約 430 萬美元激增至2023 年的7835萬美元。隨著模型的不斷擴展和訓練過程的日益復雜,這些成本預計將繼續(xù)攀升。
更多行業(yè)研究分析請參考思瀚產(chǎn)業(yè)研究院官網(wǎng),同時思瀚產(chǎn)業(yè)研究院亦提供行研報告、可研報告(立項審批備案、銀行貸款、投資決策、集團上會)、產(chǎn)業(yè)規(guī)劃、園區(qū)規(guī)劃、商業(yè)計劃書(股權(quán)融資、招商合資、內(nèi)部決策)、專項調(diào)研、建筑設計、境外投資報告等相關咨詢服務方案。