醫(yī)療健康信息技術(shù)裝備制造汽車及零部件文體教育現(xiàn)代服務(wù)業(yè)金融保險(xiǎn)旅游酒店綠色環(huán)保能源電力化工新材料房地產(chǎn)建筑建材交通運(yùn)輸社消零售輕工業(yè)家電數(shù)碼產(chǎn)品現(xiàn)代農(nóng)業(yè)投資環(huán)境
產(chǎn)業(yè)新聞產(chǎn)業(yè)資訊產(chǎn)業(yè)投資產(chǎn)業(yè)數(shù)據(jù)產(chǎn)業(yè)科技產(chǎn)業(yè)政策
AIGC(Artificial Intelligence Generated Content)是一種利用生成式AI 技術(shù)自動(dòng)創(chuàng)作內(nèi)容的新型生產(chǎn)方式。與傳統(tǒng)AI 主要關(guān)注于識(shí)別和預(yù)測(cè)現(xiàn)有數(shù)據(jù)模式不同,AIGC 則專注于創(chuàng)造全新的、有創(chuàng)意的數(shù)據(jù)。其核心原理在于學(xué)習(xí)和理解數(shù)據(jù)的分布,從而生成具有相似特征的新數(shù)據(jù),能夠生成文本、圖像、音頻、視頻等多種形式的內(nèi)容。
AIGC 涵蓋了利用生成式 AI 技術(shù)生成的多種類型內(nèi)容,而大型AI模型則是實(shí)現(xiàn) AIGC 的重要技術(shù)手段。生成式 AI 通過深度學(xué)習(xí)模型在大數(shù)據(jù)集上進(jìn)行訓(xùn)練,以創(chuàng)造新的文本、圖像和音樂等多樣化的內(nèi)容。
AIGC 不僅包括生成式AI算法,還涉及自然語(yǔ)言處理、計(jì)算機(jī)視覺(CV)和音頻處理等核心技術(shù)。在生成式AI 的框架中,大型 AI 模型發(fā)揮著至關(guān)重要的作用,通常采用大量參數(shù)的神經(jīng)網(wǎng)絡(luò)架構(gòu),主要包括大語(yǔ)言模型(LLM)、大多模態(tài)模型(LMM)和大視覺模型(LVM)。
其中,大語(yǔ)言模型是最為核心的類型,包含數(shù)十億以上參數(shù)的深度神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型,運(yùn)用自監(jiān)督學(xué)習(xí)方法,通過大量未標(biāo)注的文本進(jìn)行預(yù)訓(xùn)練,從而掌握語(yǔ)言的復(fù)雜結(jié)構(gòu)。需要注意的是,并非所有的大語(yǔ)言模型都專注于生成任務(wù),有些模型(如 BERT)更適合理解任務(wù),而其他模型(如GPT系列)則更擅長(zhǎng)生成任務(wù)。
大語(yǔ)言模型的發(fā)展經(jīng)歷了基礎(chǔ)模型、能力探索和突破發(fā)展三個(gè)階段。2017年,Vaswani 等人提出的 Transformer 架構(gòu)為大語(yǔ)言模型的演進(jìn)奠定了堅(jiān)實(shí)基礎(chǔ)。自 2018 年以來,Google、OpenAI 和 Meta 等公司相繼推出了多種大語(yǔ)言模型,如 OpenAI 的 GPT 系列、Google 的 Gemini 和Meta 的LLaMA系列,推動(dòng)了這一領(lǐng)域的迅猛發(fā)展。
在基礎(chǔ)模型階段(2018 年至 2021 年),研究主要集中在語(yǔ)言模型本身,Google 的 BERT 和 OpenAI 的 GPT-1 標(biāo)志著預(yù)訓(xùn)練語(yǔ)言模型時(shí)代的開啟,模型參數(shù)量實(shí)現(xiàn)了數(shù)量級(jí)的提升,從 GPT-1 的 1.17億增加到GPT-3 的1750億,這使得大模型在自然語(yǔ)言任務(wù)中的表現(xiàn)極為出色。
在能力探索階段(2019 年至 2022 年),研究者們探索如何在不針對(duì)單一任務(wù)進(jìn)行微調(diào)的情況下,充分發(fā)揮大語(yǔ)言模型的能力,隨后引入指令微調(diào)方案(Instruction Tuning),使模型在特定任務(wù)上的表現(xiàn)更加精準(zhǔn),同時(shí)保留了在其他任務(wù)上的泛化能力。
在突破發(fā)展階段(2022 年 11 月至今),大語(yǔ)言模型向多模態(tài)持續(xù)進(jìn)階,模型能力不斷擴(kuò)展,從文本生成延伸到圖像和視頻生成。自ChatGPT于2022年推出以來,它迅速在全球范圍內(nèi)引發(fā)了 AIGC 的廣泛關(guān)注與應(yīng)用熱潮。以ChatGPT 為起點(diǎn),一個(gè)大語(yǔ)言模型即可實(shí)現(xiàn)回答問題、文稿撰寫、代碼生成和
數(shù)學(xué)解題等多項(xiàng)能力,這在過去需要多個(gè)小模型才能分別實(shí)現(xiàn)。GPT-4作為一款開創(chuàng)性的多模態(tài)模型,憑借其卓越的綜合實(shí)力成為行業(yè)標(biāo)桿,后續(xù)推出的GPT-4V、GPT-4-Turbo 和 GPT-4o 在性價(jià)比上不斷提升。此外,Sora文生視頻模型能夠根據(jù)文本提示生成視頻內(nèi)容,并對(duì)現(xiàn)有圖像或視頻進(jìn)行編輯和擴(kuò)展。