醫(yī)療健康信息技術(shù)裝備制造汽車及零部件文體教育現(xiàn)代服務(wù)業(yè)金融保險(xiǎn)旅游酒店綠色環(huán)保能源電力化工新材料房地產(chǎn)建筑建材交通運(yùn)輸社消零售輕工業(yè)家電數(shù)碼產(chǎn)品現(xiàn)代農(nóng)業(yè)投資環(huán)境
產(chǎn)業(yè)新聞產(chǎn)業(yè)資訊產(chǎn)業(yè)投資產(chǎn)業(yè)數(shù)據(jù)產(chǎn)業(yè)科技產(chǎn)業(yè)政策
OpenAI創(chuàng)立:以實(shí)現(xiàn)安全的AGI為主旨
OpenAI于6月發(fā)布GPT-3模型 ,9 月微軟獲得該模型獨(dú)家許可。OpenAI 于 11月發(fā)布聊天機(jī)器 人 模 型ChatGPT,能夠與人類進(jìn)行多輪連續(xù)的各種對話,給出較為合理的回答,引發(fā)全球關(guān)注。2020 2022 2024? OpenAI由Sam Altman、Elon Musk等在2015年創(chuàng)辦,主旨是努力在安全的前提下創(chuàng)建通用人工智能(AGI)并讓全人類共同受益;2020年發(fā)布GPT-3模型,2022年11月發(fā)布GPT-3.5模型,能夠與人類進(jìn)行多輪連續(xù)的各種對話,給出較為合理的回答;2023年3月發(fā)布GPT-4模型;2024年2月發(fā)布AI視頻生成模型Sora,AI視頻生成領(lǐng)域迎來ChatGPT時刻。
GPT發(fā)展回顧:模型性能隨結(jié)構(gòu)、規(guī)模的提升不斷優(yōu)化
GPT-1通過無監(jiān)督預(yù)訓(xùn)練和有監(jiān)督微調(diào)兩個步驟訓(xùn)練;GPT-2無需有監(jiān)督微調(diào),而是通過更大規(guī)模的模型參數(shù)和訓(xùn)練數(shù)據(jù)集進(jìn)行無監(jiān)督預(yù)訓(xùn)練,模型參數(shù)量達(dá)到15億;GPT-3的模型參數(shù)和數(shù)據(jù)集進(jìn)一步擴(kuò)大,模型參數(shù)量增加到1750億,上下文窗口寬度增加到2048個token。
GPT 發(fā)展回顧:GPT3.5改進(jìn)訓(xùn)練步驟實(shí)現(xiàn)性能躍升
ChatGPT/GPT-3.5:2022年11月30日發(fā)布,在GPT-3的基礎(chǔ)上進(jìn)行有監(jiān)督微調(diào)(Supervised Fine-Tuning)、獎勵模型訓(xùn)練(RewardModeling)和來自人類反饋的強(qiáng)化學(xué)習(xí)(Reinforcement Learning from Human Feedback, RLHF)。ChatGPT具有以下特征:主動承認(rèn)自身錯誤、質(zhì)疑不正確的問題、承認(rèn)自身的無知和對專業(yè)技術(shù)的不了解以及支持連續(xù)多輪對話,極大提升了對話交互模式下的用戶體驗(yàn)。
GPT發(fā)展回顧:多模態(tài)大模型GPT-4
2023年3月14日,OpenAI宣布推出大型的多模態(tài)模型GPT-4,可以接收圖像和文本輸入。OpenAI稱,GPT-4參加了多種基準(zhǔn)考試測試,包括美國律師資格考試Uniform Bar Exam、法學(xué)院入學(xué)考試LSAT、“美國高考”SAT數(shù)學(xué)部分和證據(jù)性閱讀與寫作部分的考試,在這些測試中,它的得分高于88%的應(yīng)試者。
GPT發(fā)展回顧:更快更強(qiáng)更便宜的GPT-4 Turbo
2023年11月7日,OpenAI在開發(fā)者大會披露新版本具備:1) 更長的上下文長度:支持128K上下文窗口,相當(dāng)于300頁文本;2) 更便宜:新模型的價格是每千輸入token 1美分,而每千輸出token 3美分,輸入和輸出費(fèi)用分別降至GPT-4(8K)的1/3和1/2,總體使用上降價約2.75倍;3) 更聰明:內(nèi)部知識庫更新至2023年4月,并支持上傳外部數(shù)據(jù)庫或文件;4) 視聽多模態(tài):支持文生圖模型DALL·E3、文本轉(zhuǎn)語音模型TTS,未來還將支持自動語音識別模型Whisper v3;5) 更快的速度:用戶每分鐘的Token速率限制將會翻倍,可通過API賬戶申請進(jìn)一步提速。
最新進(jìn)展:GPT-5有望實(shí)現(xiàn)性能躍升
商標(biāo)律師Josh Gerben在社交平臺曬出OpenAI于2023年7月18日向美國專利商標(biāo)局(USPTO)提交GPT-5商標(biāo)的消息,GPT-5提供的功能包括自然語言處理、文本生成、理解、語音轉(zhuǎn)錄、翻譯、預(yù)測和分析等,實(shí)際發(fā)布功能可能有變動。
根據(jù)OpenAI首席執(zhí)行官Sam Altman的披露,GPT-5將具備三大升級點(diǎn):1) 多模態(tài):支持文本、語音、圖像、代碼和視頻輸入;2)個性化:理解個人偏好的能力,如整合用戶信息、電子郵件、日歷、約會偏好,并與外部數(shù)據(jù)源建立聯(lián)系;3) 推理能力和準(zhǔn)確性:如果GPT-4目前解決了人類任務(wù)的10%,GPT-5應(yīng)該是15%或者20%,當(dāng)前大模型的通病——幻覺問題也將在GPT-5中得到解決。
圖片生成模型:OpenAI發(fā)布DALL.E 3
2023年9月,OpenAI發(fā)布DALL.E 3,比以往系統(tǒng)更能理解細(xì)微差別和細(xì)節(jié),能夠讓用戶更加輕松地將自己的想法轉(zhuǎn)化為非常準(zhǔn)確的圖像;該模型原生構(gòu)建在ChatGPT之上,用ChatGPT來創(chuàng)建、拓展和優(yōu)化prompt,用戶無需在prompt上花費(fèi)太多時間。
DALL.E 3的技術(shù)架構(gòu)主要分為圖像描述生成和圖像生成兩大模塊。圖像描述生成模塊使用了CLIP圖像編碼器和GPT語言模型(GPT-4),可為每張圖像生成細(xì)致的文字描述;圖像生成模塊先用VAE將高分辨率圖像壓縮為低維向量,降低學(xué)習(xí)難度。然后使用T5 Transformer將文本編碼為向量,并通過GroupNorm層將其注入diffusion模型,指導(dǎo)圖像生成方向。
DALL.E 3生成高質(zhì)量圖像
資料來源:OpenAI官網(wǎng),思瀚,國元證券研究所
視頻生成模型:OpenAI發(fā)布“物理世界模擬器”Sora
2024年2月16日,OpenAI發(fā)布AI生成視頻模型Sora,其卓越之處在于能夠生成跨越不同持續(xù)時間、縱橫比和分辨率的視頻和圖像,甚至包括生成長達(dá)一分鐘的高清視頻,“碾壓”了行業(yè)目前平均約”4s”的視頻生成長度,AI視頻生成領(lǐng)域迎來ChatGPT時刻。
OpenAI在Sora技術(shù)報(bào)告中寫道: ”O(jiān)ur results suggest that scaling video generation models is a promising path towards buildinggeneral purpose simulators of the physical world”.
視頻生成模型:OpenAI發(fā)布“物理世界模擬器”Sora
Sora不僅接受文字輸入,還可根據(jù)圖像和視頻輸入來生成視頻。Sora能夠執(zhí)行各種圖像和視頻編輯任務(wù)——創(chuàng)建完美循環(huán)的視頻、為靜態(tài)圖像制作動畫、在時間維度上向前或向后擴(kuò)展視頻、在兩個截然不同的輸入視頻之間實(shí)現(xiàn)無縫過渡、零輸入轉(zhuǎn)換輸入視頻風(fēng)格和場景,展示了該模型在圖像和視頻編輯領(lǐng)域的強(qiáng)大能力和應(yīng)用潛力,有望給產(chǎn)業(yè)端帶來革命性的變革。
模型尺度擴(kuò)展帶來驚人的涌現(xiàn)能力(emerging simulation capabilities)。1) 3D一致性:在3D一致性方面,Sora能夠生成帶有動態(tài)攝像頭運(yùn)動的視頻。隨著攝像頭的移動和旋轉(zhuǎn),人物和場景元素在三維空間中始終保持一致的運(yùn)動規(guī)律。2) 較長視頻的連貫性和對象持久性:這是視頻生成領(lǐng)域面對的一個重要挑戰(zhàn),而Sora能有效為短期和長期物體間的依賴關(guān)系建模,人和物被遮擋或離開畫面后,仍能被準(zhǔn)確地保存和呈現(xiàn)。3) 與世界互動:Sora能以簡單的方式模擬影響世界狀態(tài)的行為,例如畫家可以在畫布上留下新的筆觸。4) 模擬數(shù)字世界:Sora能夠模擬人工過程,比如視頻游戲。
Sora的本質(zhì)是一種Diffusion transformer模型。Diffusion transformer (DiT)架構(gòu)由William Peebles 和Saining Xie在2023年提出,使用Transformer來訓(xùn)練圖像的潛在擴(kuò)散模型,取代了通常使用的U-Net骨干網(wǎng)絡(luò),融合了擴(kuò)散模型與自回歸模型的雙重特性。
AI生成視頻的技術(shù)路線主要經(jīng)歷了四個階段:循環(huán)網(wǎng)絡(luò)(RNN)、生成對抗網(wǎng)絡(luò)(GAN)、自回歸模型(autoregressive transformers)、擴(kuò)散模型(diffusion models)。目前領(lǐng)先的視頻模型大多數(shù)是擴(kuò)散模型,比如Runway、Pika等。自回歸模型由于更好的多模態(tài)能力與擴(kuò)展性也成為熱門的研究方向,如谷歌在2023年12月發(fā)布的VideoPoet。
Sora模型訓(xùn)練范式:patch統(tǒng)一原始視覺數(shù)據(jù)。OpenAI提出了一種用patch作為視頻數(shù)據(jù)來訓(xùn)練視頻模型的方式,patch是將圖像或視頻幀分割成的一系列小塊區(qū)域,是模型處理和理解原始數(shù)據(jù)的基本單元,這是從大語言模型的token汲取的靈感。Token統(tǒng)一了文本的多種模式——代碼、數(shù)學(xué)和各種自然語言,而patch則統(tǒng)一了圖像與視頻。過去的圖像和視頻生成方法通常會將視頻調(diào)整大小、裁剪或修剪為標(biāo)準(zhǔn)尺寸,而這損耗了視頻生成的質(zhì)量,將圖片與視頻數(shù)據(jù)patch化之后,無需對數(shù)據(jù)進(jìn)行壓縮,就能夠?qū)Σ煌直媛?、持續(xù)時間和長寬比的視頻和圖像的原始數(shù)據(jù)進(jìn)行訓(xùn)練。
Sora模型訓(xùn)練范式:re-captioning標(biāo)注技術(shù)帶來優(yōu)秀的語言理解能力。訓(xùn)練文本轉(zhuǎn)視頻生成系統(tǒng)需要大量帶有相應(yīng)文本字幕的視頻,為此OpenAI借鑒了DALL·E3中的re-captioning技術(shù),首先訓(xùn)練了一個高度描述性的轉(zhuǎn)譯員模型,然后使用它為訓(xùn)練集中的所有視頻生成文本轉(zhuǎn)譯。通過這種方式對高度描述性的視頻轉(zhuǎn)譯進(jìn)行訓(xùn)練,可顯著提高文本保真度和視頻的整體質(zhì)量。與DALL·E3類似,OpenAI利用GPT技術(shù)將簡短的用戶提示轉(zhuǎn)換為更長的詳細(xì)轉(zhuǎn)譯,并發(fā)送到視頻模型,令Sora能精確按照用戶提示生成高質(zhì)量視頻。
更多行業(yè)研究分析請參考思瀚產(chǎn)業(yè)研究院官網(wǎng),同時思瀚產(chǎn)業(yè)研究院亦提供行研報(bào)告、可研報(bào)告(立項(xiàng)審批備案、銀行貸款、投資決策、集團(tuán)上會)、產(chǎn)業(yè)規(guī)劃、園區(qū)規(guī)劃、商業(yè)計(jì)劃書(股權(quán)融資、招商合資、內(nèi)部決策)、專項(xiàng)調(diào)研、建筑設(shè)計(jì)、境外投資報(bào)告等相關(guān)咨詢服務(wù)方案。