国产性一交一乱一伦一色一情,日韩无码一区精品

當(dāng)前位置：思瀚首頁 >> 行業(yè)新聞 >> 產(chǎn)業(yè)投資

OpenAI引領(lǐng)大模型技術(shù)，終極目標(biāo)劍指AGI
思瀚產(chǎn)業(yè)研究院 2024-11-11

OpenAI創(chuàng)立：以實(shí)現(xiàn)安全的AGI為主旨

OpenAI于6月發(fā)布GPT-3模型，9 月微軟獲得該模型獨(dú)家許可。OpenAI 于 11月發(fā)布聊天機(jī)器人模型ChatGPT，能夠與人類進(jìn)行多輪連續(xù)的各種對話，給出較為合理的回答，引發(fā)全球關(guān)注。2020 2022 2024? OpenAI由Sam Altman、Elon Musk等在2015年創(chuàng)辦，主旨是努力在安全的前提下創(chuàng)建通用人工智能(AGI)并讓全人類共同受益；2020年發(fā)布GPT-3模型，2022年11月發(fā)布GPT-3.5模型，能夠與人類進(jìn)行多輪連續(xù)的各種對話，給出較為合理的回答；2023年3月發(fā)布GPT-4模型；2024年2月發(fā)布AI視頻生成模型Sora，AI視頻生成領(lǐng)域迎來ChatGPT時刻。

GPT發(fā)展回顧：模型性能隨結(jié)構(gòu)、規(guī)模的提升不斷優(yōu)化

GPT-1通過無監(jiān)督預(yù)訓(xùn)練和有監(jiān)督微調(diào)兩個步驟訓(xùn)練；GPT-2無需有監(jiān)督微調(diào)，而是通過更大規(guī)模的模型參數(shù)和訓(xùn)練數(shù)據(jù)集進(jìn)行無監(jiān)督預(yù)訓(xùn)練，模型參數(shù)量達(dá)到15億；GPT-3的模型參數(shù)和數(shù)據(jù)集進(jìn)一步擴(kuò)大，模型參數(shù)量增加到1750億，上下文窗口寬度增加到2048個token。

GPT 發(fā)展回顧：GPT3.5改進(jìn)訓(xùn)練步驟實(shí)現(xiàn)性能躍升

ChatGPT/GPT-3.5：2022年11月30日發(fā)布，在GPT-3的基礎(chǔ)上進(jìn)行有監(jiān)督微調(diào)(Supervised Fine-Tuning)、獎勵模型訓(xùn)練(RewardModeling)和來自人類反饋的強(qiáng)化學(xué)習(xí)(Reinforcement Learning from Human Feedback, RLHF)。ChatGPT具有以下特征：主動承認(rèn)自身錯誤、質(zhì)疑不正確的問題、承認(rèn)自身的無知和對專業(yè)技術(shù)的不了解以及支持連續(xù)多輪對話，極大提升了對話交互模式下的用戶體驗(yàn)。

GPT發(fā)展回顧：多模態(tài)大模型GPT-4

2023年3月14日，OpenAI宣布推出大型的多模態(tài)模型GPT-4，可以接收圖像和文本輸入。OpenAI稱，GPT-4參加了多種基準(zhǔn)考試測試，包括美國律師資格考試Uniform Bar Exam、法學(xué)院入學(xué)考試LSAT、“美國高考”SAT數(shù)學(xué)部分和證據(jù)性閱讀與寫作部分的考試，在這些測試中，它的得分高于88%的應(yīng)試者。

GPT發(fā)展回顧：更快更強(qiáng)更便宜的GPT-4 Turbo

2023年11月7日，OpenAI在開發(fā)者大會披露新版本具備：1) 更長的上下文長度：支持128K上下文窗口，相當(dāng)于300頁文本；2) 更便宜：新模型的價格是每千輸入token 1美分，而每千輸出token 3美分，輸入和輸出費(fèi)用分別降至GPT-4(8K)的1/3和1/2，總體使用上降價約2.75倍；3) 更聰明：內(nèi)部知識庫更新至2023年4月，并支持上傳外部數(shù)據(jù)庫或文件；4) 視聽多模態(tài)：支持文生圖模型DALL·E3、文本轉(zhuǎn)語音模型TTS，未來還將支持自動語音識別模型Whisper v3；5) 更快的速度：用戶每分鐘的Token速率限制將會翻倍，可通過API賬戶申請進(jìn)一步提速。

最新進(jìn)展：GPT-5有望實(shí)現(xiàn)性能躍升

商標(biāo)律師Josh Gerben在社交平臺曬出OpenAI于2023年7月18日向美國專利商標(biāo)局(USPTO)提交GPT-5商標(biāo)的消息，GPT-5提供的功能包括自然語言處理、文本生成、理解、語音轉(zhuǎn)錄、翻譯、預(yù)測和分析等，實(shí)際發(fā)布功能可能有變動。

根據(jù)OpenAI首席執(zhí)行官Sam Altman的披露，GPT-5將具備三大升級點(diǎn)：1) 多模態(tài)：支持文本、語音、圖像、代碼和視頻輸入；2)個性化：理解個人偏好的能力，如整合用戶信息、電子郵件、日歷、約會偏好，并與外部數(shù)據(jù)源建立聯(lián)系；3) 推理能力和準(zhǔn)確性：如果GPT-4目前解決了人類任務(wù)的10%，GPT-5應(yīng)該是15%或者20%，當(dāng)前大模型的通病——幻覺問題也將在GPT-5中得到解決。

圖片生成模型：OpenAI發(fā)布DALL.E 3

2023年9月，OpenAI發(fā)布DALL.E 3，比以往系統(tǒng)更能理解細(xì)微差別和細(xì)節(jié)，能夠讓用戶更加輕松地將自己的想法轉(zhuǎn)化為非常準(zhǔn)確的圖像；該模型原生構(gòu)建在ChatGPT之上，用ChatGPT來創(chuàng)建、拓展和優(yōu)化prompt，用戶無需在prompt上花費(fèi)太多時間。

DALL.E 3的技術(shù)架構(gòu)主要分為圖像描述生成和圖像生成兩大模塊。圖像描述生成模塊使用了CLIP圖像編碼器和GPT語言模型(GPT-4)，可為每張圖像生成細(xì)致的文字描述；圖像生成模塊先用VAE將高分辨率圖像壓縮為低維向量，降低學(xué)習(xí)難度。然后使用T5 Transformer將文本編碼為向量，并通過GroupNorm層將其注入diffusion模型，指導(dǎo)圖像生成方向。

DALL.E 3生成高質(zhì)量圖像

資料來源：OpenAI官網(wǎng)，思瀚，國元證券研究所

視頻生成模型：OpenAI發(fā)布“物理世界模擬器”Sora

2024年2月16日，OpenAI發(fā)布AI生成視頻模型Sora，其卓越之處在于能夠生成跨越不同持續(xù)時間、縱橫比和分辨率的視頻和圖像，甚至包括生成長達(dá)一分鐘的高清視頻，“碾壓”了行業(yè)目前平均約”4s”的視頻生成長度，AI視頻生成領(lǐng)域迎來ChatGPT時刻。

OpenAI在Sora技術(shù)報(bào)告中寫道: ”O(jiān)ur results suggest that scaling video generation models is a promising path towards buildinggeneral purpose simulators of the physical world”.

視頻生成模型：OpenAI發(fā)布“物理世界模擬器”Sora

Sora不僅接受文字輸入，還可根據(jù)圖像和視頻輸入來生成視頻。Sora能夠執(zhí)行各種圖像和視頻編輯任務(wù)——創(chuàng)建完美循環(huán)的視頻、為靜態(tài)圖像制作動畫、在時間維度上向前或向后擴(kuò)展視頻、在兩個截然不同的輸入視頻之間實(shí)現(xiàn)無縫過渡、零輸入轉(zhuǎn)換輸入視頻風(fēng)格和場景，展示了該模型在圖像和視頻編輯領(lǐng)域的強(qiáng)大能力和應(yīng)用潛力，有望給產(chǎn)業(yè)端帶來革命性的變革。

模型尺度擴(kuò)展帶來驚人的涌現(xiàn)能力(emerging simulation capabilities)。1) 3D一致性：在3D一致性方面，Sora能夠生成帶有動態(tài)攝像頭運(yùn)動的視頻。隨著攝像頭的移動和旋轉(zhuǎn)，人物和場景元素在三維空間中始終保持一致的運(yùn)動規(guī)律。2) 較長視頻的連貫性和對象持久性：這是視頻生成領(lǐng)域面對的一個重要挑戰(zhàn)，而Sora能有效為短期和長期物體間的依賴關(guān)系建模，人和物被遮擋或離開畫面后，仍能被準(zhǔn)確地保存和呈現(xiàn)。3) 與世界互動：Sora能以簡單的方式模擬影響世界狀態(tài)的行為，例如畫家可以在畫布上留下新的筆觸。4) 模擬數(shù)字世界：Sora能夠模擬人工過程，比如視頻游戲。

Sora的本質(zhì)是一種Diffusion transformer模型。Diffusion transformer (DiT)架構(gòu)由William Peebles 和Saining Xie在2023年提出，使用Transformer來訓(xùn)練圖像的潛在擴(kuò)散模型，取代了通常使用的U-Net骨干網(wǎng)絡(luò)，融合了擴(kuò)散模型與自回歸模型的雙重特性。

AI生成視頻的技術(shù)路線主要經(jīng)歷了四個階段：循環(huán)網(wǎng)絡(luò)(RNN)、生成對抗網(wǎng)絡(luò)(GAN)、自回歸模型(autoregressive transformers)、擴(kuò)散模型(diffusion models)。目前領(lǐng)先的視頻模型大多數(shù)是擴(kuò)散模型，比如Runway、Pika等。自回歸模型由于更好的多模態(tài)能力與擴(kuò)展性也成為熱門的研究方向，如谷歌在2023年12月發(fā)布的VideoPoet。

Sora模型訓(xùn)練范式：patch統(tǒng)一原始視覺數(shù)據(jù)。OpenAI提出了一種用patch作為視頻數(shù)據(jù)來訓(xùn)練視頻模型的方式，patch是將圖像或視頻幀分割成的一系列小塊區(qū)域，是模型處理和理解原始數(shù)據(jù)的基本單元，這是從大語言模型的token汲取的靈感。Token統(tǒng)一了文本的多種模式——代碼、數(shù)學(xué)和各種自然語言，而patch則統(tǒng)一了圖像與視頻。過去的圖像和視頻生成方法通常會將視頻調(diào)整大小、裁剪或修剪為標(biāo)準(zhǔn)尺寸，而這損耗了視頻生成的質(zhì)量，將圖片與視頻數(shù)據(jù)patch化之后，無需對數(shù)據(jù)進(jìn)行壓縮，就能夠?qū)Σ煌直媛?、持續(xù)時間和長寬比的視頻和圖像的原始數(shù)據(jù)進(jìn)行訓(xùn)練。

Sora模型訓(xùn)練范式：re-captioning標(biāo)注技術(shù)帶來優(yōu)秀的語言理解能力。訓(xùn)練文本轉(zhuǎn)視頻生成系統(tǒng)需要大量帶有相應(yīng)文本字幕的視頻，為此OpenAI借鑒了DALL·E3中的re-captioning技術(shù)，首先訓(xùn)練了一個高度描述性的轉(zhuǎn)譯員模型，然后使用它為訓(xùn)練集中的所有視頻生成文本轉(zhuǎn)譯。通過這種方式對高度描述性的視頻轉(zhuǎn)譯進(jìn)行訓(xùn)練，可顯著提高文本保真度和視頻的整體質(zhì)量。與DALL·E3類似，OpenAI利用GPT技術(shù)將簡短的用戶提示轉(zhuǎn)換為更長的詳細(xì)轉(zhuǎn)譯，并發(fā)送到視頻模型，令Sora能精確按照用戶提示生成高質(zhì)量視頻。

更多行業(yè)研究分析請參考思瀚產(chǎn)業(yè)研究院官網(wǎng)，同時思瀚產(chǎn)業(yè)研究院亦提供行研報(bào)告、可研報(bào)告（立項(xiàng)審批備案、銀行貸款、投資決策、集團(tuán)上會）、產(chǎn)業(yè)規(guī)劃、園區(qū)規(guī)劃、商業(yè)計(jì)劃書（股權(quán)融資、招商合資、內(nèi)部決策）、專項(xiàng)調(diào)研、建筑設(shè)計(jì)、境外投資報(bào)告等相關(guān)咨詢服務(wù)方案。

免責(zé)聲明：
1.本站部分文章為轉(zhuǎn)載，其目的在于傳播更多信息，我們不對其準(zhǔn)確性、完整性、及時性、有效性和適用性等任何的陳述和保證。本文僅代表作者本人觀點(diǎn)，并不代表本網(wǎng)贊同其觀點(diǎn)和對其真實(shí)性負(fù)責(zé)。
2.思瀚研究院一貫高度重視知識產(chǎn)權(quán)保護(hù)并遵守中國各項(xiàng)知識產(chǎn)權(quán)法律。如涉及文章內(nèi)容、版權(quán)等問題，我們將及時溝通與處理。