醫(yī)療健康信息技術(shù)裝備制造汽車及零部件文體教育現(xiàn)代服務(wù)業(yè)金融保險旅游酒店綠色環(huán)保能源電力化工新材料房地產(chǎn)建筑建材交通運輸社消零售輕工業(yè)家電數(shù)碼產(chǎn)品現(xiàn)代農(nóng)業(yè)投資環(huán)境
產(chǎn)業(yè)新聞產(chǎn)業(yè)資訊產(chǎn)業(yè)投資產(chǎn)業(yè)數(shù)據(jù)產(chǎn)業(yè)科技產(chǎn)業(yè)政策
Sora憑借驚艷的視頻生成效果和分鐘級的時長引領(lǐng)市場。前述視頻生成模型所遇到的問題在Sora誕生后出現(xiàn)根本改變。2023年2月16日凌晨,OpenAI發(fā)布了文生視頻大模型Sora,能夠根據(jù)用戶提供的文本描述生成長達(dá)60秒的視頻,同時視頻精準(zhǔn)反應(yīng)提示詞內(nèi)容,復(fù)雜、逼真、效果驚艷,引燃市場熱情。
Sora生成東京街頭女士,場景復(fù)雜
對比其他的視頻生成工具,Sora的性能優(yōu)異呈現(xiàn)出碾壓式的優(yōu)勢。
(1)視頻時長:可生成時長長達(dá)1分鐘的視頻,并且品質(zhì)優(yōu)異、內(nèi)容穩(wěn)定;
(2)場景復(fù)雜內(nèi)容逼真:可生成主題精確背景細(xì)節(jié)復(fù)雜的場景,視頻效果逼真。
(3)語言理解能力優(yōu)異:能夠深入理解提示詞并且精準(zhǔn)、忠實表達(dá)。
(4)靈活度高:可隨意生成不同時長、長寬比、分辨率的視頻。
Sora是擴散模型和Transformer以及視頻壓縮網(wǎng)絡(luò)的綜合體。Sora的主干網(wǎng)絡(luò)是Diffusion Transformer模型,在訓(xùn)練過程中采用了特殊設(shè)計的編碼器將圖像和視頻信息進(jìn)行編碼,之后將視頻數(shù)據(jù)壓縮為隱變量,輸入Diffusion Transformer模型中對模型進(jìn)行訓(xùn)練。推理的過程中,將自然語言(文字)或者圖像乃至視頻作為提示詞輸入到模型中,通過擴散模型輸出相應(yīng)的去噪之后的隱變量并通過解碼器將信息解碼成為視頻,即可輸出品質(zhì)優(yōu)越的視頻結(jié)果。
起于視頻生成,邁向世界模擬器
在對 Sora 進(jìn)行大規(guī)模訓(xùn)練的過程中 ,OpenAI還發(fā)現(xiàn)模型具有更多的能力,即對現(xiàn)實世界的基礎(chǔ)規(guī)律產(chǎn)生一定的理解。這使得它可以模擬現(xiàn)實世界中的人物、動物、環(huán)境等。
(1)空間一致性:Sora能夠生成帶有動態(tài)攝像頭的運動視頻,隨著攝像頭的移動和旋轉(zhuǎn),人物和場景元素在三維空間中始終保持一致的運動規(guī)律。
(2)時間一致性:在Sora生成的長視頻中,元素之間通常能夠保持較好的時空一致性,如即使動物被遮擋,或離開畫面,在后續(xù)的視頻中仍然能被較好的呈現(xiàn)。
(3)因果一致性:Sora生成的視頻可呈現(xiàn)一定的因果關(guān)系。比如畫家可在畫布上留下筆觸,人吃漢堡也能在漢堡上留下痕跡。
(4)Sora還能夠模擬人工過程,如視頻游戲,可用基本策略控制《我的世界》,無需特殊的微調(diào),在Sora中提示“我的世界”即可實現(xiàn)。