国产区精品福利在线观看精品,久久久国产成人一区二区三区,日本高清不卡中文字幕视频

當(dāng)前位置：思瀚首頁 >> 行業(yè)新聞 >> 產(chǎn)業(yè)資訊

對比其他的視頻生成工具，Sora的性能優(yōu)異呈現(xiàn)出碾壓式的優(yōu)勢
思瀚產(chǎn)業(yè)研究院 2024-05-09

Sora憑借驚艷的視頻生成效果和分鐘級的時長引領(lǐng)市場。前述視頻生成模型所遇到的問題在Sora誕生后出現(xiàn)根本改變。2023年2月16日凌晨，OpenAI發(fā)布了文生視頻大模型Sora，能夠根據(jù)用戶提供的文本描述生成長達(dá)60秒的視頻，同時視頻精準(zhǔn)反應(yīng)提示詞內(nèi)容，復(fù)雜、逼真、效果驚艷，引燃市場熱情。

Sora生成東京街頭女士，場景復(fù)雜

對比其他的視頻生成工具，Sora的性能優(yōu)異呈現(xiàn)出碾壓式的優(yōu)勢。

（1）視頻時長：可生成時長長達(dá)1分鐘的視頻，并且品質(zhì)優(yōu)異、內(nèi)容穩(wěn)定；

（2）場景復(fù)雜內(nèi)容逼真：可生成主題精確背景細(xì)節(jié)復(fù)雜的場景，視頻效果逼真。

（3）語言理解能力優(yōu)異：能夠深入理解提示詞并且精準(zhǔn)、忠實表達(dá)。

（4）靈活度高：可隨意生成不同時長、長寬比、分辨率的視頻。

Sora是擴散模型和Transformer以及視頻壓縮網(wǎng)絡(luò)的綜合體。Sora的主干網(wǎng)絡(luò)是Diffusion Transformer模型，在訓(xùn)練過程中采用了特殊設(shè)計的編碼器將圖像和視頻信息進(jìn)行編碼，之后將視頻數(shù)據(jù)壓縮為隱變量，輸入Diffusion Transformer模型中對模型進(jìn)行訓(xùn)練。推理的過程中，將自然語言（文字）或者圖像乃至視頻作為提示詞輸入到模型中，通過擴散模型輸出相應(yīng)的去噪之后的隱變量并通過解碼器將信息解碼成為視頻，即可輸出品質(zhì)優(yōu)越的視頻結(jié)果。

起于視頻生成，邁向世界模擬器

在對 Sora 進(jìn)行大規(guī)模訓(xùn)練的過程中，OpenAI還發(fā)現(xiàn)模型具有更多的能力，即對現(xiàn)實世界的基礎(chǔ)規(guī)律產(chǎn)生一定的理解。這使得它可以模擬現(xiàn)實世界中的人物、動物、環(huán)境等。

（1）空間一致性：Sora能夠生成帶有動態(tài)攝像頭的運動視頻，隨著攝像頭的移動和旋轉(zhuǎn)，人物和場景元素在三維空間中始終保持一致的運動規(guī)律。

（2）時間一致性：在Sora生成的長視頻中，元素之間通常能夠保持較好的時空一致性，如即使動物被遮擋，或離開畫面，在后續(xù)的視頻中仍然能被較好的呈現(xiàn)。

（3）因果一致性：Sora生成的視頻可呈現(xiàn)一定的因果關(guān)系。比如畫家可在畫布上留下筆觸，人吃漢堡也能在漢堡上留下痕跡。

（4）Sora還能夠模擬人工過程，如視頻游戲，可用基本策略控制《我的世界》，無需特殊的微調(diào)，在Sora中提示“我的世界”即可實現(xiàn)。

免責(zé)聲明：
1.本站部分文章為轉(zhuǎn)載，其目的在于傳播更多信息，我們不對其準(zhǔn)確性、完整性、及時性、有效性和適用性等任何的陳述和保證。本文僅代表作者本人觀點，并不代表本網(wǎng)贊同其觀點和對其真實性負(fù)責(zé)。
2.思瀚研究院一貫高度重視知識產(chǎn)權(quán)保護并遵守中國各項知識產(chǎn)權(quán)法律。如涉及文章內(nèi)容、版權(quán)等問題，我們將及時溝通與處理。