醫(yī)療健康信息技術(shù)裝備制造汽車及零部件文體教育現(xiàn)代服務(wù)業(yè)金融保險旅游酒店綠色環(huán)保能源電力化工新材料房地產(chǎn)建筑建材交通運(yùn)輸社消零售輕工業(yè)家電數(shù)碼產(chǎn)品現(xiàn)代農(nóng)業(yè)投資環(huán)境
產(chǎn)業(yè)新聞產(chǎn)業(yè)資訊產(chǎn)業(yè)投資產(chǎn)業(yè)數(shù)據(jù)產(chǎn)業(yè)科技產(chǎn)業(yè)政策
Vidu 是國內(nèi)首個直接對標(biāo) Sora 的視頻大模型。4 月 27 日,在中關(guān)村論壇未來人工智能先鋒論壇上,生數(shù)科技聯(lián)合清華大學(xué)正式發(fā)布中國首個長時長、高一致性、高動態(tài)性視頻大模型——Vidu。該模型采用原創(chuàng)的 U-ViT 架構(gòu),結(jié)合 Difusion與 Transformer 技術(shù),能夠一鍵生成長達(dá) 16 秒、1080P 分辨率的高清視頻。
Vidu能模擬真實(shí)物理世界,具備豐富的想象力,支持多鏡頭生成,保持時空一致性。這是自 Sora 發(fā)布之后,全球率先取得重大突破的視頻大模型,性能直接對標(biāo)國際頂尖水平,并在加速迭代提升中,代表了中國在視頻大模型領(lǐng)域的技術(shù)突破。
我們判斷,不同于僅聚焦“長”視頻的大模型,Vidu 已經(jīng)在綜合能力上成為繼 Sora 首個完成突破的大模型。歸納來講,Vidu 主要功能包括多鏡頭生成、模擬真實(shí)世界、保持時空一致性、豐富的想象力、理解中國元素等。目前,Vidu 在發(fā)布之際,生數(shù)科技特別推出“Vidu 大模型合作伙伴計(jì)劃”。
多鏡頭生成,給予視頻“鏡頭語言”?,F(xiàn)有 AI 生成的視頻,能夠明顯地感覺到鏡頭語言的單調(diào)與敘事感的不足,鏡頭的運(yùn)動僅包含了輕微幅度的推、拉、移等簡單鏡頭。核心原因?yàn)楝F(xiàn)有的視頻內(nèi)容沿用的技術(shù)路徑大多通過圖片的插幀和拼接而成,對于長時序的連貫預(yù)測存在明顯不足。Vidu 突破這些局限,能夠圍繞統(tǒng)一主體在一段畫面里實(shí)現(xiàn)遠(yuǎn)、中、近景、特寫等多樣化鏡頭的切換。此外,Vidu能直接生成轉(zhuǎn)場、追焦、長鏡頭等效果,包括能夠生成影視級的鏡頭畫面,給視頻注入鏡頭語言,顯著提升畫面的敘事感與質(zhì)感。
保持時空一致性。AI 視頻生成較難突破畫面時空一致性與場景在沒有任何轉(zhuǎn)場的情況下突變等問題。Vidu 在一定程度上克服了這些問題。例如,從它生成的一段“帶珍珠耳環(huán)的貓”的視頻中可以看到,隨著鏡頭的移動,作為畫面主體的貓?jiān)?3D 空間下能夠一直保持服飾、表情、模態(tài)的一致,視頻整體看上去非常的連貫、統(tǒng)一和流暢,表現(xiàn)出較好的時空一致性。
資料來源:生數(shù) ShengShu 微信公眾號,德邦研究所
模擬真實(shí)的物理世界。同 Sora 類似,Vidu 也能夠很好地模擬真實(shí)物理世界的運(yùn)動。例如,在模擬“一輛老式 SUV 行駛在山坡上”中,Vidu 和 Sora 模擬的效果非常相近,灰塵、光影、背景等細(xì)節(jié)與真實(shí)世界中人類的感知非常相近。
Vidu“一輛老式 SUV 行駛在山坡上”效果
資料來源:生數(shù) ShengShu 微信公眾號,德邦研究所
Sora“一輛老式 SUV 行駛在山坡上”效果
資料來源:OpenAI 官網(wǎng),德邦研究所
豐富的想象力。Vidu 能夠虛構(gòu)出真實(shí)世界不存在的超現(xiàn)實(shí)主義畫面,這是當(dāng)前的視頻生成模型難以實(shí)現(xiàn)的。例如,“帆船”、“海浪”能夠合理地出現(xiàn)在畫室里,而且海浪與帆船的整體交互背景非常恰當(dāng)自然;“魚缸女孩”的片段也是不符實(shí)際的,但 Vidu 能夠給予人奇幻的合理感。
Vidu 模擬“魚缸女孩”
資料來源:生數(shù) ShengShu 微信公眾號,德邦研究所
理解中國元素。Vidu 能夠生成特有中國元素的畫面,比如熊貓、龍、宮殿場景等。
我們認(rèn)為,雖然 Vidu 在視頻時長、視頻效果、支持模態(tài)多樣性等方面相比Sora 仍有提升空間,然而在以鏡頭語言為代表的動態(tài)性,以及對物理世界規(guī)律的理解與模擬能力等方面已做到了 Sora 相近水平,Vidu 或?qū)l(fā)揮在國產(chǎn)視頻大模型的“鲇魚效應(yīng)”,激勵國產(chǎn)多模態(tài)大模型突破創(chuàng)新。
來源:思瀚 德邦
更多行業(yè)研究分析請參考思瀚產(chǎn)業(yè)研究院《2023-2028年中國大模型行業(yè)市場現(xiàn)狀與投資前景預(yù)測規(guī)劃報(bào)告》,同時思瀚產(chǎn)業(yè)研究院亦提供行研報(bào)告、可研報(bào)告、產(chǎn)業(yè)規(guī)劃、園區(qū)規(guī)劃、商業(yè)計(jì)劃、專項(xiàng)調(diào)研、建筑設(shè)計(jì)、境外投資報(bào)告等相關(guān)咨詢服務(wù)方案。