欧美大成色WWW永久网站婷,麻豆乱码国产一区二区三区

當(dāng)前位置：思瀚首頁 >> 行業(yè)新聞 >> 產(chǎn)業(yè)資訊

U-ViT架構(gòu)不同于采用插幀處理長視頻方法，感官更為“一鏡到底”
思瀚產(chǎn)業(yè)研究院 2024-05-07

Vidu 的研發(fā)團(tuán)隊(duì)為清華背景的生數(shù)科技，團(tuán)隊(duì)從事生成式人工智能和貝葉斯機(jī)器學(xué)習(xí)的研究超過 20 年。生數(shù)科技的核心團(tuán)隊(duì)來自清華大學(xué)人工智能研究院，此外匯集了來自阿里、騰訊、字節(jié)等知名科技公司的頂尖人才，是全球范圍內(nèi)領(lǐng)先的深度生成式算法研究團(tuán)隊(duì)，擁有擴(kuò)散概率模型底層創(chuàng)新研發(fā)能力。

公司致力于打造全球領(lǐng)先的多模態(tài)模型，在文本、圖像、視頻、3D 等多模態(tài)信息中均有所探索。憑借全球領(lǐng)先的科研成果，生數(shù)科技是目前國內(nèi)在多模態(tài)大模型賽道估值最高的創(chuàng)業(yè)團(tuán)隊(duì)。自 2023年成立以來，團(tuán)隊(duì)已獲得螞蟻集團(tuán)、啟明創(chuàng)投、BV 百度風(fēng)投、字節(jié)系錦秋基金等多家知名產(chǎn)業(yè)機(jī)構(gòu)的認(rèn)可，完成數(shù)億元融資。此次 Vidu的推出，是生數(shù)科技在多模態(tài)原生大模型領(lǐng)域的再一次創(chuàng)新和領(lǐng)先。

生數(shù)科技兩個(gè)月內(nèi)快速突破能夠生成 16s 流暢視頻的 Vidu，核心原因是團(tuán)隊(duì)對(duì) U-ViT 架構(gòu)的深入理解以及長期積累的工程與數(shù)據(jù)經(jīng)驗(yàn)。Vidu 團(tuán)隊(duì)?wèi){借在貝葉斯機(jī)器學(xué)習(xí)和多模態(tài)大模型的長期積累和多項(xiàng)原創(chuàng)性成果，生數(shù)科技 3 月份內(nèi)部就實(shí)現(xiàn)了 8 秒的視頻生成，緊接著 4 月份就突破了 16 秒生成，生成質(zhì)量與時(shí)長全方面取得突破。U-ViT 架構(gòu)同樣是與 Sora 類似的 Diffusion 和 Transformer 融合的架構(gòu)，與 DiT 架構(gòu)的路徑以及部分結(jié)論相似。

2022 年 9 月，生數(shù)科技團(tuán)隊(duì)研發(fā)出的 UViT 網(wǎng)絡(luò)架構(gòu)是全球首個(gè) Diffusion 和 Transformer 融合的架構(gòu)，早于 Sora 采用的 DiT 架構(gòu)。U-ViT 與 DiT 二者均提出了將 Transformer 與擴(kuò)散模型融合的思路，即以 Transformer 的網(wǎng)絡(luò)架構(gòu)替代基于 CNN 的 U-Net 架構(gòu)，并且在具體的實(shí)驗(yàn)路徑是一致的。比如，二者采用了相同的 patch embedding、patch size；二者得出了同樣的結(jié)論：patch size 為 2*2 是最理想的。

U-ViT 架構(gòu)不同于采用插幀等處理長視頻的方法，感官更為“一鏡到底”，視頻質(zhì)量更為連貫與自然。從底層來看，這是一種“一步到位”的實(shí)現(xiàn)方法，基于單一模型完全端到端生成，不涉及中間的插幀和其他多步驟的處理，文本到視頻的轉(zhuǎn)換是直接且連續(xù)的。

此外，生數(shù)科技扎實(shí)的工程化能力也是團(tuán)隊(duì)快速突破 Vidu 的重要原因，即將圖文能力遷移至文生視頻領(lǐng)域。

1）開源 UniDiffuser 圖文模型，驗(yàn)證 U-ViT 架構(gòu)在大規(guī)模訓(xùn)練任務(wù)的可擴(kuò)展性（Scaling Law）。2023 年 3 月，基于 U-ViT 架構(gòu)，生數(shù)科技團(tuán)隊(duì)開源了全球首個(gè)基于 U-ViT 融合架構(gòu)的多模態(tài)擴(kuò)散模型 UniDiffuser，率先完成了 U-ViT 架構(gòu)的大規(guī)模可擴(kuò)展性驗(yàn)證，比同樣 DiT 架構(gòu)的 Stable Diffusion 3 領(lǐng)先了一年。

UniDiffuser 是在大規(guī)模圖文數(shù)據(jù)集 LAION-5B 上訓(xùn)練出的近 10 億參數(shù)量模型，支持圖文模態(tài)間的任意生成和轉(zhuǎn)換，具有較強(qiáng)的擴(kuò)展性。簡單來講，除了單向的文生圖，還能實(shí)現(xiàn)圖生文、圖文聯(lián)合生成、無條件圖文生成、圖文改寫等多種功能。

2）在視頻任務(wù)中復(fù)用圖文經(jīng)驗(yàn)，包括訓(xùn)練加速、并行化訓(xùn)練、低顯存訓(xùn)練等，訓(xùn)練速度累計(jì)提升 40 倍。視頻本質(zhì)是圖片的集合，實(shí)現(xiàn)圖像在時(shí)間維度的擴(kuò)增，這使得圖文任務(wù)取得的成果往往可以在視頻領(lǐng)域復(fù)用。例如，Sora 采用了 DALL?E 3 的重標(biāo)注技術(shù)，通過為視覺訓(xùn)練數(shù)據(jù)生成詳細(xì)的描述，使模型能夠更加準(zhǔn)確地遵循用戶的文本指令生成視頻。Vidu 同樣復(fù)用生數(shù)科技在圖文領(lǐng)域的眾多經(jīng)驗(yàn)。

根據(jù)甲子光年，生數(shù)科技團(tuán)隊(duì)通過視頻數(shù)據(jù)壓縮技術(shù)降低輸入數(shù)據(jù)的序列維度，同時(shí)采用自研的分布式訓(xùn)練框架，在保證計(jì)算精度的同時(shí)，通信效率提升 1 倍，顯存開銷降低 80%，訓(xùn)練速度累計(jì)提升 40 倍。目前，Vidu 仍在加速迭代，未來將從圖任務(wù)的統(tǒng)一到融合視頻能力持續(xù)升級(jí)，靈活的模型架構(gòu)也將能夠兼容更廣泛的多模態(tài)能力。

來源：思瀚德邦

更多行業(yè)研究分析請(qǐng)參考思瀚產(chǎn)業(yè)研究院《2023-2028年中國大模型行業(yè)市場(chǎng)現(xiàn)狀與投資前景預(yù)測(cè)規(guī)劃報(bào)告》，同時(shí)思瀚產(chǎn)業(yè)研究院亦提供行研報(bào)告、可研報(bào)告、產(chǎn)業(yè)規(guī)劃、園區(qū)規(guī)劃、商業(yè)計(jì)劃、專項(xiàng)調(diào)研、建筑設(shè)計(jì)、境外投資報(bào)告等相關(guān)咨詢服務(wù)方案。

免責(zé)聲明：
1.本站部分文章為轉(zhuǎn)載，其目的在于傳播更多信息，我們不對(duì)其準(zhǔn)確性、完整性、及時(shí)性、有效性和適用性等任何的陳述和保證。本文僅代表作者本人觀點(diǎn)，并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。
2.思瀚研究院一貫高度重視知識(shí)產(chǎn)權(quán)保護(hù)并遵守中國各項(xiàng)知識(shí)產(chǎn)權(quán)法律。如涉及文章內(nèi)容、版權(quán)等問題，我們將及時(shí)溝通與處理。