醫(yī)療健康信息技術(shù)裝備制造汽車及零部件文體教育現(xiàn)代服務(wù)業(yè)金融保險(xiǎn)旅游酒店綠色環(huán)保能源電力化工新材料房地產(chǎn)建筑建材交通運(yùn)輸社消零售輕工業(yè)家電數(shù)碼產(chǎn)品現(xiàn)代農(nóng)業(yè)投資環(huán)境
產(chǎn)業(yè)新聞產(chǎn)業(yè)資訊產(chǎn)業(yè)投資產(chǎn)業(yè)數(shù)據(jù)產(chǎn)業(yè)科技產(chǎn)業(yè)政策
Vidu 的研發(fā)團(tuán)隊(duì)為清華背景的生數(shù)科技,團(tuán)隊(duì)從事生成式人工智能和貝葉斯機(jī)器學(xué)習(xí)的研究超過 20 年。生數(shù)科技的核心團(tuán)隊(duì)來自清華大學(xué)人工智能研究院,此外匯集了來自阿里、騰訊、字節(jié)等知名科技公司的頂尖人才,是全球范圍內(nèi)領(lǐng)先的深度生成式算法研究團(tuán)隊(duì),擁有擴(kuò)散概率模型底層創(chuàng)新研發(fā)能力。
公司致力于打造全球領(lǐng)先的多模態(tài)模型,在文本、圖像、視頻、3D 等多模態(tài)信息中均有所探索。憑借全球領(lǐng)先的科研成果,生數(shù)科技是目前國內(nèi)在多模態(tài)大模型賽道估值最高的創(chuàng)業(yè)團(tuán)隊(duì)。自 2023年成立以來,團(tuán)隊(duì)已獲得螞蟻集團(tuán)、啟明創(chuàng)投、BV 百度風(fēng)投、字節(jié)系錦秋基金等多家知名產(chǎn)業(yè)機(jī)構(gòu)的認(rèn)可,完成數(shù)億元融資。此次 Vidu的推出,是生數(shù)科技在多模態(tài)原生大模型領(lǐng)域的再一次創(chuàng)新和領(lǐng)先。
生數(shù)科技兩個(gè)月內(nèi)快速突破能夠生成 16s 流暢視頻的 Vidu,核心原因是團(tuán)隊(duì)對(duì) U-ViT 架構(gòu)的深入理解以及長期積累的工程與數(shù)據(jù)經(jīng)驗(yàn)。Vidu 團(tuán)隊(duì)?wèi){借在貝葉斯機(jī)器學(xué)習(xí)和多模態(tài)大模型的長期積累和多項(xiàng)原創(chuàng)性成果,生數(shù)科技 3 月份內(nèi)部就實(shí)現(xiàn)了 8 秒的視頻生成,緊接著 4 月份就突破了 16 秒生成,生成質(zhì)量與時(shí)長全方面取得突破。U-ViT 架構(gòu)同樣是與 Sora 類似的 Diffusion 和 Transformer 融合的架構(gòu),與 DiT 架構(gòu)的路徑以及部分結(jié)論相似。
2022 年 9 月,生數(shù)科技團(tuán)隊(duì)研發(fā)出的 UViT 網(wǎng)絡(luò)架構(gòu)是全球首個(gè) Diffusion 和 Transformer 融合的架構(gòu),早于 Sora 采用的 DiT 架構(gòu)。U-ViT 與 DiT 二者均提出了將 Transformer 與擴(kuò)散模型融合的思路,即以 Transformer 的網(wǎng)絡(luò)架構(gòu)替代基于 CNN 的 U-Net 架構(gòu),并且在具體的實(shí)驗(yàn)路徑是一致的。比如,二者采用了相同的 patch embedding、patch size;二者得出了同樣的結(jié)論:patch size 為 2*2 是最理想的。
U-ViT 架構(gòu)不同于采用插幀等處理長視頻的方法,感官更為“一鏡到底”,視頻質(zhì)量更為連貫與自然。從底層來看,這是一種“一步到位”的實(shí)現(xiàn)方法,基于單一模型完全端到端生成,不涉及中間的插幀和其他多步驟的處理,文本到視頻的轉(zhuǎn)換是直接且連續(xù)的。
此外,生數(shù)科技扎實(shí)的工程化能力也是團(tuán)隊(duì)快速突破 Vidu 的重要原因,即將圖文能力遷移至文生視頻領(lǐng)域。
1)開源 UniDiffuser 圖文模型,驗(yàn)證 U-ViT 架構(gòu)在大規(guī)模訓(xùn)練任務(wù)的可擴(kuò)展性(Scaling Law)。2023 年 3 月,基于 U-ViT 架構(gòu),生數(shù)科技團(tuán)隊(duì)開源了全球首個(gè)基于 U-ViT 融合架構(gòu)的多模態(tài)擴(kuò)散模型 UniDiffuser,率先完成了 U-ViT 架構(gòu)的大規(guī)模可擴(kuò)展性驗(yàn)證,比同樣 DiT 架構(gòu)的 Stable Diffusion 3 領(lǐng)先了一年。
UniDiffuser 是在大規(guī)模圖文數(shù)據(jù)集 LAION-5B 上訓(xùn)練出的近 10 億參數(shù)量模型,支持圖文模態(tài)間的任意生成和轉(zhuǎn)換,具有較強(qiáng)的擴(kuò)展性。簡單來講,除了單向的文生圖,還能實(shí)現(xiàn)圖生文、圖文聯(lián)合生成、無條件圖文生成、圖文改寫等多種功能。
2)在視頻任務(wù)中復(fù)用圖文經(jīng)驗(yàn),包括訓(xùn)練加速、并行化訓(xùn)練、低顯存訓(xùn)練等,訓(xùn)練速度累計(jì)提升 40 倍。視頻本質(zhì)是圖片的集合,實(shí)現(xiàn)圖像在時(shí)間維度的擴(kuò)增,這使得圖文任務(wù)取得的成果往往可以在視頻領(lǐng)域復(fù)用。例如,Sora 采用了 DALL?E 3 的重標(biāo)注技術(shù),通過為視覺訓(xùn)練數(shù)據(jù)生成詳細(xì)的描述,使模型能夠更加準(zhǔn)確地遵循用戶的文本指令生成視頻。Vidu 同樣復(fù)用生數(shù)科技在圖文領(lǐng)域的眾多經(jīng)驗(yàn)。
根據(jù)甲子光年,生數(shù)科技團(tuán)隊(duì)通過視頻數(shù)據(jù)壓縮技術(shù)降低輸入數(shù)據(jù)的序列維度,同時(shí)采用自研的分布式訓(xùn)練框架,在保證計(jì)算精度的同時(shí),通信效率提升 1 倍,顯存開銷降低 80%,訓(xùn)練速度累計(jì)提升 40 倍。目前,Vidu 仍在加速迭代,未來將從圖任務(wù)的統(tǒng)一到融合視頻能力持續(xù)升級(jí),靈活的模型架構(gòu)也將能夠兼容更廣泛的多模態(tài)能力。
來源:思瀚 德邦
更多行業(yè)研究分析請(qǐng)參考思瀚產(chǎn)業(yè)研究院《2023-2028年中國大模型行業(yè)市場(chǎng)現(xiàn)狀與投資前景預(yù)測(cè)規(guī)劃報(bào)告》,同時(shí)思瀚產(chǎn)業(yè)研究院亦提供行研報(bào)告、可研報(bào)告、產(chǎn)業(yè)規(guī)劃、園區(qū)規(guī)劃、商業(yè)計(jì)劃、專項(xiàng)調(diào)研、建筑設(shè)計(jì)、境外投資報(bào)告等相關(guān)咨詢服務(wù)方案。