醫(yī)療健康信息技術(shù)裝備制造汽車及零部件文體教育現(xiàn)代服務(wù)業(yè)金融保險旅游酒店綠色環(huán)保能源電力化工新材料房地產(chǎn)建筑建材交通運輸社消零售輕工業(yè)家電數(shù)碼產(chǎn)品現(xiàn)代農(nóng)業(yè)投資環(huán)境
產(chǎn)業(yè)新聞產(chǎn)業(yè)資訊產(chǎn)業(yè)投資產(chǎn)業(yè)數(shù)據(jù)產(chǎn)業(yè)科技產(chǎn)業(yè)政策
世界模型——預測未來的“夢境”
近期自動駕駛領(lǐng)域掀起開發(fā)世界模型的熱潮,關(guān)于世界模型,谷歌在2018年發(fā)表了影響深遠的論文《World Models》,對世界模型進行了定義——即根據(jù)世界運行的規(guī)律可以預測未來的“夢境”。人類的思考和行為會參考大腦中的“世界模型”,甚至人的感知亦是對外部世界的抽象和預測,而最簡單的世界模型構(gòu)成即為感知+記憶模塊,將外部環(huán)境的信息壓縮并理解進而預測未來。
對自動駕駛而言,世界模型具有重要的意義:
(1)可以構(gòu)建閉環(huán)的驗證測試體系,對端到端算法來說,構(gòu)筑閉環(huán)的驗證體系難度大且必要性強;
(2)可以作為訓練數(shù)據(jù)的生成器,生成諸多長尾場景供自動駕駛算法訓練時使用;
(3)可以直接作為自動駕駛算法的決策器,當模型可以預測未來路況,其實也可以預測駕駛員應(yīng)當執(zhí)行的行為。
目前已經(jīng)有諸多玩家如特斯拉、英偉達、Wayve等玩家開始構(gòu)建自己的世界模型。
特斯拉的通用世界模型可以預測未來,實現(xiàn)多種功能
自動駕駛領(lǐng)域,世界模型百花齊放
特斯拉的World Model
特斯拉在2023CVPR上對其端到端模型進行了簡單的介紹,希望能夠構(gòu)建一個完整的4D神經(jīng)網(wǎng)絡(luò),能夠理解世界運行的規(guī)律。具體而言,世界模型可以根據(jù)過去的視頻預測未來場景的演化,具體而言擁有幾大功能:
(1)預測未來;
(2)在沒有本體實體的情況下幫助網(wǎng)絡(luò)學習;
(3)行動本身可以作為生成的條件;
(4)車輛本身的行為會影響生成的效果,比如左轉(zhuǎn)右轉(zhuǎn)會分別生成不同的視角。
(5)可以用于仿真;
(6)可以生成圖像、幾何空間的信息、語義信息等;
(7)泛化性比較好。
世界模型呈現(xiàn)出對物理世界一定程度的模擬。特斯拉發(fā)現(xiàn)網(wǎng)絡(luò)可以聯(lián)合預測汽車周圍8個攝像頭的信息;同時各個攝像頭的顏色保持一致,表明可以更好地預測傳感器的特性;此外盡管開發(fā)者沒有要求它以三維或者非三維的方式進行計算,但是網(wǎng)絡(luò)自行理解了三維空間的概念,視頻中運動的物體也具有一致性,通過自然語言的提示,模型可改變視角;其可根據(jù)要求以相同的起點生成不同的結(jié)局;對視頻語料的適應(yīng)性好,可以通過行駛記錄、油管或者自己手機中的數(shù)據(jù)來訓練這個模型。
Wayve的GAIA-1
GAIA-1亦可實現(xiàn)對場景的理解。英國的端到端自動駕駛公司 Wayve.ai 在 2023 年發(fā)布了GAIA-1模型,它可以依靠視頻、文本和動作的輸入生成逼真的視頻。模型可以生成分鐘級的視頻,同時可以生成多種合理的未來,幫助自動駕駛模型的訓練和仿真。
多模態(tài)數(shù)據(jù)訓練后的模型亦呈現(xiàn)出對駕駛場景出人意料的認知。GAIA-1模型呈現(xiàn)出一些有趣的特點:
(1)學習到了高級結(jié)構(gòu)和場景動態(tài):可以生成連貫的場景,其中的對象位于合理的位置并且展示出合理的交互狀態(tài),如路燈、道路規(guī)則、讓路等,表明模型不僅記住統(tǒng)計模式,還理解控制世界上物體的排列和基本規(guī)則。
(2)擁有強泛化性和創(chuàng)造性:可以產(chǎn)生訓練集中尚未明確出現(xiàn)的的對象和場景。
(3)擁有情景意識:可以根據(jù)上下文的信息生成連貫的動作和響應(yīng),并展示出對3D幾何的理解以及道路使用者決策過程中的因果關(guān)系的理解,如可反應(yīng)道路不平整引起的視角俯仰等作用。
英偉達
英偉達的基礎(chǔ)模型基于多模態(tài)數(shù)據(jù)訓練,可生成逼真且靈活變化的駕駛場景視頻。英偉達在近期2024年GTC大會上也展示了其在世界模型領(lǐng)域的新進展,通過將多模態(tài)數(shù)據(jù)輸入模型訓練并讓模型預測未來駕駛場景,自動駕駛基礎(chǔ)模型可以穩(wěn)定生成多個攝像頭拍攝到的逼真的駕駛場景演變,此外通過語言提示詞也可以使得模型呈現(xiàn)的場景靈活變化,如告訴模型視角為前視攝像頭,汽車正行駛在雪天的道路上,兩側(cè)道路的樹木被雪覆蓋,道路上也有雪散落,模型可以生成逼真的駕駛場景。