日韩一二三区中文字幕,在线观看国产高清免费不卡,欧美日韩久久另类高清综合

自動駕駛領(lǐng)域，世界模型百花齊放
思瀚產(chǎn)業(yè)研究院 2024-05-09

世界模型——預測未來的“夢境”

近期自動駕駛領(lǐng)域掀起開發(fā)世界模型的熱潮，關(guān)于世界模型，谷歌在2018年發(fā)表了影響深遠的論文《World Models》，對世界模型進行了定義——即根據(jù)世界運行的規(guī)律可以預測未來的“夢境”。人類的思考和行為會參考大腦中的“世界模型”，甚至人的感知亦是對外部世界的抽象和預測，而最簡單的世界模型構(gòu)成即為感知+記憶模塊，將外部環(huán)境的信息壓縮并理解進而預測未來。

對自動駕駛而言，世界模型具有重要的意義：

（1）可以構(gòu)建閉環(huán)的驗證測試體系，對端到端算法來說，構(gòu)筑閉環(huán)的驗證體系難度大且必要性強；

（2）可以作為訓練數(shù)據(jù)的生成器，生成諸多長尾場景供自動駕駛算法訓練時使用；

（3）可以直接作為自動駕駛算法的決策器，當模型可以預測未來路況，其實也可以預測駕駛員應(yīng)當執(zhí)行的行為。

目前已經(jīng)有諸多玩家如特斯拉、英偉達、Wayve等玩家開始構(gòu)建自己的世界模型。

特斯拉的通用世界模型可以預測未來，實現(xiàn)多種功能

自動駕駛領(lǐng)域，世界模型百花齊放

特斯拉的World Model

特斯拉在2023CVPR上對其端到端模型進行了簡單的介紹，希望能夠構(gòu)建一個完整的4D神經(jīng)網(wǎng)絡(luò)，能夠理解世界運行的規(guī)律。具體而言，世界模型可以根據(jù)過去的視頻預測未來場景的演化，具體而言擁有幾大功能：

（1）預測未來；

（2）在沒有本體實體的情況下幫助網(wǎng)絡(luò)學習；

（3）行動本身可以作為生成的條件；

（4）車輛本身的行為會影響生成的效果，比如左轉(zhuǎn)右轉(zhuǎn)會分別生成不同的視角。

（5）可以用于仿真；

（6）可以生成圖像、幾何空間的信息、語義信息等；

（7）泛化性比較好。

世界模型呈現(xiàn)出對物理世界一定程度的模擬。特斯拉發(fā)現(xiàn)網(wǎng)絡(luò)可以聯(lián)合預測汽車周圍8個攝像頭的信息；同時各個攝像頭的顏色保持一致，表明可以更好地預測傳感器的特性；此外盡管開發(fā)者沒有要求它以三維或者非三維的方式進行計算，但是網(wǎng)絡(luò)自行理解了三維空間的概念，視頻中運動的物體也具有一致性，通過自然語言的提示，模型可改變視角；其可根據(jù)要求以相同的起點生成不同的結(jié)局；對視頻語料的適應(yīng)性好，可以通過行駛記錄、油管或者自己手機中的數(shù)據(jù)來訓練這個模型。

Wayve的GAIA-1

GAIA-1亦可實現(xiàn)對場景的理解。英國的端到端自動駕駛公司 Wayve.ai 在 2023 年發(fā)布了GAIA-1模型，它可以依靠視頻、文本和動作的輸入生成逼真的視頻。模型可以生成分鐘級的視頻，同時可以生成多種合理的未來，幫助自動駕駛模型的訓練和仿真。

多模態(tài)數(shù)據(jù)訓練后的模型亦呈現(xiàn)出對駕駛場景出人意料的認知。GAIA-1模型呈現(xiàn)出一些有趣的特點：

（1）學習到了高級結(jié)構(gòu)和場景動態(tài)：可以生成連貫的場景，其中的對象位于合理的位置并且展示出合理的交互狀態(tài)，如路燈、道路規(guī)則、讓路等，表明模型不僅記住統(tǒng)計模式，還理解控制世界上物體的排列和基本規(guī)則。

（2）擁有強泛化性和創(chuàng)造性：可以產(chǎn)生訓練集中尚未明確出現(xiàn)的的對象和場景。

（3）擁有情景意識：可以根據(jù)上下文的信息生成連貫的動作和響應(yīng)，并展示出對3D幾何的理解以及道路使用者決策過程中的因果關(guān)系的理解，如可反應(yīng)道路不平整引起的視角俯仰等作用。

英偉達

英偉達的基礎(chǔ)模型基于多模態(tài)數(shù)據(jù)訓練，可生成逼真且靈活變化的駕駛場景視頻。英偉達在近期2024年GTC大會上也展示了其在世界模型領(lǐng)域的新進展，通過將多模態(tài)數(shù)據(jù)輸入模型訓練并讓模型預測未來駕駛場景，自動駕駛基礎(chǔ)模型可以穩(wěn)定生成多個攝像頭拍攝到的逼真的駕駛場景演變，此外通過語言提示詞也可以使得模型呈現(xiàn)的場景靈活變化，如告訴模型視角為前視攝像頭，汽車正行駛在雪天的道路上，兩側(cè)道路的樹木被雪覆蓋，道路上也有雪散落，模型可以生成逼真的駕駛場景。

免責聲明：
1.本站部分文章為轉(zhuǎn)載，其目的在于傳播更多信息，我們不對其準確性、完整性、及時性、有效性和適用性等任何的陳述和保證。本文僅代表作者本人觀點，并不代表本網(wǎng)贊同其觀點和對其真實性負責。
2.思瀚研究院一貫高度重視知識產(chǎn)權(quán)保護并遵守中國各項知識產(chǎn)權(quán)法律。如涉及文章內(nèi)容、版權(quán)等問題，我們將及時溝通與處理。