醫(yī)療健康信息技術(shù)裝備制造汽車及零部件文體教育現(xiàn)代服務(wù)業(yè)金融保險(xiǎn)旅游酒店綠色環(huán)保能源電力化工新材料房地產(chǎn)建筑建材交通運(yùn)輸社消零售輕工業(yè)家電數(shù)碼產(chǎn)品現(xiàn)代農(nóng)業(yè)投資環(huán)境
產(chǎn)業(yè)新聞產(chǎn)業(yè)資訊產(chǎn)業(yè)投資產(chǎn)業(yè)數(shù)據(jù)產(chǎn)業(yè)科技產(chǎn)業(yè)政策
端到端自動(dòng)駕駛已經(jīng)成為市場(chǎng)共識(shí)
算法從基于規(guī)則逐步走向基于學(xué)習(xí),從模塊化走向端到端。自動(dòng)駕駛逐步從基于規(guī)則走向基于神經(jīng)網(wǎng)絡(luò),從感知到規(guī)控,越來越多的環(huán)節(jié)人工代碼被神經(jīng)網(wǎng)絡(luò)所替代,模型的能力和適應(yīng)性不斷提升。
端到端算法基本形成三大方向
目前端到端的自動(dòng)駕駛算法逐步形成三大方向:
(1)顯式的端到端模型+自動(dòng)駕駛:將不同的自動(dòng)駕駛算法環(huán)節(jié)神經(jīng)網(wǎng)絡(luò)化,并進(jìn)行拼接形成端到端算法。
(2)基礎(chǔ)模型(隱式端到端)+自動(dòng)駕駛:采用大的神經(jīng)網(wǎng)絡(luò),輸入端對(duì)接傳感器數(shù)據(jù),輸出端對(duì)接軌跡輸出或控制信號(hào)輸出。
(3)大語言模型+自動(dòng)駕駛:通過對(duì)多模態(tài)的大語言模型進(jìn)行提示,讓大語言模型實(shí)現(xiàn)場(chǎng)景理解、決策、行為輸出等步驟進(jìn)而實(shí)現(xiàn)自動(dòng)駕駛。
遠(yuǎn)期大語言模型和端到端模型結(jié)合或許是可行的方向
解決長尾場(chǎng)景需要“常識(shí)”。經(jīng)過海量的數(shù)據(jù)訓(xùn)練,神經(jīng)網(wǎng)絡(luò)可以處理諸多駕駛場(chǎng)景中的長尾問題,但當(dāng)該長尾問題并未被訓(xùn)練過,或者該長尾問題在歷史上就從未發(fā)生過,模型則難以處理。人類可以處理各類長尾場(chǎng)景主要基于人類駕駛之外的“常識(shí)”。因此最終,自動(dòng)駕駛算法有望包含擅長駕駛的“端到端”模型,以及擁有一定“常識(shí)”的大語言/多模態(tài)模型,用以處理各類復(fù)雜場(chǎng)景。
在2024年春季GTC大會(huì)上,理想汽車提到一種基于DriveVLM的思路,意在將端到端模型和大語言模型相結(jié)合,使得自動(dòng)駕駛系統(tǒng)同時(shí)具備系統(tǒng)1和系統(tǒng)2的能力。一方面,將大語言模型用于自動(dòng)駕駛場(chǎng)景,涉及場(chǎng)景描述、場(chǎng)景分析、層級(jí)規(guī)劃等遞進(jìn)式的思維鏈,解決駕駛中的長尾場(chǎng)景。另一方面,將傳統(tǒng)算法的感知規(guī)控等環(huán)節(jié)和大模型得出的結(jié)果異步推進(jìn),相互驗(yàn)證,最終達(dá)到好的駕駛效果。
測(cè)試中發(fā)現(xiàn)模型可良好的識(shí)別警察揮手等動(dòng)作。此外,在2024年春季GTC大會(huì)上,英偉達(dá)也介紹了其即將在CVPR2024上發(fā)布的自動(dòng)駕駛解決方案,由亦將大語言模型嵌入到自動(dòng)駕駛基礎(chǔ)模型中,實(shí)現(xiàn)對(duì)駕駛行為的監(jiān)督和指導(dǎo)。
更多行業(yè)研究分析請(qǐng)參考思瀚產(chǎn)業(yè)研究院《2023-2028年中國大模型行業(yè)市場(chǎng)現(xiàn)狀與投資前景預(yù)測(cè)規(guī)劃報(bào)告 - 信息技術(shù) - 研究報(bào)告 - 思瀚產(chǎn)業(yè)研究院》,同時(shí)思瀚產(chǎn)業(yè)研究院亦提供行研報(bào)告、可研報(bào)告、產(chǎn)業(yè)規(guī)劃、園區(qū)規(guī)劃、商業(yè)計(jì)劃、專項(xiàng)調(diào)研、建筑設(shè)計(jì)、境外投資報(bào)告等相關(guān)咨詢服務(wù)方案。