醫(yī)療健康信息技術(shù)裝備制造汽車及零部件文體教育現(xiàn)代服務(wù)業(yè)金融保險(xiǎn)旅游酒店綠色環(huán)保能源電力化工新材料房地產(chǎn)建筑建材交通運(yùn)輸社消零售輕工業(yè)家電數(shù)碼產(chǎn)品現(xiàn)代農(nóng)業(yè)投資環(huán)境
產(chǎn)業(yè)新聞產(chǎn)業(yè)資訊產(chǎn)業(yè)投資產(chǎn)業(yè)數(shù)據(jù)產(chǎn)業(yè)科技產(chǎn)業(yè)政策
數(shù)據(jù)是具身智能發(fā)展的核心
思瀚獲悉,中銀證券發(fā)布研報(bào)。小模型時(shí)代算法的數(shù)量和質(zhì)量對(duì)于機(jī)器人至關(guān)重要;然而大模型的 Scaling Law 表明通過增加數(shù)據(jù)量、擴(kuò)大模型規(guī)模以及延長訓(xùn)練時(shí)間,可以實(shí)現(xiàn)模型性能的持續(xù)提升,數(shù)據(jù)重要性凸顯。并且不同于語言、圖像或視頻等二維模型的訓(xùn)練,具身智能底層模型的訓(xùn)練,需要在物理世界絕對(duì)坐標(biāo)系下的精確測(cè)量數(shù)據(jù),數(shù)據(jù)獲取難度、成本、標(biāo)注周期都遠(yuǎn)超語言模型。
從產(chǎn)業(yè)發(fā)展進(jìn)程看,類比自動(dòng)駕駛,特斯拉大規(guī)模采集的數(shù)據(jù)推動(dòng)了 FSD 性能的提升,具身智能產(chǎn)業(yè)發(fā)展的核心在于數(shù)據(jù)。大模型的廣泛使用再次凸顯數(shù)據(jù)重要性。2022 年以前,算法的數(shù)量和質(zhì)量對(duì)于機(jī)器人重要性更強(qiáng)。
因?yàn)樵趥鹘y(tǒng)的小模型中,模型性能會(huì)隨著訓(xùn)練次數(shù)的增加而趨于飽和,甚至出現(xiàn)過擬合的情況,導(dǎo)致性能不升反降。而通過對(duì)算法進(jìn)行優(yōu)化,能夠找到最佳的模型配置。進(jìn)入大模型時(shí)代,Scaling Law表明通過增加數(shù)據(jù)量、擴(kuò)大模型規(guī)模以及延長訓(xùn)練時(shí)間,可以實(shí)現(xiàn)模型性能的持續(xù)提升。
類比自動(dòng)駕駛,數(shù)據(jù)驅(qū)動(dòng)產(chǎn)業(yè)發(fā)展。在產(chǎn)業(yè)發(fā)展初期,自動(dòng)駕駛系統(tǒng)由規(guī)則驅(qū)動(dòng),即通過工程師人工編寫規(guī)則代碼使汽車對(duì)不同行駛狀況作出決策。隨著神經(jīng)網(wǎng)絡(luò)智駕算法的崛起,自動(dòng)駕駛進(jìn)入數(shù)據(jù)驅(qū)動(dòng)時(shí)代。以特斯拉 FSD 為例,V12 版本 C++代碼量僅為 2000 行,相比 V11 代碼減少了 99%以上,其原理是通過大量數(shù)據(jù)訓(xùn)練出能夠高度模擬人類駕駛習(xí)慣的人工智能,在達(dá)到一定的仿真閾值后,得出一套根據(jù)可靠性和符合人類乘車習(xí)慣的系統(tǒng)。
特斯拉通過影子模式進(jìn)行數(shù)據(jù)收集,將系統(tǒng)決策與駕駛員行為不斷進(jìn)行比對(duì),當(dāng)兩者不一致時(shí),系統(tǒng)將場(chǎng)景判定為“極端工況”,進(jìn)而觸發(fā)數(shù)據(jù)回傳。因此特斯拉收集的數(shù)據(jù)越多,對(duì)于人類駕駛習(xí)慣的模擬就越精準(zhǔn),進(jìn)而加速特斯拉車端的部署,形成數(shù)據(jù)閉環(huán)。
商業(yè)化路徑一:通用機(jī)器人技術(shù)難度高,行業(yè)巨頭加速布局
具身智能獲取數(shù)據(jù)的關(guān)鍵在于實(shí)現(xiàn)商業(yè)化落地。區(qū)別于大模型可以從網(wǎng)絡(luò)中獲取數(shù)據(jù)并進(jìn)行訓(xùn)練,具身智能如果想要具備高泛化性和可靠性,則需要在真實(shí)物理世界里獲取數(shù)據(jù)來完善模型,而獲取真實(shí)物理世界的數(shù)據(jù)的關(guān)鍵就在于商業(yè)化落地。根據(jù) 1X AI 副總裁 Eric Jang 在個(gè)人博客網(wǎng)站上發(fā)表的“All Roads Lead to Robotics”一文,具身智能的商業(yè)化路徑主要包括三種:通用場(chǎng)景軟硬結(jié)合、軟件路徑、以及垂直領(lǐng)域軟硬結(jié)合。
通用路線技術(shù)難度高,商業(yè)模式是向 B 端或 C 端銷售帶有智能能力的完整的機(jī)器人。通用技術(shù)路徑的核心是采用通用的硬件和軟件來應(yīng)對(duì)各種多變的使用場(chǎng)景,但是需要開發(fā)可重構(gòu)的硬件,以便快速調(diào)整以適應(yīng)不同的任務(wù)需求;同時(shí)還要設(shè)計(jì)能夠適應(yīng)不同硬件配置和外圍設(shè)備的通用軟件,確保它們能夠在各種硬件上無縫運(yùn)行。1X、Figure 以及特斯拉均采用該種路徑。
以 Figure AI 為例,其目標(biāo)是設(shè)計(jì)可以應(yīng)用于人類環(huán)境的通用型機(jī)器人,讓機(jī)器人可以執(zhí)行各種不同的任務(wù)。2024 年 8 月,F(xiàn)igure 02 發(fā)布。在大腦上,F(xiàn)igure 02 集成了 OpenAI 的 GPT-4o 多模態(tài)大模型,相比較于 01 使用 GPT4 將進(jìn)一步地提升機(jī)器人的常識(shí)推理能力,使其能夠更好地理解和響應(yīng)復(fù)雜指令,機(jī)載計(jì)算和 AI 推理能力提升 3 倍。該集成使其在多模態(tài)推理和任務(wù)執(zhí)行方面更具智能性和適應(yīng)性,提升其在視覺、聽覺和語言交互方面的能力,使其能夠執(zhí)行復(fù)雜的端到端任務(wù),適用于工業(yè)制造、倉庫物流等側(cè)重于輕載搬運(yùn)和分揀轉(zhuǎn)移的混合任務(wù)場(chǎng)景。
小腦層面,F(xiàn)igure 02 延續(xù)使用類似 01 產(chǎn)品類似的 RT-X 機(jī)器人控制模型,使用模型預(yù)測(cè)控制器來確定腳步位置和保持平衡并遵循所需的機(jī)器人軌跡所需的力,結(jié)合步態(tài)控制以完成機(jī)器人的基本運(yùn)動(dòng),全身控制策略則確保了機(jī)器人在執(zhí)行動(dòng)作時(shí)的安全性和平衡性,未來將持續(xù)優(yōu)化提升動(dòng)作執(zhí)行能力。
商業(yè)化路徑二:純軟件路徑建議關(guān)注英偉達(dá)、華為合作廠商
軟件路徑能夠?qū)崿F(xiàn)機(jī)器人的快速部署和迭代,商業(yè)模式主要是向硬件廠商或綜合型廠商提供 API接口。純軟件路徑的核心是開發(fā) Cross-Embodiment Foundation Model(CEF),以實(shí)現(xiàn)跨硬件平臺(tái)的無縫兼容,機(jī)器人硬件廠商通過提供的 API 接口即可接入機(jī)器人的“大腦”。
該路徑能夠克服傳統(tǒng)機(jī)器人開發(fā)中的局限性,即每個(gè)硬件平臺(tái)需要獨(dú)立的軟件開發(fā)流程,開發(fā)者在一次編寫后,可在多種硬件平臺(tái)上部署和運(yùn)行。無論是精密的人形機(jī)器人、高效的輪式機(jī)器人,還是靈活的無人機(jī),都能夠共享同一套軟件架構(gòu)。因此節(jié)省了高昂的時(shí)間和成本投入,并且隨著機(jī)器人的大規(guī)模部署,其邊際成本可以無限趨近于 0。
但該種路徑需要實(shí)現(xiàn)小腦層的軟硬解耦。傳統(tǒng)機(jī)器人模型通常分為“大腦”和“小腦”兩部分,其中“大腦”負(fù)責(zé)對(duì)任務(wù)進(jìn)行理解,并根據(jù)感知的傳感器信息對(duì)任務(wù)進(jìn)行分解以及規(guī)劃,生成執(zhí)行策略;“小腦”負(fù)責(zé)核心的運(yùn)動(dòng)控制,在大腦的策略下實(shí)現(xiàn)機(jī)器人動(dòng)作的執(zhí)行和反饋。不同于“大腦”層模型的訓(xùn)練可以脫離特定硬件形態(tài),“小腦”層則通常需要進(jìn)行算法與硬件端的強(qiáng)耦合訓(xùn)練。要打造 CEF,需要實(shí)現(xiàn)控制層的軟硬解耦。除此之外,訓(xùn)練有效的具身智能模型,還需要獲取大量高質(zhì)量的數(shù)據(jù)。
向硬件廠商或綜合型廠商提供 API,或通過項(xiàng)目制與它們合作。除初創(chuàng)企業(yè)外,在 2024 年的 GTC大會(huì)上,NVIDIA 發(fā)布人形機(jī)器人通用基礎(chǔ)模型 Project GR00T,該平臺(tái)主要包括生成式 AI 基礎(chǔ)模型、仿真工具以及 AI 工作流基礎(chǔ)設(shè)施,其中 Isaac Manipulator 提供基礎(chǔ)模型和 GPU 加速庫;IsaacLab 基于 Isaac Sim 構(gòu)建,用于運(yùn)行數(shù)千個(gè)用于機(jī)器人學(xué)習(xí)的并行仿真;Isaac Perceptor 用于感知,提供多攝像頭和 3D 環(huán)繞視覺功能。
九號(hào)機(jī)器人與英偉達(dá)合作開發(fā)自主機(jī)器人平臺(tái)。2024 年國際消費(fèi)電子展(CES 2024)上,九號(hào)機(jī)器人推出與英偉達(dá)共同開發(fā)的自主機(jī)器人平臺(tái) Nova Cater AMR。Nova Cater AMR 是一款可定制的自動(dòng)駕駛研發(fā)平臺(tái),由英偉達(dá)提供算力與軟件平臺(tái)支持,九號(hào)機(jī)器人提供底層智慧移動(dòng)能力支持以及整合量產(chǎn)支撐。Nova Cater AMR 依托九號(hào)機(jī)器人最具優(yōu)勢(shì)的機(jī)器人移動(dòng)平臺(tái)(RMP),可實(shí)現(xiàn)倉庫AMR 建圖、倉庫運(yùn)輸、科研仿真等。
國內(nèi)廠商中,華為鴻蒙 HarmonyOS 是面向萬物互聯(lián)的全場(chǎng)景分布式操作系統(tǒng),支持手機(jī)、平板、智能穿戴、智慧屏等多種終端設(shè)備運(yùn)行,提供應(yīng)用開發(fā)、設(shè)備開發(fā)的一站式服務(wù)的平臺(tái)。2024 世界人工智能大會(huì)(WAIC 2024)期間,國內(nèi)首款搭載鴻蒙操作系統(tǒng)的全尺寸人形機(jī)器人樂聚“Kvavo”亮相。該機(jī)器人采用華為開源鴻蒙系統(tǒng),不僅能夠?qū)崿F(xiàn)全方位視覺感知,還具備跳躍能力,能夠多地形行走。
商業(yè)化路徑三:垂直領(lǐng)域軟硬結(jié)合建議關(guān)注細(xì)分龍頭
垂直領(lǐng)域軟硬結(jié)合能夠積累細(xì)分?jǐn)?shù)據(jù)壁壘。高工機(jī)器人產(chǎn)業(yè)研究所(GGII)所長盧瀚宸在 2024 中國人形機(jī)器人技術(shù)應(yīng)用峰會(huì)上表示,具備高壁壘的核心硬件長期來看將是“香餑餑”。機(jī)器人領(lǐng)域硬件與數(shù)據(jù)強(qiáng)綁定,例如通過定制化的處理器或通信接口,公司能夠收集和處理特定類型的數(shù)據(jù),這些數(shù)據(jù)對(duì)于機(jī)器人的性能至關(guān)重要,但難以被競爭對(duì)手復(fù)制。同時(shí),硬件和軟件緊密集成形成高度優(yōu)化的系統(tǒng),這種集成化設(shè)計(jì)可以提高數(shù)據(jù)的收集效率和處理速度,從而形成數(shù)據(jù)壁壘。
軟硬協(xié)同,??禉C(jī)器人具備從機(jī)器人本體到業(yè)務(wù)調(diào)度系統(tǒng)的全面產(chǎn)品覆蓋。公司在硬件方面具備機(jī)器人設(shè)計(jì)、無線通訊及自動(dòng)充換電技術(shù),在軟件方面具備嵌入式技術(shù)、平臺(tái)軟件技術(shù)以及移動(dòng)機(jī)器人定位導(dǎo)航、運(yùn)動(dòng)控制、調(diào)度規(guī)劃等通用智能技術(shù)。公司機(jī)器人產(chǎn)品矩陣包括:移動(dòng)機(jī)器人本體、自動(dòng)充換電系統(tǒng)、通訊系統(tǒng)、機(jī)器人調(diào)度系統(tǒng)和業(yè)務(wù)系統(tǒng)。
其中移動(dòng)機(jī)器人本體是硬件核心,具備定位、導(dǎo)航和一定的自主決策能力;通訊系統(tǒng)主要負(fù)責(zé)機(jī)器人群體和機(jī)器人調(diào)度系統(tǒng)之間的無線通訊,一般以 WIFI 或 5G 訊號(hào)進(jìn)行鏈接;充換電系統(tǒng)主要負(fù)責(zé)給機(jī)器人補(bǔ)充電能;機(jī)器人調(diào)度系統(tǒng)既是軟件的核心也是整個(gè)系統(tǒng)的核心,主要負(fù)責(zé)將工廠的作業(yè)任務(wù)分配給合適的機(jī)器人,并負(fù)責(zé)整個(gè)機(jī)器人群體的交通調(diào)度;業(yè)務(wù)系統(tǒng)負(fù)責(zé)將工廠的需求指令轉(zhuǎn)換為機(jī)器人的搬運(yùn)指令,并下發(fā)給機(jī)器人調(diào)度系統(tǒng)。
AMR 市場(chǎng)高速增長,公司市占率領(lǐng)先。根據(jù) GGII 的預(yù)測(cè),2022 年我國自主移動(dòng)機(jī)器人市場(chǎng)規(guī)模約為 96.7 億元。由于叉車替換需求、倉儲(chǔ)機(jī)器人需求等較為旺盛,預(yù)計(jì)我國移動(dòng)機(jī)器人市場(chǎng)在 2027年將超過 460 億元,10 年 cagr 達(dá) 35%。根據(jù) GGII 的統(tǒng)計(jì),2022 年中國移動(dòng)機(jī)器人市場(chǎng)的市場(chǎng)銷量8.14 萬臺(tái),其中海康機(jī)器人市場(chǎng)占有率超過 15%,位居第一,具備較強(qiáng)先發(fā)優(yōu)勢(shì)。
機(jī)器視覺賦能,打造長期壁壘。區(qū)別于傳統(tǒng)的自動(dòng)導(dǎo)航車輛(AGV)依賴于預(yù)設(shè)的路線和人工監(jiān)督,AMR 需要利用機(jī)器視覺技術(shù)進(jìn)行實(shí)時(shí)的導(dǎo)航和路徑規(guī)劃,以實(shí)現(xiàn)自主移動(dòng)。因此 AMR 對(duì)于機(jī)器視覺的要求大大提高。
根據(jù) Omdia 報(bào)告,??禉C(jī)器人公司的母公司??低曔B續(xù) 8 年蟬聯(lián)視頻監(jiān)控行業(yè)全球第一,占全球視頻監(jiān)控市場(chǎng)份額的 24.1%。公司在機(jī)器視覺方面具備深厚技術(shù)積累,擁有2D 視覺、智能 ID、3D 視覺三大硬件產(chǎn)品線。其中 2D 系列產(chǎn)品中的工業(yè)相機(jī)作為公司最早布局的核心成像產(chǎn)品,在市場(chǎng)占有率及產(chǎn)品性能方面均居于業(yè)內(nèi)領(lǐng)先地位。
更多行業(yè)研究分析請(qǐng)參考思瀚產(chǎn)業(yè)研究院官網(wǎng),同時(shí)思瀚產(chǎn)業(yè)研究院亦提供行研報(bào)告、可研報(bào)告(立項(xiàng)審批備案、銀行貸款、投資決策、集團(tuán)上會(huì))、產(chǎn)業(yè)規(guī)劃、園區(qū)規(guī)劃、商業(yè)計(jì)劃書(股權(quán)融資、招商合資、內(nèi)部決策)、專項(xiàng)調(diào)研、建筑設(shè)計(jì)、境外投資報(bào)告等相關(guān)咨詢服務(wù)方案。