前不久,上海一場(chǎng)以“勞動(dòng)最光榮”為主題的技能大賽,用同臺(tái)競(jìng)技的方式,以一場(chǎng)壓力測(cè)試,讓我們看到,機(jī)器人距離真實(shí)場(chǎng)景落地還有多遠(yuǎn)距離要走。無(wú)疑,仍處于發(fā)展早期階段的具身智能,無(wú)論是大腦、小腦還是本體,尚有大量瓶頸待突破。
大腦不夠聰明,訓(xùn)練數(shù)據(jù)不夠,那就使用更多合成數(shù)據(jù);機(jī)器人通用性難實(shí)現(xiàn),那就先聚焦在一些特定場(chǎng)景的應(yīng)用……行業(yè)喧囂熱鬧,方興未艾,創(chuàng)業(yè)者們紛紛選擇自己的生態(tài)位,以“沿途拾蛋”的方式,共同推動(dòng)這一未來(lái)產(chǎn)業(yè)的加速成熟。
賽事從“表演型”向“實(shí)用型”進(jìn)發(fā)
與單純追求視覺(jué)表現(xiàn)力和沖擊力不同,中國(guó)人形機(jī)器人產(chǎn)業(yè)正以“好用、管用”為導(dǎo)向,加速商業(yè)化落地進(jìn)程。前不久,以“勞動(dòng)最光榮”為主題的國(guó)際人形機(jī)器人技能大賽在上海舉辦??梢钥吹?,隨著人工智能、傳感器技術(shù)迭代升級(jí),人形機(jī)器人正從實(shí)驗(yàn)室走進(jìn)更多工廠和家庭,逐步從“表演型”邁向“實(shí)用型”。
翻開(kāi)賽事手冊(cè)可以看到,汽車貼標(biāo)、零部件上下料、衣服折疊、垃圾清理、商品掃碼等工業(yè)、家庭、商業(yè)場(chǎng)景實(shí)現(xiàn)全覆蓋。如果只看比賽項(xiàng)目,或許會(huì)以為這是一項(xiàng)人類勞動(dòng)技能比賽。
剛剛完成比賽的機(jī)器人操控者王思浩告訴記者:“比如疊衣服這個(gè)動(dòng)作,對(duì)人來(lái)說(shuō)可能很簡(jiǎn)單,但對(duì)于機(jī)器人來(lái)說(shuō),卻需要調(diào)動(dòng)視覺(jué)、觸覺(jué)等各個(gè)系統(tǒng),非常復(fù)雜。但也因?yàn)槿绱藦?fù)雜,人形機(jī)器人才可以在日常生活中真正幫到人類?!?/p>
更多具身智能產(chǎn)業(yè)企業(yè)也不再單純追求“人形”。在一家主做仿生手的企業(yè)展位,記者了解到,該企業(yè)的產(chǎn)品并不一定需要裝在人形機(jī)器人身上,搭載在一個(gè)平臺(tái)上即可完成從1萬(wàn)元現(xiàn)金中抽取出5張紙幣等銀行柜員的基本操作。
以賽事為橋梁,拉近了機(jī)器人公司和場(chǎng)景應(yīng)用方之間的距離。觀看了商業(yè)場(chǎng)景賽事后,來(lái)自上海的朱先生立馬向參賽隊(duì)伍提出訴求?!拔疫@邊有1萬(wàn)多臺(tái)自動(dòng)售賣(mài)機(jī)。機(jī)器人能不能跟我的自動(dòng)售賣(mài)機(jī)配合,在辦公樓里完成下單、支付、取貨、配送的完整工作流程?”
回顧來(lái)看,從北京的人形機(jī)器人半程馬拉松賽,到無(wú)錫的具身智能機(jī)器人運(yùn)動(dòng)會(huì),到杭州全球人形機(jī)器人格斗大賽,再到此次上海舉辦的國(guó)際人形機(jī)器人技能大賽,今年以來(lái),人形機(jī)器人迎來(lái)了多場(chǎng)賽事。
“以往賽事更多聚焦機(jī)器人的運(yùn)動(dòng)能力,我們更看重讓機(jī)器人具備進(jìn)入各類場(chǎng)景,乃至千家萬(wàn)戶去作業(yè)的能力。隨著去年年底‘模塑申城’方案的全面實(shí)施,上海積極發(fā)揮場(chǎng)景應(yīng)用優(yōu)勢(shì),幫助人形機(jī)器人‘解鎖’新技能,推動(dòng)軟硬件產(chǎn)品實(shí)現(xiàn)多元場(chǎng)景落地。”上海市人工智能行業(yè)協(xié)會(huì)秘書(shū)長(zhǎng)鐘俊浩這樣介紹此次大賽的“上海特色”。
不可否認(rèn),人形機(jī)器人仍處在發(fā)展初期,從實(shí)驗(yàn)室走向工廠、走向家庭,仍有諸多技術(shù)難點(diǎn)待突破。通過(guò)這場(chǎng)賽事構(gòu)建出的基于真實(shí)場(chǎng)景的壓力測(cè)試場(chǎng),我們看到了人形機(jī)器人率先在某些特定場(chǎng)景中應(yīng)用的可能,以“沿途拾蛋”的方式不斷積累數(shù)據(jù)、成熟技術(shù)。
腦部進(jìn)化 行業(yè)突圍“數(shù)據(jù)荒”
從賽事來(lái)看,人形機(jī)器人在精度、速度、泛化度等維度仍顯笨拙。行業(yè)人士表示,訓(xùn)練數(shù)據(jù)的不足,是當(dāng)下阻礙機(jī)器人進(jìn)化的一大瓶頸。
以ChatGPT、DeepSeek為代表的大語(yǔ)言模型,其智能的涌現(xiàn),離不開(kāi)巨量的文本數(shù)據(jù)。具身智能模型能力的提升,同樣有賴于大量訓(xùn)練數(shù)據(jù)的輸入。不過(guò),與文本數(shù)據(jù)相比,具身智能的訓(xùn)練數(shù)據(jù)十分稀缺,尤其是多模態(tài)數(shù)據(jù)?!皵?shù)量上可能有百萬(wàn)倍的差距。”中國(guó)工程院外籍院士張建偉說(shuō)。
為了解決訓(xùn)練數(shù)據(jù)缺乏的問(wèn)題,機(jī)構(gòu)和企業(yè)紛紛行動(dòng)。比如,特斯拉Optimus的訓(xùn)練數(shù)據(jù)是讓人在遠(yuǎn)程操作機(jī)器人的過(guò)程中,將操作動(dòng)作和環(huán)境感知數(shù)據(jù)進(jìn)行記錄;谷歌DeepMind聯(lián)手斯坦福大學(xué)等推出了Open X-Embodiment Dataset,包含100多萬(wàn)條真實(shí)機(jī)器人軌跡。國(guó)內(nèi)人形機(jī)器人頭部企業(yè)智元也發(fā)布了百萬(wàn)真機(jī)數(shù)據(jù)集開(kāi)源項(xiàng)目AgiBot World。
不過(guò),百萬(wàn)體量的數(shù)據(jù),對(duì)于訓(xùn)練具身智能大模型來(lái)說(shuō),遠(yuǎn)遠(yuǎn)不夠。
“頭部車廠每天回流的數(shù)據(jù)在1億條左右。但在具身智能領(lǐng)域,如今我們采集到的最大數(shù)據(jù)集也只有百萬(wàn)條規(guī)模。當(dāng)人形機(jī)器人的存量尚未達(dá)到自動(dòng)駕駛領(lǐng)域百萬(wàn)級(jí)設(shè)備的規(guī)模時(shí),依賴海量真實(shí)數(shù)據(jù)訓(xùn)練不僅成本高昂,而且周期冗長(zhǎng),極大制約了大模型的訓(xùn)練效率與場(chǎng)景適應(yīng)能力。”北京銀河通用機(jī)器人有限公司創(chuàng)始人兼CTO王鶴說(shuō)。
行業(yè)解決數(shù)據(jù)難題的路徑之一,是合成數(shù)據(jù)。合成數(shù)據(jù)(Synthetic Data)是一種模仿真實(shí)世界數(shù)據(jù)的非人工創(chuàng)建的數(shù)據(jù),它是由基于生成式人工智能技術(shù)的計(jì)算算法和模擬創(chuàng)建而成。在前不久舉辦的2025張江具身智能開(kāi)發(fā)者大會(huì)上,銀河通用通過(guò)完全基于合成數(shù)據(jù)的端到端抓取基礎(chǔ)大模型GraspVLA,以及導(dǎo)航大模型,展示了合成數(shù)據(jù)的價(jià)值。
據(jù)悉,GraspVLA采用10億級(jí)別的合成大數(shù)據(jù)進(jìn)行訓(xùn)練。目前銀河通用安裝了上述大模型的人形機(jī)器人已經(jīng)用于24小時(shí)無(wú)人藥店。“40多平方米的藥店里面,有5000多種藥品,6000多個(gè)貨道,可全都由機(jī)器人完成取貨,打包后送至外賣(mài)柜等待上門(mén)領(lǐng)取?!蓖斛Q介紹,目前由人形機(jī)器人運(yùn)營(yíng)的24小時(shí)無(wú)人藥店已有6家在北京實(shí)現(xiàn)常態(tài)化運(yùn)營(yíng),今年年底預(yù)計(jì)全國(guó)擴(kuò)張至100家。
當(dāng)然,合成數(shù)據(jù)方法并非沒(méi)有局限性。雖然目前生成視覺(jué)數(shù)據(jù)的能力相對(duì)成熟,但生成其他模態(tài)的數(shù)據(jù),包括觸覺(jué)、溫度和聲音數(shù)據(jù)等,仍然是一項(xiàng)重大挑戰(zhàn)。此外,關(guān)于合成數(shù)據(jù)路線,行業(yè)也有不少擔(dān)憂,比如“Sim2Real Gap”,也即仿真環(huán)境與真實(shí)世界匹配度不夠,導(dǎo)致合成數(shù)據(jù)訓(xùn)練存在有效性問(wèn)題。
方興未艾的具身智能:
關(guān)于未來(lái)我們可以期待什么
從全球視野來(lái)看,具身智能產(chǎn)業(yè)發(fā)展呈現(xiàn)出創(chuàng)新活躍的多元競(jìng)爭(zhēng)態(tài)勢(shì)。美國(guó)以頂尖科研機(jī)構(gòu)與科技企業(yè)為核心,在算法、芯片等核心技術(shù)領(lǐng)域取得突破;歐洲持續(xù)推進(jìn)具身智能在工業(yè)場(chǎng)景中的應(yīng)用探索。中國(guó)則得益于完整的產(chǎn)業(yè)鏈優(yōu)勢(shì),集合了本體制造、算法優(yōu)化,再到落地場(chǎng)景驗(yàn)證的全棧式技術(shù)儲(chǔ)備,成為具身智能產(chǎn)業(yè)的一處高地。
“我國(guó)人形機(jī)器人初步建立了‘大腦、小腦、肢體’的創(chuàng)新體系,而這也成為世界范圍內(nèi)被廣泛應(yīng)用的技術(shù)體系。目前,我國(guó)人形機(jī)器人整機(jī)產(chǎn)品達(dá)到國(guó)際先進(jìn)水平,涌現(xiàn)了宇樹(shù)、智元、傅利葉、星動(dòng)紀(jì)元、銀河通用等一批企業(yè)。在CS2025上,英偉達(dá)CEO黃仁勛身后的14臺(tái)人形機(jī)器人,4臺(tái)來(lái)自美國(guó),6臺(tái)來(lái)自中國(guó)?!眹?guó)地共建人形機(jī)器人創(chuàng)新中心首席科學(xué)家江磊介紹。
江磊表示,在核心零部件方面,我國(guó)已經(jīng)實(shí)現(xiàn)了安全有效的供給,尤其是在感知、控制、驅(qū)動(dòng)、傳動(dòng)模塊,在低成本約束下具有一定的領(lǐng)先優(yōu)勢(shì)。創(chuàng)新生態(tài)也逐漸完善,形成跨領(lǐng)域企業(yè)、本體初創(chuàng)企業(yè)、高??蒲性核⑸嫌尾拷M件企業(yè)以及地方政府支持下的創(chuàng)新中心等5類創(chuàng)新主體。
“整體來(lái)看,我國(guó)具身智能產(chǎn)業(yè)規(guī)模爬升迅速,示范應(yīng)用仍在培育階段?!苯谡f(shuō)。
仍處于早期階段的具身智能產(chǎn)業(yè),無(wú)論是大腦、小腦還是本體,都面臨諸多瓶頸。比如,在應(yīng)用方面,目前更多是抓取、擺放、組裝等一些“原子”技能的訓(xùn)練,難以完成長(zhǎng)序列任務(wù)。在技術(shù)路線上,也存在諸多爭(zhēng)議,比如到底是“數(shù)據(jù)驅(qū)動(dòng)”還是“模型驅(qū)動(dòng)”,是做通用型機(jī)器人,還是做“專用”機(jī)器人。
分歧終將收斂于實(shí)踐。目前我國(guó)已有超過(guò)100家人形機(jī)器人整機(jī)企業(yè),這些企業(yè)紛紛尋找自己的生態(tài)位,做出不同的選擇,有些聚焦于工業(yè)場(chǎng)景,提升負(fù)載和電池容量;有些聚焦于商用服務(wù)行業(yè),提出用“崗位化”理念生產(chǎn)“專用”型機(jī)器人;有些結(jié)合自身原有業(yè)務(wù)優(yōu)勢(shì),聚焦康復(fù)醫(yī)療場(chǎng)景……
談及未來(lái)5到10年人形機(jī)器人的發(fā)展,張建偉表示,在做技術(shù)預(yù)測(cè)時(shí),人們傾向于對(duì)近期目標(biāo)過(guò)分悲觀,對(duì)遠(yuǎn)期目標(biāo)又過(guò)分樂(lè)觀?!叭騺?lái)看,從20世紀(jì)80年代的美國(guó),后來(lái)到日本,再到韓國(guó),機(jī)器人‘狼來(lái)了’的故事已經(jīng)喊過(guò)多遍。人工智能的發(fā)展為機(jī)器人自主學(xué)習(xí)能力提升帶來(lái)了巨大想象空間,我們也隨之來(lái)到了一個(gè)新的時(shí)點(diǎn)?!?/p>
“能夠在家庭護(hù)理、工廠等多場(chǎng)景工作的通用型機(jī)器人,可能仍需10年、20年的時(shí)間來(lái)打磨。但未來(lái)5年,在抓取、裝配等場(chǎng)景中,具身智能應(yīng)該可以完成第一批示范場(chǎng)景應(yīng)用。在很多B端場(chǎng)景,如工廠、社區(qū)醫(yī)院、農(nóng)業(yè)等,圍繞收割、殺蟲(chóng)打藥、采摘,以及一些簡(jiǎn)單的家務(wù)任務(wù),應(yīng)該逐漸有專業(yè)機(jī)器人出現(xiàn)?!睆埥▊フf(shuō)。