2025年,對人形機器人和具身智能賽道的創(chuàng)業(yè)者而言,都是特殊的一年。在產(chǎn)業(yè)端,不斷迭代新的產(chǎn)品;在一級市場,這些初創(chuàng)公司成為投資者青睞的標(biāo)的公司。


7月10日,在2025年新京報貝殼財經(jīng)年會建設(shè)開源之都:智AI未來,生態(tài)共澎湃主論壇上,北京大學(xué)助理教授、銀河通用機器人創(chuàng)始人及首席技術(shù)官、智源學(xué)者王鶴博士出席并發(fā)表題為《合成數(shù)據(jù)賦能的具身大模型開啟工商業(yè)場景規(guī)?;涞亍返闹髦佳葜v。



人形機器人并不是一個新鮮的事物,從早稻田大學(xué)發(fā)布的全球第一個能自主行動的人形機器人WABOT-1再到波士頓動力早期的Atlas機器人,機器人一直存在,卻并不智能。2022年大模型在全球范圍內(nèi)掀起的熱潮,讓無數(shù)研究者看到了新的方向,最早將人工智能和機器人研究相結(jié)合,重新定義機器人的能力邊界,王鶴正是其中之一。


王鶴認為,一些通用大模型對于機器人而言并不具備可操作性,因此多模態(tài)模型的下一步發(fā)展方向就是將機器人的動作作為輸出模態(tài),這就是當(dāng)下具身智能與大模型融合的一個新趨勢,即VLA(Vision-Language-Action)大模型,通俗理解就是能夠讓機器人自主理解指令并依靠手眼腦身協(xié)調(diào)來執(zhí)行任務(wù)。


從2021年斯坦福大學(xué)博士畢業(yè)到回國加入北大任教,創(chuàng)立并領(lǐng)導(dǎo)了北大具身感知與交互實驗室,王鶴一直在探索機器人視覺和操控的可泛化性?!熬呱碇悄苁悄壳罢嬲苿又圃鞓I(yè)、生產(chǎn)服務(wù)業(yè)以及創(chuàng)造新質(zhì)生產(chǎn)力的一個關(guān)鍵領(lǐng)域。”王鶴說。


但這個領(lǐng)域與傳統(tǒng)的制造業(yè)并不完全相同,人形機器人要能“干活”,離不開一個會思考的大腦,只有讓機器人本體承載具身大模型,機器人才會擁有自主決策的能力。王鶴坦言,“結(jié)合目前產(chǎn)業(yè)發(fā)展現(xiàn)狀來看,數(shù)據(jù)短缺是制約人形機器人大規(guī)模落地應(yīng)用的根本原因。我們需要的可能是上百億的數(shù)據(jù),機器人才能達到泛化的能力,但今天公開的數(shù)據(jù)集僅有百萬條這個量級,中間差了好幾個數(shù)量級,這是目前具身智能領(lǐng)域發(fā)展最大的瓶頸。”王鶴說。


投資界和產(chǎn)業(yè)界喜歡將具身智能的發(fā)展史與自動駕駛的發(fā)展史進行類比,但王鶴指出目前人形機器人和新能源汽車行業(yè)相比,仍有兩個挑戰(zhàn):一是汽車的出貨量遠高于人形機器人企業(yè),即便是像特斯拉等頭部人形機器人企業(yè)的出貨數(shù)量和頭部車企幾百萬的出貨量仍有很大的差距;二是汽車售出后也能夠讓車主駕駛自動回傳數(shù)據(jù),現(xiàn)階段人形機器人還不能像買車一樣馬上產(chǎn)生使用價值。也就是說,具身智能領(lǐng)域面臨的挑戰(zhàn)來自兩方面,第一是人形機器人存量不足;第二是單純依賴真實采集數(shù)據(jù)成本過高。


“但這并不代表沒有解決困境的方式,事實上在具身智能冷啟動的時代,中國企業(yè)是有機會領(lǐng)跑的,不完全依賴真實數(shù)據(jù)的采集,而是更多使用合成數(shù)據(jù)在仿真器里進行大規(guī)模的強化學(xué)習(xí),探索與真實世界的交互方式,提升具身大模型的訓(xùn)練效率和泛化效果?!蓖斛Q分析。為此,銀河通用自研仿真數(shù)據(jù)合成管線,迄今為止已積累了億級真實應(yīng)用場景數(shù)據(jù)及百億級的合成仿真數(shù)據(jù),利用這些合成數(shù)據(jù)進行技能學(xué)習(xí),機器人Galbot 可以直接將所學(xué)技能泛化到真實世界中,現(xiàn)已在全球率先進行了大規(guī)模的VLA真實落地實踐。


編者注:以下為北京大學(xué)助理教授、銀河通用機器人創(chuàng)始人及首席技術(shù)官、智源學(xué)者代表王鶴在2025年貝殼財經(jīng)年會上的主題演講全文(根據(jù)錄音整理,略有刪減)


一、人形機器人能否產(chǎn)生新質(zhì)生產(chǎn)力,主要取決于具身智能的發(fā)展


尊敬的各位領(lǐng)導(dǎo),來賓,非常榮幸今天在2025貝殼財經(jīng)年會代表具身智能與人形機器人產(chǎn)業(yè)分享我們企業(yè)、學(xué)術(shù)界、研究界對于該行業(yè)的一些實踐和思考。首先,我的主題比較偏技術(shù)方向,但這背后反映的是我們中國新一代研究人員、新生代企業(yè)家們努力去引領(lǐng)、試圖去“領(lǐng)跑”的一些嘗試。


銀河通用實際上是一家很新的公司,我們2023年5月注冊成立于海淀,是一家基于具身大模型的通用機器人研發(fā)公司,我們的愿望是用通用機器人賦能千行百業(yè),服務(wù)千家萬戶。正如黃市長、李部長所言,具身智能是推動制造業(yè)、生產(chǎn)性服務(wù)業(yè)及新質(zhì)生產(chǎn)力的關(guān)鍵領(lǐng)域。


過去兩年,中美及全球在具身智能領(lǐng)域風(fēng)起云涌,代表性事件包括多模態(tài)大模型推出、特斯拉發(fā)布人形機器人Optimus。自2023年銀河通用創(chuàng)立以來,中國目前約有200家人形機器人和具身智能企業(yè)。


但人形機器人和具身智能并非傳統(tǒng)意義上的制造業(yè)企業(yè),其核心不僅是制造人形機器人本體,更要有自主干活的智能,也就是具身智能,即通過手眼腦協(xié)調(diào),以模型推動機器人自主干活,充分利用人類身體,實現(xiàn)人能干的活機器人都能干,這就是通用機器人。


當(dāng)前中國制造業(yè)不斷發(fā)展,已用諸多自動化、流程化方式實現(xiàn)汽車制造業(yè)多個環(huán)節(jié)無人化,形成“黑燈工廠”。制造業(yè)正在走強,但尚未達到“智造”,人工智能尤其是基于數(shù)據(jù)驅(qū)動的人工智能占比不高。這并非中國制造業(yè)獨有現(xiàn)狀,人形機器人真正自主干活在全球均未大規(guī)模應(yīng)用。


實際上,人形機器人行業(yè)并非新鮮事物。上世紀60年代,日本開始研究機器人,到世紀之交波士頓動力推出機器人,已有近60年發(fā)展歷程。如今一些知名人形機器人企業(yè)已退出歷史舞臺。


因此,人形機器人能否產(chǎn)生新質(zhì)生產(chǎn)力,主要取決于具身智能的發(fā)展。


二、VLA是具身智能與大模型融合的新趨勢,阻礙是缺少數(shù)據(jù)


大模型對具身智能有極大的推動性作用。大語言模型吸收互聯(lián)網(wǎng)大量語料后,如豆包大模型已能流暢無延遲對話。多模態(tài)大模型能看懂圖并據(jù)此語言回答,如GPT-4V、GPT-4o及國內(nèi)DeepSeek、通義千問均推出多模態(tài)大模型。


但這些通用大模型仍不足以讓機器人干活。例如,讓機器人拿面前的話筒,大語言模型可能會說“好的你可以伸出右手抓住話筒,并把它拿起”,這樣的語言描述不夠,因為機器人手臂有6、7個電機,靈巧手可能有十幾二十個電機,機器人需要的是每個電機輸出多少扭矩的信息才能執(zhí)行。模型說“請拿起來”,但機器人無法理解,因為模型不具備可操作性。


所以多模態(tài)大模型要做的是將視覺感知和語言交互等作為輸入,機器人動作作為輸出,這是具身智能與大模型融合的新趨勢,即VLA(Vision-Language-Action)大模型。雖由美國谷歌提出,但目前全球?qū)W術(shù)界和產(chǎn)業(yè)界均在深入研究。


該領(lǐng)域研究最大阻礙是缺少數(shù)據(jù)。


以自動駕駛為例,其數(shù)據(jù)來自車主駕駛。人形機器人行業(yè)面臨兩大挑戰(zhàn):以銀河通用為例,即便今年計劃量產(chǎn)千臺,也仍與頭部車企數(shù)百萬臺的出貨量有差距。車賣出后車主駕駛可自動回傳數(shù)據(jù),而今天大多數(shù)人形機器人存在的問題是,買回家后幾乎全靠遙控器操作,與車買回家即能駕駛帶來價值有巨大差異。這就是為什么這么火的產(chǎn)業(yè),目前剛達到千臺的水平,當(dāng)然跟制造的供應(yīng)鏈和成熟度有關(guān)系,但要推到萬臺、百萬臺,推到能彌補未來中國老齡化、少子化導(dǎo)致的生產(chǎn)力缺口、勞動力缺口,我們還有很漫長的道路。這里面一定需要智能,一定需要數(shù)據(jù)。


關(guān)于數(shù)據(jù)問題,美國的解決方法是人穿動捕服或用遙控器操縱機器人采集數(shù)據(jù)。這存在兩大劣勢:存量不足,短期內(nèi)無法將人形機器人造到上百萬臺;第二賣給客戶的無應(yīng)用功能的機器人無法采集有效的任務(wù)數(shù)據(jù),且耗時,遙控機器人干活比人自己干還慢。這兩個劣勢都導(dǎo)致具身智能缺乏源源不斷的數(shù)據(jù)。


我們的數(shù)據(jù)需求是干各種事情,可能需要上百億條數(shù)據(jù),對應(yīng)到Token可能需要上萬億,至少達到當(dāng)前大模型的Token數(shù)才能實現(xiàn)泛化。目前公開的最大數(shù)據(jù)集僅100萬條,相差4、5個數(shù)量級,這是具身智能發(fā)展的最大瓶頸。


三、利用合成數(shù)據(jù)在具身智能冷啟動時代先行推進


但中國企業(yè)在人形機器人賽道有“領(lǐng)跑”機會,就是使用合成數(shù)據(jù),而非完全依賴真實世界的數(shù)據(jù),在具身智能冷啟動時代先行推進。


也就是通過數(shù)字資產(chǎn)制造大量運動軌跡和標(biāo)簽,在仿真器里進行大規(guī)模強化學(xué)習(xí),探索交互、物體使用方式,研究仿真器數(shù)據(jù)到真實世界的遷移,即Sim2Real(從仿真到現(xiàn)實),實現(xiàn)從數(shù)據(jù)資產(chǎn)到運動軌跡到Sim2Real的全鏈條。這一技術(shù)路線是我在斯坦福大學(xué)讀博士到加入北京大學(xué)后一直在推動的。


該技術(shù)路線可使用消費級顯卡進行圖片渲染,整體管線可大規(guī)模批量復(fù)制,數(shù)據(jù)制造成本遠低于在真實世界進行采集?;谕耆珶o需真實世界采集的十億級合成大數(shù)據(jù),我們訓(xùn)練出端到端具身大模型GraspVLA,這是世界首個以合成數(shù)據(jù)為唯一預(yù)訓(xùn)練動作數(shù)據(jù)的具身基礎(chǔ)抓取大模型。


在真實世界中,這樣的預(yù)訓(xùn)練大模型采集效率極高。例如拆箱水,我們僅需一個工人采集,200條軌跡,訓(xùn)練出的模型就能很好地分拆一箱水。這樣的預(yù)訓(xùn)練大模型還能應(yīng)對新飲品,如農(nóng)夫山泉和東方樹葉,從4瓶改為3瓶,蓋子從綠色改為紅色、白色,大小高度變化,模型無需采集新數(shù)據(jù)、重新訓(xùn)練,可直接泛化。這表明具身智能擁有十億級別數(shù)據(jù)后,能舉一反三,對一個任務(wù)僅需一天下午采集,就能在同類物品間自動泛化,大幅降低具身智能應(yīng)用的數(shù)據(jù)成本,使企業(yè)能用得起相關(guān)解決方案。


我們推出全球首個人形機器人智慧零售解決方案,在北京的店里,機器人真實抓藥。訂單下到倉后,無需人員24小時值守,由人形機器人操作,涉及從貨架區(qū)、密集擺放區(qū)精巧抽出藥盒、拉開柜子抽屜取藥等,24小時不間斷送藥,滿足夜間病人需求。目前北京已有10家門店,今年計劃在北京、上海、深圳等城市開設(shè)100家藥店。


我們的具身大模型還可以賦能四足機器人陪伴逛商場。算法實時給出跟隨軌跡,借助室內(nèi)自動駕駛技術(shù)讓機器狗靈巧移動。在人流密集、無箭頭指引的商場,面對各種動態(tài)遮擋,這都是基于合成數(shù)據(jù)技術(shù)生成的端到端模型實現(xiàn)的。


最后總結(jié)一下,在目前人形機器人賽道,我們要有自己的領(lǐng)先技術(shù),要有定義這個行業(yè)風(fēng)向標(biāo)的能力,銀河通用用合成數(shù)據(jù)打造的具身大模型,把各種能力融為一體,在過去短短兩年時間內(nèi)完成了數(shù)輪融資,并且累計融資了24億元人民幣。


我非常感謝國家出臺的相關(guān)政策引導(dǎo),以及產(chǎn)業(yè)方和頭部VC支持,我相信作為中國具身智能領(lǐng)軍企業(yè),銀河通用將持續(xù)“領(lǐng)跑”,引領(lǐng)行業(yè)走出一條比新能源汽車更輝煌的路線,真正開啟生產(chǎn)力人形機器人的落地時代。


謝謝大家。


新京報貝殼財經(jīng)記者 張晗


編輯 劉佳妮


校對 陳荻雁