理工學(xué)院高源教授、林天麟教授在Science Robotics發(fā)表論文
近日,香港中文大學(xué)(深圳)理工學(xué)院高源教授、林天麟教授聯(lián)合北京通用人工智能研究院、華盛頓大學(xué)圣路易斯分校,在國(guó)際期刊Science Robotics發(fā)表題為“Cross-Robot Behavior Adaptation through Intention Alignment”的研究論文。
?
論文鏈接:science.org/doi/10.1126/scirobotics.adv2250?
?
一、期刊介紹
Science Robotics是美國(guó)科學(xué)促進(jìn)會(huì)(AAAS)旗下Science系列的重要子刊,也是Science系列子刊中唯一聚焦機(jī)器人學(xué)領(lǐng)域的頂級(jí)學(xué)術(shù)期刊。該期刊最新影響因子高達(dá)26.1,長(zhǎng)期位居機(jī)器人學(xué)領(lǐng)域全球第一梯隊(duì),致力于發(fā)表機(jī)器人領(lǐng)域具有重大原創(chuàng)性和變革性的研究成果,涵蓋從基礎(chǔ)科學(xué)到工程應(yīng)用的廣泛議題。由于極高的學(xué)術(shù)標(biāo)準(zhǔn)與極低的錄用率,在Science Robotics發(fā)表論文意味著研究成果獲得了國(guó)際頂級(jí)同行評(píng)審專(zhuān)家的高度認(rèn)可,被視為該領(lǐng)域的重要里程碑。
?
二、研究背景
在機(jī)器人技術(shù)日益普及的今天,從工業(yè)產(chǎn)線(xiàn)的柔性制造到災(zāi)后救援的多機(jī)協(xié)同,再到太空探索中的異構(gòu)編隊(duì)作業(yè),越來(lái)越多的現(xiàn)實(shí)場(chǎng)景需要形態(tài)各異的機(jī)器人協(xié)同工作。然而,如何讓異構(gòu)機(jī)器人(Cross-embodiment)——例如天上飛的無(wú)人機(jī)、水里游的無(wú)人船、地面跑的輪式機(jī)器人和桌上操作的機(jī)械臂——能夠相互“理解”并協(xié)作完成任務(wù),一直是機(jī)器人學(xué)領(lǐng)域的重大開(kāi)放問(wèn)題。
模仿學(xué)習(xí)(Imitation Learning,IL)是機(jī)器人技能獲取的核心范式,使機(jī)器人能夠通過(guò)觀(guān)察專(zhuān)家演示高效習(xí)得新技能。然而,現(xiàn)有方法多假設(shè)示教者與學(xué)習(xí)者具有相同或相似的物理構(gòu)型,依賴(lài)兩者間的直接運(yùn)動(dòng)映射。當(dāng)二者在自由度、運(yùn)動(dòng)模態(tài)或傳感器配置上存在根本差異時(shí),這種映射即告失效。為應(yīng)對(duì)中等程度的形態(tài)差異,已有研究嘗試采用不變特征映射、狀態(tài)轉(zhuǎn)移對(duì)齊或域混淆(domain confusion approaches)等方法。然而,當(dāng)運(yùn)動(dòng)模態(tài)根本不同時(shí)(如地面車(chē)輛與飛行器),上述策略均難以奏效。近年來(lái),基于任務(wù)結(jié)果的對(duì)應(yīng)學(xué)習(xí)雖取得進(jìn)展,但需為每對(duì)示教-學(xué)習(xí)者手動(dòng)標(biāo)注配對(duì)軌跡,嚴(yán)重制約了其可擴(kuò)展性。無(wú)監(jiān)督對(duì)應(yīng)學(xué)習(xí)雖免除了標(biāo)注負(fù)擔(dān),卻仍要求機(jī)器人具備相同的功能集合。能夠同時(shí)適應(yīng)多樣化環(huán)境并泛化至異構(gòu)機(jī)器人形態(tài)的高效方法,仍是該領(lǐng)域亟待填補(bǔ)的空白。
此外,從單體模仿學(xué)習(xí)擴(kuò)展到團(tuán)隊(duì)層面,引入了一個(gè)全新的“團(tuán)隊(duì)對(duì)團(tuán)隊(duì)”模仿范式(Team-to-Team Imitation)。當(dāng)示教團(tuán)隊(duì)與學(xué)習(xí)團(tuán)隊(duì)在團(tuán)隊(duì)規(guī)模、機(jī)器人類(lèi)型和個(gè)體能力上存在異質(zhì)性時(shí),系統(tǒng)需要同時(shí)解決兩個(gè)耦合難題:為學(xué)習(xí)團(tuán)隊(duì)生成可行的運(yùn)動(dòng)方案,以及基于個(gè)體能力進(jìn)行合理的多機(jī)器人任務(wù)分配(Multi-Robot Task Allocation, MRTA)。由于異構(gòu)機(jī)器人功能各異且任務(wù)定義隱含在隱式運(yùn)動(dòng)軌跡中,異構(gòu)團(tuán)隊(duì)間的模仿迄今仍是一個(gè)未被探索的課題。
研究團(tuán)隊(duì)從認(rèn)知科學(xué)中的“理性模仿”(Rational Imitation)理論獲得了關(guān)鍵啟發(fā)。發(fā)展心理學(xué)研究表明,人類(lèi)學(xué)習(xí)者——甚至嬰幼兒——在模仿他人行為時(shí),會(huì)優(yōu)先再現(xiàn)示教者的推斷目標(biāo)(inferred goals),而非精確復(fù)制其運(yùn)動(dòng)模式。神經(jīng)科學(xué)研究進(jìn)一步支持了這一觀(guān)點(diǎn),證明人類(lèi)在意圖層面(intentional level)而非運(yùn)動(dòng)模仿層面(motor mimicry)理解行為。這一跨學(xué)科洞見(jiàn)構(gòu)成了IAIL框架的理論基石:能否讓機(jī)器人也像人類(lèi)一樣,通過(guò)理解意圖而非復(fù)制動(dòng)作來(lái)實(shí)現(xiàn)跨形態(tài)的學(xué)習(xí)與協(xié)作?
傳統(tǒng)的模仿學(xué)習(xí)(左側(cè))通常局限于示教者與學(xué)習(xí)者擁有相同或相似的身體結(jié)構(gòu),其對(duì)應(yīng)關(guān)系建立在共享的運(yùn)動(dòng)空間或不變的身體組件之上。然而,本研究探索了一種全新的、更具挑戰(zhàn)性的跨體型模仿場(chǎng)景(右側(cè)):即便是形態(tài)迥異的異構(gòu)機(jī)器人團(tuán)隊(duì)(例如無(wú)人機(jī)與無(wú)人船),也能通過(guò)自然語(yǔ)言注釋所編碼的高層意圖在共享嵌入空間中建立語(yǔ)義對(duì)應(yīng)關(guān)系,從而實(shí)現(xiàn)跨運(yùn)動(dòng)模態(tài)、跨工作空間的模仿與協(xié)作。這一范式從根本上改變了模仿學(xué)習(xí)的對(duì)應(yīng)粒度——從底層運(yùn)動(dòng)軌跡的逐步映射,上升到高層任務(wù)意圖的語(yǔ)義對(duì)齊。
?
三、研究?jī)?nèi)容
核心框架:意圖對(duì)齊模仿學(xué)習(xí)(IAIL)
針對(duì)上述挑戰(zhàn),團(tuán)隊(duì)提出了意圖對(duì)齊模仿學(xué)習(xí)(Intention-Aligned Imitation Learning, IAIL)框架。該框架的核心理念在于“超越形式與功能”(Beyond Form and Function):不對(duì)齊運(yùn)動(dòng),對(duì)齊意圖。與近年來(lái)Open X-Embodiment、Octo、OpenVLA、HPT等致力于從大規(guī)模異構(gòu)數(shù)據(jù)中學(xué)習(xí)通用策略或表征的方法不同,IAIL不追求訓(xùn)練跨所有機(jī)器人的單一通用策略,而是為每個(gè)機(jī)器人保留獨(dú)立的運(yùn)動(dòng)生成模型以尊重其物理約束,同時(shí)通過(guò)構(gòu)建跨機(jī)器人的共享意圖空間(Shared Intention Space)實(shí)現(xiàn)異構(gòu)體型間的行為關(guān)聯(lián)與遷移。該空間以人工標(biāo)注的自然語(yǔ)言描述作為語(yǔ)義錨點(diǎn),通過(guò)對(duì)比學(xué)習(xí)將不同形態(tài)機(jī)器人的運(yùn)動(dòng)表征對(duì)齊到統(tǒng)一的語(yǔ)義層面——無(wú)論是無(wú)人機(jī)的飛行軌跡還是機(jī)械臂的抓取動(dòng)作,只要它們背后的任務(wù)目標(biāo)相同,在意圖空間中就會(huì)被編碼為相近的向量表示。這種“模塊化生成+統(tǒng)一意圖空間”的架構(gòu)設(shè)計(jì),使得IAIL既保全了個(gè)體機(jī)器人的本體異質(zhì)性(embodiment heterogeneity),又實(shí)現(xiàn)了跨體型的顯式、靈活的技能遷移——這是當(dāng)前通用表征學(xué)習(xí)方法所不具備的能力。
?
IAIL框架的運(yùn)作流程包含三個(gè)關(guān)鍵階段:
1. 上下文感知的運(yùn)動(dòng)生成(Context-aware Motion Generation, 階段A):該階段負(fù)責(zé)評(píng)估學(xué)習(xí)者機(jī)器人在當(dāng)前情境下的行為能力。具體而言,系統(tǒng)為每個(gè)機(jī)器人訓(xùn)練一個(gè)基于變分自編碼器(Variational Autoencoder, VAE)的狀態(tài)條件生成模型。該模型通過(guò)在各機(jī)器人獨(dú)立采集的專(zhuān)家軌跡數(shù)據(jù)集上離線(xiàn)訓(xùn)練,學(xué)習(xí)在給定狀態(tài)下生成安全、可執(zhí)行的候選動(dòng)作序列。每條候選動(dòng)作代表該機(jī)器人在當(dāng)前環(huán)境約束下可實(shí)現(xiàn)的一種目標(biāo),候選動(dòng)作庫(kù)的多樣性直接反映了機(jī)器人在特定情境中的能力邊界。值得注意的是,各機(jī)器人的生成模型完全獨(dú)立訓(xùn)練,無(wú)需任何跨機(jī)器人的數(shù)據(jù)共享或聯(lián)合優(yōu)化,這極大降低了系統(tǒng)的部署門(mén)檻和擴(kuò)展成本。
2. 運(yùn)動(dòng)意圖提?。?/span>Motion Intention Extraction, 階段B):該階段是框架的核心創(chuàng)新所在。系統(tǒng)為每個(gè)機(jī)器人訓(xùn)練一個(gè)特定的運(yùn)動(dòng)編碼器,同時(shí)訓(xùn)練一個(gè)所有機(jī)器人共享的注釋編碼器,兩者通過(guò)對(duì)比學(xué)習(xí)(Contrastive Learning)目標(biāo)函數(shù)聯(lián)合優(yōu)化。訓(xùn)練數(shù)據(jù)中,每條機(jī)器人軌跡配有3-5條不同抽象層次的自然語(yǔ)言描述(例如,從“拾取白色紙杯”到“拾取杯子”),語(yǔ)言注釋作為語(yǔ)義監(jiān)督信號(hào),通過(guò)最大化正確運(yùn)動(dòng)-注釋對(duì)之間的互信息、最小化錯(cuò)誤配對(duì)間的相似度,驅(qū)動(dòng)具有相同意圖的動(dòng)作——無(wú)論來(lái)自何種形態(tài)的機(jī)器人——在嵌入空間中聚集。例如,“無(wú)人機(jī)飛往監(jiān)測(cè)點(diǎn)”和“輪式機(jī)器人駛向監(jiān)測(cè)點(diǎn)”雖然運(yùn)動(dòng)形式截然不同,但由于共享“前往監(jiān)測(cè)點(diǎn)”的意圖注釋?zhuān)鼈冊(cè)谝鈭D空間中將被映射到相鄰位置。此外,通過(guò)將生成模型采樣的分布外(Out-of-Distribution, OOD)動(dòng)作標(biāo)注為“unknown”并納入訓(xùn)練,系統(tǒng)能夠有效識(shí)別并排除不可靠的候選動(dòng)作,這一機(jī)制對(duì)保障真實(shí)部署中的行為安全性至關(guān)重要。
基于意圖相似度的運(yùn)動(dòng)關(guān)聯(lián)(Motion Association via Intention Similarity, 階段C):在共享意圖空間中,系統(tǒng)計(jì)算示教者動(dòng)作嵌入與學(xué)習(xí)者所有候選動(dòng)作嵌入之間的余弦相似度,選取意圖空間中距離最近的候選動(dòng)作作為執(zhí)行方案。這一機(jī)制確保了所選動(dòng)作同時(shí)滿(mǎn)足兩個(gè)關(guān)鍵約束:物理可執(zhí)行性(來(lái)自階段A的生成保障)和語(yǔ)義一致性(來(lái)自階段B的意圖對(duì)齊)。當(dāng)相似度低于預(yù)設(shè)閾值時(shí),系統(tǒng)判定當(dāng)前機(jī)器人不具備執(zhí)行該示教意圖的能力,機(jī)器人將主動(dòng)保持待機(jī)而非冒險(xiǎn)執(zhí)行可能導(dǎo)致不可預(yù)期后果的動(dòng)作——這一保守策略對(duì)真實(shí)場(chǎng)景中的部署安全至關(guān)重要。在多機(jī)器人團(tuán)隊(duì)場(chǎng)景中,該機(jī)制自然擴(kuò)展為能力感知的任務(wù)分配(Capability-aware Task Allocation):系統(tǒng)跨所有學(xué)習(xí)者機(jī)器人的候選動(dòng)作進(jìn)行全局搜索,將每個(gè)示教步驟分配給意圖距離最近且物理上可行的機(jī)器人執(zhí)行,從而在統(tǒng)一框架內(nèi)同時(shí)解決了跨體型行為遷移和多機(jī)器人任務(wù)分配(MRTA)兩個(gè)耦合問(wèn)題。
?
為了驗(yàn)證意圖空間的內(nèi)部結(jié)構(gòu)與魯棒性,研究團(tuán)隊(duì)在120個(gè)未參與訓(xùn)練的測(cè)試樣本上進(jìn)行了定量分析。通過(guò)計(jì)算潛在嵌入間的余弦距離,評(píng)估了任務(wù)類(lèi)型間的語(yǔ)義分離度和跨體型的一致性。
語(yǔ)義分離方面:全局類(lèi)間余弦距離高達(dá)0.997±0.003,表明不同任務(wù)類(lèi)型的潛在表征近乎正交、高度分離。類(lèi)內(nèi)距離則顯著更低——監(jiān)測(cè)任務(wù)為0.276-0.375,遞送任務(wù)僅為0.023,總體語(yǔ)義分離比率達(dá)到3.764(定義為平均類(lèi)間距離與平均類(lèi)內(nèi)距離之比,該指標(biāo)常用于無(wú)監(jiān)督聚類(lèi)評(píng)估)。值得關(guān)注的是,意圖空間還保留了細(xì)粒度的物品級(jí)語(yǔ)義結(jié)構(gòu):拾取同一物品的類(lèi)內(nèi)距離(如0.11±0.044用于杯類(lèi))遠(yuǎn)小于拾取同類(lèi)不同物品的距離(0.499±0.034),表明系統(tǒng)能夠在粗粒度(任務(wù)類(lèi)型級(jí))和細(xì)粒度(物品實(shí)例級(jí))同時(shí)實(shí)現(xiàn)精確的語(yǔ)義編碼。這一層級(jí)化的語(yǔ)義結(jié)構(gòu)直接支撐了IAIL在"同物品可用"(85%成功率)和"同類(lèi)物品可用"(87%成功率)兩種條件下均保持高適應(yīng)準(zhǔn)確率的能力。
跨體型對(duì)齊方面:定義跨體型對(duì)齊誤差為執(zhí)行同一任務(wù)的不同機(jī)器人嵌入質(zhì)心之間的平均余弦距離,遞送階段的對(duì)齊誤差低至0.030-0.031,意味著不同機(jī)器人執(zhí)行同一遞送任務(wù)時(shí)的潛在編碼幾乎相同??傮w跨體型對(duì)齊比率為3.046,證實(shí)了IAIL的意圖空間具備良好的體型不變性(Embodiment Invariance),為其靈活的角色替換和動(dòng)態(tài)任務(wù)重分配能力提供了堅(jiān)實(shí)的表征基礎(chǔ)。
?
團(tuán)隊(duì)協(xié)作:從個(gè)體到集群
IAIL框架不僅適用于單體間的智能體對(duì)智能體(Agent-to-Agent)模仿,更開(kāi)創(chuàng)性地將跨體型模仿學(xué)習(xí)與多機(jī)器人任務(wù)分配(Multi-Robot Task Allocation, MRTA)在統(tǒng)一框架內(nèi)耦合,支持異構(gòu)機(jī)器人團(tuán)隊(duì)間的團(tuán)隊(duì)對(duì)團(tuán)隊(duì)(Team-to-Team)協(xié)作模仿。在團(tuán)隊(duì)層面,系統(tǒng)需要同時(shí)解決“學(xué)什么”(跨體型行為遷移)和“誰(shuí)來(lái)做”(基于能力的角色分配)兩個(gè)耦合問(wèn)題——而這正是現(xiàn)有跨體型遷移方法和傳統(tǒng)MRTA方法各自無(wú)法獨(dú)立解決的。IAIL通過(guò)共享意圖空間中的全局相似度搜索,將這兩個(gè)問(wèn)題統(tǒng)一求解。
在團(tuán)隊(duì)對(duì)團(tuán)隊(duì)(Team-to-Team)的模仿中,系統(tǒng)會(huì)綜合考量所有機(jī)器人的能力與約束。通過(guò)在共享意圖空間中計(jì)算距離,系統(tǒng)能夠動(dòng)態(tài)地將任務(wù)分配給能力最匹配的成員。例如,將空中監(jiān)測(cè)任務(wù)分配給無(wú)人機(jī)或無(wú)人船,將物品拾取分配給機(jī)械臂,將遞送任務(wù)分配給輪足機(jī)器人,實(shí)現(xiàn)了任務(wù)的自動(dòng)優(yōu)化分配。值得注意的是,當(dāng)團(tuán)隊(duì)成員發(fā)生變化時(shí)(如某臺(tái)機(jī)器人不可用),系統(tǒng)能夠自動(dòng)重新分配角色——例如當(dāng)無(wú)人船Cuboat缺席時(shí),輪足機(jī)器人Diablo會(huì)接替其監(jiān)測(cè)職責(zé),體現(xiàn)了框架對(duì)團(tuán)隊(duì)組成變化的強(qiáng)魯棒性。
?
實(shí)驗(yàn)驗(yàn)證與真實(shí)世界部署
研究團(tuán)隊(duì)搭建了涵蓋無(wú)人機(jī)、無(wú)人船、輪足機(jī)器人、人形機(jī)器人、差速輪式機(jī)器人及單/雙臂機(jī)械手在內(nèi)的7類(lèi)異構(gòu)機(jī)器人集群,在30個(gè)多步協(xié)作場(chǎng)景中對(duì)IAIL框架進(jìn)行了全面驗(yàn)證。值得注意的是,示教團(tuán)隊(duì)與學(xué)習(xí)團(tuán)隊(duì)之間沒(méi)有任何機(jī)器人重疊——學(xué)習(xí)者需要在從未見(jiàn)過(guò)示教者形態(tài)的條件下,僅憑意圖理解來(lái)復(fù)現(xiàn)任務(wù)目標(biāo)。
實(shí)驗(yàn)結(jié)果表明,IAIL在跨異構(gòu)團(tuán)隊(duì)的模仿中取得了92%的任務(wù)成功率和88%的最佳自適應(yīng)率。系統(tǒng)不僅能夠在示教物品可用時(shí)精確復(fù)現(xiàn),也能在僅有同類(lèi)替代品時(shí)做出合理替代,更能在任務(wù)不可行時(shí)正確識(shí)別并主動(dòng)保持待機(jī),避免錯(cuò)誤操作。所有角色分配均嚴(yán)格落在各機(jī)器人的物理能力范圍內(nèi),且角色會(huì)隨團(tuán)隊(duì)組成和環(huán)境配置動(dòng)態(tài)調(diào)整——這種涌現(xiàn)式的智能分配并非硬編碼規(guī)則,而是IAIL基于意圖空間中的能力感知推理自動(dòng)產(chǎn)生的。
除了真機(jī)實(shí)驗(yàn),團(tuán)隊(duì)還進(jìn)行了系統(tǒng)的仿真對(duì)比實(shí)驗(yàn),將IAIL與兩類(lèi)代表性基線(xiàn)范式進(jìn)行對(duì)照。第一類(lèi)是基于密度的映射方法(Density-based Mapping),通過(guò)循環(huán)一致性損失(cycle-consistency loss)對(duì)齊示教者與學(xué)習(xí)者的技能分布,在不依賴(lài)標(biāo)注的前提下實(shí)現(xiàn)無(wú)監(jiān)督跨體型遷移。第二類(lèi)是基于描述的翻譯方法(Description-based Translation),以自然語(yǔ)言作為中間表示實(shí)現(xiàn)語(yǔ)言條件策略學(xué)習(xí)(language-conditioned policy learning),通過(guò)將示教動(dòng)作編碼為文本描述再解碼為學(xué)習(xí)者的執(zhí)行策略。為確保公平比較,兩類(lèi)基線(xiàn)與IAIL使用相同的編碼器/解碼器架構(gòu)和相同的標(biāo)注數(shù)據(jù)集。
從理論分析角度,兩類(lèi)基線(xiàn)方法各有根本性局限:密度方法在示教者與學(xué)習(xí)者的任務(wù)分布存在顯著差異時(shí)會(huì)退化(因其依賴(lài)分布對(duì)齊而非語(yǔ)義理解);描述方法雖具備語(yǔ)義魯棒性,但缺乏對(duì)學(xué)習(xí)者物理能力的顯式建模,當(dāng)學(xué)習(xí)者不具備執(zhí)行示教任務(wù)的能力時(shí),仍會(huì)生成不可行的動(dòng)作。兩者均無(wú)法檢測(cè)任務(wù)不可行場(chǎng)景(即示教任務(wù)超出學(xué)習(xí)者能力范圍時(shí)),可能導(dǎo)致機(jī)器人執(zhí)行錯(cuò)誤甚至危險(xiǎn)的操作。在涉及所有機(jī)器人配對(duì)的500次重復(fù)評(píng)估中(使用三個(gè)隨機(jī)種子),雙側(cè)Welch t檢驗(yàn)證實(shí)IAIL在所有挑戰(zhàn)性配對(duì)中顯著優(yōu)于兩類(lèi)基線(xiàn)(所有p < 0.001)。
?
在目標(biāo)監(jiān)測(cè)任務(wù)仿真中,四種機(jī)器人(Pepper、Drone、Carter、Wheeled Biped)因各自體型約束對(duì)兩個(gè)目標(biāo)有不同的動(dòng)作分布偏好。密度方法在動(dòng)作分布相似的配對(duì)中表現(xiàn)尚可,但在分布差異顯著的8組配對(duì)中性能急劇退化——IAIL相比密度方法的無(wú)權(quán)重平均分差Δ=1.40(95% CI [1.01, 1.79],SD=0.47),效應(yīng)量普遍達(dá)到大效應(yīng)(Cohen's d > 0.8)。描述方法在Pepper-Carter等能力不匹配的4組配對(duì)中同樣失敗,IAIL相比描述方法的平均分差Δ=0.94(95% CI [0.84, 1.04],SD=0.063)。最具診斷價(jià)值的發(fā)現(xiàn)是:在Pepper-Carter配對(duì)中,兩種基線(xiàn)方法的平均得分均為-1(始終執(zhí)行錯(cuò)誤動(dòng)作),而IAIL能夠正確識(shí)別不可行任務(wù)并保持待機(jī)。這一差異的實(shí)際意義在于:在真實(shí)部署中,執(zhí)行錯(cuò)誤動(dòng)作可能導(dǎo)致物理?yè)p壞或安全事故,而IAIL的意圖感知機(jī)制提供了傳統(tǒng)方法不具備的本質(zhì)安全保障。
?
在物品抓取任務(wù)仿真中,三臺(tái)Universal Robots UR5機(jī)械臂具有相同的運(yùn)動(dòng)學(xué)結(jié)構(gòu)但不同的相機(jī)視角,需要從18種物品(分屬5個(gè)語(yǔ)義類(lèi)別)中進(jìn)行跨體選擇。由于更高維度的狀態(tài)-動(dòng)作空間和更精細(xì)的物品語(yǔ)義差異,該任務(wù)的難度顯著高于監(jiān)測(cè)任務(wù)。IAIL在所有9組配對(duì)中均顯著優(yōu)于兩類(lèi)基線(xiàn)(所有p < 0.001):相比密度方法的平均分差Δ=1.11(95% CI [1.08, 1.14],SD=0.04),相比描述方法的平均分差Δ=0.63(95% CI [0.55, 0.70],SD=0.10)。層次化分析表明,描述方法在“同一物品可用”條件下表現(xiàn)尚可,但在“同類(lèi)替代”條件下性能大幅下降——這恰恰反映了其缺乏細(xì)粒度語(yǔ)義編碼能力:它能復(fù)述具體物品名稱(chēng),卻無(wú)法在類(lèi)別層面上進(jìn)行靈活的語(yǔ)義推理。密度方法在兩種條件下均表現(xiàn)最差,因其完全依賴(lài)分布統(tǒng)計(jì)而缺乏任何語(yǔ)義信息。兩種基線(xiàn)方法在不可行場(chǎng)景中均無(wú)法檢測(cè)任務(wù)不可行性,頻繁產(chǎn)生錯(cuò)誤動(dòng)作。綜合來(lái)看,IAIL通過(guò)意圖空間中的多層級(jí)語(yǔ)義編碼,在物品實(shí)例級(jí)和類(lèi)別級(jí)均實(shí)現(xiàn)了準(zhǔn)確的跨體型行為遷移,同時(shí)具備唯一能夠保障任務(wù)不可行場(chǎng)景下行為安全性的能力。
作為框架可擴(kuò)展性的一項(xiàng)重要驗(yàn)證,研究團(tuán)隊(duì)還展示了IAIL與大語(yǔ)言模型(LLMs)的集成潛力。由于IAIL的注釋編碼器與運(yùn)動(dòng)編碼器經(jīng)過(guò)聯(lián)合訓(xùn)練,框架能夠?qū)⒄Z(yǔ)言指令與運(yùn)動(dòng)軌跡同等地投射到意圖空間中。這意味著,當(dāng)使用語(yǔ)言指令替代示教軌跡時(shí),僅需將意圖提取階段的編碼器從運(yùn)動(dòng)編碼器切換至注釋編碼器,即可實(shí)現(xiàn)無(wú)縫的模態(tài)切換——無(wú)需任何額外訓(xùn)練或架構(gòu)調(diào)整。這一特性使得大語(yǔ)言模型可直接作為高層規(guī)劃器為異構(gòu)機(jī)器人團(tuán)隊(duì)生成任務(wù)指令,IAIL則負(fù)責(zé)在意圖空間中找到與指令語(yǔ)義最匹配的可執(zhí)行動(dòng)作。當(dāng)采集人類(lèi)示教軌跡不可行時(shí),LLMs還可自動(dòng)生成語(yǔ)言指令作為替代示教,從根本上降低了異構(gòu)多機(jī)系統(tǒng)的部署門(mén)檻。
?
四、研究結(jié)論
本文提出了一種基于“意圖對(duì)齊”的新范式,通過(guò)構(gòu)建共享意圖嵌入空間,使異構(gòu)機(jī)器人在保留各自物理差異的前提下實(shí)現(xiàn)高層語(yǔ)義協(xié)作,突破了傳統(tǒng)統(tǒng)一模型壓縮多樣本體的局限。
本文將模仿學(xué)習(xí)從動(dòng)作映射提升為意圖對(duì)齊,提升了系統(tǒng)的可擴(kuò)展性與泛化能力,增強(qiáng)了機(jī)器人行為的可讀性與可預(yù)測(cè)性,有助于人機(jī)協(xié)作中的理解與信任建立。IAIL的三階段流程(運(yùn)動(dòng)生成—意圖提取—意圖關(guān)聯(lián))為開(kāi)放環(huán)境中的動(dòng)態(tài)多機(jī)器人協(xié)作提供了通用模板,并支持結(jié)合大語(yǔ)言模型實(shí)現(xiàn)零樣本任務(wù)分配與跨體型泛化。
從系統(tǒng)層面看,本文構(gòu)建了一種去中心化協(xié)同機(jī)制,將意圖空間作為共享“心智模型”,連接集中式基礎(chǔ)模型與分布式多智能體系統(tǒng),為構(gòu)建可擴(kuò)展、可解釋且物理可執(zhí)行的異構(gòu)人機(jī)協(xié)作體系提供了關(guān)鍵方法論基礎(chǔ)。
?
五、作者簡(jiǎn)介
共同第一作者:高源教授
高源,現(xiàn)任香港中文大學(xué)(深圳)理工學(xué)院客座助理教授、深圳市人工智能與機(jī)器人研究院(AIRS)副研究員、國(guó)際合作部項(xiàng)目負(fù)責(zé)人(PI)。主持國(guó)家科技部重大專(zhuān)項(xiàng)子課題及多項(xiàng)省市級(jí)科研項(xiàng)目,并參與瑞典SSF、歐盟Horizon 2020、ANIMATAS等國(guó)際機(jī)器人研究項(xiàng)目。高源博士在機(jī)器人學(xué)習(xí)算法、多機(jī)協(xié)作策略及異構(gòu)多機(jī)系統(tǒng)等領(lǐng)域累計(jì)發(fā)表論文50余篇,主要發(fā)表于Science Robotics、IEEE T-RO、IEEE IoT-J、IEEE T-MECH、ACM IMWUT、ACM CHI、RA-L、NeurIPS、ICRA、IROS等國(guó)際頂尖期刊與會(huì)議。其研究聚焦于城市級(jí)社會(huì)化異構(gòu)多機(jī)器人系統(tǒng)、云-邊-端多模態(tài)大模型驅(qū)動(dòng)的異構(gòu)機(jī)器人集群,以及人機(jī)協(xié)同混合智能,致力于推動(dòng)多機(jī)器人系統(tǒng)、大模型與智能協(xié)同交叉領(lǐng)域的理論創(chuàng)新與工程落地。
?
共同通訊作者:林天麟教授
林天麟,香港中文大學(xué)(深圳)副教授、深圳河套學(xué)院雙聘教授,擔(dān)任機(jī)器人與智能制造國(guó)家地方聯(lián)合工程實(shí)驗(yàn)室常務(wù)副主任、IEEE機(jī)器人與自動(dòng)化學(xué)會(huì)廣州分會(huì)副主席。林教授長(zhǎng)期從事模塊化機(jī)器人、多機(jī)器人系統(tǒng)及特種機(jī)器人的研究工作,在機(jī)器人與人工智能領(lǐng)域期刊及會(huì)議發(fā)表論文100余篇,包括Science Robotics 2篇、IJRR 3篇、TRO 8篇、TPAMI 2篇;獲熊有倫智湖優(yōu)秀青年學(xué)者獎(jiǎng)、TMECH年度最佳論文獎(jiǎng)、IROS機(jī)器人機(jī)構(gòu)設(shè)計(jì)最佳論文獎(jiǎng)、ICRA最佳論文提名獎(jiǎng),入選全球前2%頂尖科學(xué)家。研究成果被中央電視臺(tái)、路透社、福布斯、IEEE Spectrum等國(guó)內(nèi)外媒體報(bào)導(dǎo)。林教授擔(dān)任TRO、TMECH、TASE、JFR等期刊編委。
?
?
供稿|論文作者團(tuán)隊(duì)
?
