新澳博百家乐官网娱乐城,金博士娱乐城最新地址,足球赛事直播视频

近日，香港中文大學(xué)（深圳）理工學(xué)院高源教授、林天麟教授聯(lián)合北京通用人工智能研究院、華盛頓大學(xué)圣路易斯分校，在國(guó)際期刊Science Robotics發(fā)表題為“Cross-Robot Behavior Adaptation through Intention Alignment”的研究論文。

論文鏈接：science.org/doi/10.1126/scirobotics.adv2250?

一、期刊介紹

Science Robotics是美國(guó)科學(xué)促進(jìn)會(huì)（AAAS）旗下Science系列的重要子刊，也是Science系列子刊中唯一聚焦機(jī)器人學(xué)領(lǐng)域的頂級(jí)學(xué)術(shù)期刊。該期刊最新影響因子高達(dá)26.1，長(zhǎng)期位居機(jī)器人學(xué)領(lǐng)域全球第一梯隊(duì)，致力于發(fā)表機(jī)器人領(lǐng)域具有重大原創(chuàng)性和變革性的研究成果，涵蓋從基礎(chǔ)科學(xué)到工程應(yīng)用的廣泛議題。由于極高的學(xué)術(shù)標(biāo)準(zhǔn)與極低的錄用率，在Science Robotics發(fā)表論文意味著研究成果獲得了國(guó)際頂級(jí)同行評(píng)審專(zhuān)家的高度認(rèn)可，被視為該領(lǐng)域的重要里程碑。

二、研究背景

在機(jī)器人技術(shù)日益普及的今天，從工業(yè)產(chǎn)線(xiàn)的柔性制造到災(zāi)后救援的多機(jī)協(xié)同，再到太空探索中的異構(gòu)編隊(duì)作業(yè)，越來(lái)越多的現(xiàn)實(shí)場(chǎng)景需要形態(tài)各異的機(jī)器人協(xié)同工作。然而，如何讓異構(gòu)機(jī)器人（Cross-embodiment）——例如天上飛的無(wú)人機(jī)、水里游的無(wú)人船、地面跑的輪式機(jī)器人和桌上操作的機(jī)械臂——能夠相互“理解”并協(xié)作完成任務(wù)，一直是機(jī)器人學(xué)領(lǐng)域的重大開(kāi)放問(wèn)題。

模仿學(xué)習(xí)（Imitation Learning，IL）是機(jī)器人技能獲取的核心范式，使機(jī)器人能夠通過(guò)觀(guān)察專(zhuān)家演示高效習(xí)得新技能。然而，現(xiàn)有方法多假設(shè)示教者與學(xué)習(xí)者具有相同或相似的物理構(gòu)型，依賴(lài)兩者間的直接運(yùn)動(dòng)映射。當(dāng)二者在自由度、運(yùn)動(dòng)模態(tài)或傳感器配置上存在根本差異時(shí)，這種映射即告失效。為應(yīng)對(duì)中等程度的形態(tài)差異，已有研究嘗試采用不變特征映射、狀態(tài)轉(zhuǎn)移對(duì)齊或域混淆（domain confusion approaches）等方法。然而，當(dāng)運(yùn)動(dòng)模態(tài)根本不同時(shí)（如地面車(chē)輛與飛行器），上述策略均難以奏效。近年來(lái)，基于任務(wù)結(jié)果的對(duì)應(yīng)學(xué)習(xí)雖取得進(jìn)展，但需為每對(duì)示教-學(xué)習(xí)者手動(dòng)標(biāo)注配對(duì)軌跡，嚴(yán)重制約了其可擴(kuò)展性。無(wú)監(jiān)督對(duì)應(yīng)學(xué)習(xí)雖免除了標(biāo)注負(fù)擔(dān)，卻仍要求機(jī)器人具備相同的功能集合。能夠同時(shí)適應(yīng)多樣化環(huán)境并泛化至異構(gòu)機(jī)器人形態(tài)的高效方法，仍是該領(lǐng)域亟待填補(bǔ)的空白。

此外，從單體模仿學(xué)習(xí)擴(kuò)展到團(tuán)隊(duì)層面，引入了一個(gè)全新的“團(tuán)隊(duì)對(duì)團(tuán)隊(duì)”模仿范式（Team-to-Team Imitation）。當(dāng)示教團(tuán)隊(duì)與學(xué)習(xí)團(tuán)隊(duì)在團(tuán)隊(duì)規(guī)模、機(jī)器人類(lèi)型和個(gè)體能力上存在異質(zhì)性時(shí)，系統(tǒng)需要同時(shí)解決兩個(gè)耦合難題：為學(xué)習(xí)團(tuán)隊(duì)生成可行的運(yùn)動(dòng)方案，以及基于個(gè)體能力進(jìn)行合理的多機(jī)器人任務(wù)分配（Multi-Robot Task Allocation, MRTA）。由于異構(gòu)機(jī)器人功能各異且任務(wù)定義隱含在隱式運(yùn)動(dòng)軌跡中，異構(gòu)團(tuán)隊(duì)間的模仿迄今仍是一個(gè)未被探索的課題。

研究團(tuán)隊(duì)從認(rèn)知科學(xué)中的“理性模仿”（Rational Imitation）理論獲得了關(guān)鍵啟發(fā)。發(fā)展心理學(xué)研究表明，人類(lèi)學(xué)習(xí)者——甚至嬰幼兒——在模仿他人行為時(shí)，會(huì)優(yōu)先再現(xiàn)示教者的推斷目標(biāo)（inferred goals），而非精確復(fù)制其運(yùn)動(dòng)模式。神經(jīng)科學(xué)研究進(jìn)一步支持了這一觀(guān)點(diǎn)，證明人類(lèi)在意圖層面（intentional level）而非運(yùn)動(dòng)模仿層面（motor mimicry）理解行為。這一跨學(xué)科洞見(jiàn)構(gòu)成了IAIL框架的理論基石：能否讓機(jī)器人也像人類(lèi)一樣，通過(guò)理解意圖而非復(fù)制動(dòng)作來(lái)實(shí)現(xiàn)跨形態(tài)的學(xué)習(xí)與協(xié)作？

傳統(tǒng)的模仿學(xué)習(xí)（左側(cè)）通常局限于示教者與學(xué)習(xí)者擁有相同或相似的身體結(jié)構(gòu)，其對(duì)應(yīng)關(guān)系建立在共享的運(yùn)動(dòng)空間或不變的身體組件之上。然而，本研究探索了一種全新的、更具挑戰(zhàn)性的跨體型模仿場(chǎng)景（右側(cè)）：即便是形態(tài)迥異的異構(gòu)機(jī)器人團(tuán)隊(duì)（例如無(wú)人機(jī)與無(wú)人船），也能通過(guò)自然語(yǔ)言注釋所編碼的高層意圖在共享嵌入空間中建立語(yǔ)義對(duì)應(yīng)關(guān)系，從而實(shí)現(xiàn)跨運(yùn)動(dòng)模態(tài)、跨工作空間的模仿與協(xié)作。這一范式從根本上改變了模仿學(xué)習(xí)的對(duì)應(yīng)粒度——從底層運(yùn)動(dòng)軌跡的逐步映射，上升到高層任務(wù)意圖的語(yǔ)義對(duì)齊。

三、研究?jī)?nèi)容

核心框架：意圖對(duì)齊模仿學(xué)習(xí)（IAIL）

針對(duì)上述挑戰(zhàn)，團(tuán)隊(duì)提出了意圖對(duì)齊模仿學(xué)習(xí)（Intention-Aligned Imitation Learning, IAIL）框架。該框架的核心理念在于“超越形式與功能”（Beyond Form and Function）：不對(duì)齊運(yùn)動(dòng)，對(duì)齊意圖。與近年來(lái)Open X-Embodiment、Octo、OpenVLA、HPT等致力于從大規(guī)模異構(gòu)數(shù)據(jù)中學(xué)習(xí)通用策略或表征的方法不同，IAIL不追求訓(xùn)練跨所有機(jī)器人的單一通用策略，而是為每個(gè)機(jī)器人保留獨(dú)立的運(yùn)動(dòng)生成模型以尊重其物理約束，同時(shí)通過(guò)構(gòu)建跨機(jī)器人的共享意圖空間（Shared Intention Space）實(shí)現(xiàn)異構(gòu)體型間的行為關(guān)聯(lián)與遷移。該空間以人工標(biāo)注的自然語(yǔ)言描述作為語(yǔ)義錨點(diǎn)，通過(guò)對(duì)比學(xué)習(xí)將不同形態(tài)機(jī)器人的運(yùn)動(dòng)表征對(duì)齊到統(tǒng)一的語(yǔ)義層面——無(wú)論是無(wú)人機(jī)的飛行軌跡還是機(jī)械臂的抓取動(dòng)作，只要它們背后的任務(wù)目標(biāo)相同，在意圖空間中就會(huì)被編碼為相近的向量表示。這種“模塊化生成+統(tǒng)一意圖空間”的架構(gòu)設(shè)計(jì)，使得IAIL既保全了個(gè)體機(jī)器人的本體異質(zhì)性（embodiment heterogeneity），又實(shí)現(xiàn)了跨體型的顯式、靈活的技能遷移——這是當(dāng)前通用表征學(xué)習(xí)方法所不具備的能力。

IAIL框架的運(yùn)作流程包含三個(gè)關(guān)鍵階段：

1. 上下文感知的運(yùn)動(dòng)生成（Context-aware Motion Generation, 階段A）：該階段負(fù)責(zé)評(píng)估學(xué)習(xí)者機(jī)器人在當(dāng)前情境下的行為能力。具體而言，系統(tǒng)為每個(gè)機(jī)器人訓(xùn)練一個(gè)基于變分自編碼器（Variational Autoencoder, VAE）的狀態(tài)條件生成模型。該模型通過(guò)在各機(jī)器人獨(dú)立采集的專(zhuān)家軌跡數(shù)據(jù)集上離線(xiàn)訓(xùn)練，學(xué)習(xí)在給定狀態(tài)下生成安全、可執(zhí)行的候選動(dòng)作序列。每條候選動(dòng)作代表該機(jī)器人在當(dāng)前環(huán)境約束下可實(shí)現(xiàn)的一種目標(biāo)，候選動(dòng)作庫(kù)的多樣性直接反映了機(jī)器人在特定情境中的能力邊界。值得注意的是，各機(jī)器人的生成模型完全獨(dú)立訓(xùn)練，無(wú)需任何跨機(jī)器人的數(shù)據(jù)共享或聯(lián)合優(yōu)化，這極大降低了系統(tǒng)的部署門(mén)檻和擴(kuò)展成本。

2. 運(yùn)動(dòng)意圖提?。?/span>Motion Intention Extraction, 階段B）：該階段是框架的核心創(chuàng)新所在。系統(tǒng)為每個(gè)機(jī)器人訓(xùn)練一個(gè)特定的運(yùn)動(dòng)編碼器，同時(shí)訓(xùn)練一個(gè)所有機(jī)器人共享的注釋編碼器，兩者通過(guò)對(duì)比學(xué)習(xí)（Contrastive Learning）目標(biāo)函數(shù)聯(lián)合優(yōu)化。訓(xùn)練數(shù)據(jù)中，每條機(jī)器人軌跡配有3-5條不同抽象層次的自然語(yǔ)言描述（例如，從“拾取白色紙杯”到“拾取杯子”），語(yǔ)言注釋作為語(yǔ)義監(jiān)督信號(hào)，通過(guò)最大化正確運(yùn)動(dòng)-注釋對(duì)之間的互信息、最小化錯(cuò)誤配對(duì)間的相似度，驅(qū)動(dòng)具有相同意圖的動(dòng)作——無(wú)論來(lái)自何種形態(tài)的機(jī)器人——在嵌入空間中聚集。例如，“無(wú)人機(jī)飛往監(jiān)測(cè)點(diǎn)”和“輪式機(jī)器人駛向監(jiān)測(cè)點(diǎn)”雖然運(yùn)動(dòng)形式截然不同，但由于共享“前往監(jiān)測(cè)點(diǎn)”的意圖注釋?zhuān)鼈冊(cè)谝鈭D空間中將被映射到相鄰位置。此外，通過(guò)將生成模型采樣的分布外（Out-of-Distribution, OOD）動(dòng)作標(biāo)注為“unknown”并納入訓(xùn)練，系統(tǒng)能夠有效識(shí)別并排除不可靠的候選動(dòng)作，這一機(jī)制對(duì)保障真實(shí)部署中的行為安全性至關(guān)重要。

基于意圖相似度的運(yùn)動(dòng)關(guān)聯(lián)（Motion Association via Intention Similarity, 階段C）：在共享意圖空間中，系統(tǒng)計(jì)算示教者動(dòng)作嵌入與學(xué)習(xí)者所有候選動(dòng)作嵌入之間的余弦相似度，選取意圖空間中距離最近的候選動(dòng)作作為執(zhí)行方案。這一機(jī)制確保了所選動(dòng)作同時(shí)滿(mǎn)足兩個(gè)關(guān)鍵約束：物理可執(zhí)行性（來(lái)自階段A的生成保障）和語(yǔ)義一致性（來(lái)自階段B的意圖對(duì)齊）。當(dāng)相似度低于預(yù)設(shè)閾值時(shí)，系統(tǒng)判定當(dāng)前機(jī)器人不具備執(zhí)行該示教意圖的能力，機(jī)器人將主動(dòng)保持待機(jī)而非冒險(xiǎn)執(zhí)行可能導(dǎo)致不可預(yù)期后果的動(dòng)作——這一保守策略對(duì)真實(shí)場(chǎng)景中的部署安全至關(guān)重要。在多機(jī)器人團(tuán)隊(duì)場(chǎng)景中，該機(jī)制自然擴(kuò)展為能力感知的任務(wù)分配（Capability-aware Task Allocation）：系統(tǒng)跨所有學(xué)習(xí)者機(jī)器人的候選動(dòng)作進(jìn)行全局搜索，將每個(gè)示教步驟分配給意圖距離最近且物理上可行的機(jī)器人執(zhí)行，從而在統(tǒng)一框架內(nèi)同時(shí)解決了跨體型行為遷移和多機(jī)器人任務(wù)分配（MRTA）兩個(gè)耦合問(wèn)題。

為了驗(yàn)證意圖空間的內(nèi)部結(jié)構(gòu)與魯棒性，研究團(tuán)隊(duì)在120個(gè)未參與訓(xùn)練的測(cè)試樣本上進(jìn)行了定量分析。通過(guò)計(jì)算潛在嵌入間的余弦距離，評(píng)估了任務(wù)類(lèi)型間的語(yǔ)義分離度和跨體型的一致性。

語(yǔ)義分離方面：全局類(lèi)間余弦距離高達(dá)0.997±0.003，表明不同任務(wù)類(lèi)型的潛在表征近乎正交、高度分離。類(lèi)內(nèi)距離則顯著更低——監(jiān)測(cè)任務(wù)為0.276-0.375，遞送任務(wù)僅為0.023，總體語(yǔ)義分離比率達(dá)到3.764（定義為平均類(lèi)間距離與平均類(lèi)內(nèi)距離之比，該指標(biāo)常用于無(wú)監(jiān)督聚類(lèi)評(píng)估）。值得關(guān)注的是，意圖空間還保留了細(xì)粒度的物品級(jí)語(yǔ)義結(jié)構(gòu)：拾取同一物品的類(lèi)內(nèi)距離（如0.11±0.044用于杯類(lèi)）遠(yuǎn)小于拾取同類(lèi)不同物品的距離（0.499±0.034），表明系統(tǒng)能夠在粗粒度（任務(wù)類(lèi)型級(jí)）和細(xì)粒度（物品實(shí)例級(jí)）同時(shí)實(shí)現(xiàn)精確的語(yǔ)義編碼。這一層級(jí)化的語(yǔ)義結(jié)構(gòu)直接支撐了IAIL在"同物品可用"（85%成功率）和"同類(lèi)物品可用"（87%成功率）兩種條件下均保持高適應(yīng)準(zhǔn)確率的能力。

跨體型對(duì)齊方面：定義跨體型對(duì)齊誤差為執(zhí)行同一任務(wù)的不同機(jī)器人嵌入質(zhì)心之間的平均余弦距離，遞送階段的對(duì)齊誤差低至0.030-0.031，意味著不同機(jī)器人執(zhí)行同一遞送任務(wù)時(shí)的潛在編碼幾乎相同?？傮w跨體型對(duì)齊比率為3.046，證實(shí)了IAIL的意圖空間具備良好的體型不變性（Embodiment Invariance），為其靈活的角色替換和動(dòng)態(tài)任務(wù)重分配能力提供了堅(jiān)實(shí)的表征基礎(chǔ)。

團(tuán)隊(duì)協(xié)作：從個(gè)體到集群

IAIL框架不僅適用于單體間的智能體對(duì)智能體（Agent-to-Agent）模仿，更開(kāi)創(chuàng)性地將跨體型模仿學(xué)習(xí)與多機(jī)器人任務(wù)分配（Multi-Robot Task Allocation, MRTA）在統(tǒng)一框架內(nèi)耦合，支持異構(gòu)機(jī)器人團(tuán)隊(duì)間的團(tuán)隊(duì)對(duì)團(tuán)隊(duì)（Team-to-Team）協(xié)作模仿。在團(tuán)隊(duì)層面，系統(tǒng)需要同時(shí)解決“學(xué)什么”（跨體型行為遷移）和“誰(shuí)來(lái)做”（基于能力的角色分配）兩個(gè)耦合問(wèn)題——而這正是現(xiàn)有跨體型遷移方法和傳統(tǒng)MRTA方法各自無(wú)法獨(dú)立解決的。IAIL通過(guò)共享意圖空間中的全局相似度搜索，將這兩個(gè)問(wèn)題統(tǒng)一求解。

在團(tuán)隊(duì)對(duì)團(tuán)隊(duì)（Team-to-Team）的模仿中，系統(tǒng)會(huì)綜合考量所有機(jī)器人的能力與約束。通過(guò)在共享意圖空間中計(jì)算距離，系統(tǒng)能夠動(dòng)態(tài)地將任務(wù)分配給能力最匹配的成員。例如，將空中監(jiān)測(cè)任務(wù)分配給無(wú)人機(jī)或無(wú)人船，將物品拾取分配給機(jī)械臂，將遞送任務(wù)分配給輪足機(jī)器人，實(shí)現(xiàn)了任務(wù)的自動(dòng)優(yōu)化分配。值得注意的是，當(dāng)團(tuán)隊(duì)成員發(fā)生變化時(shí)（如某臺(tái)機(jī)器人不可用），系統(tǒng)能夠自動(dòng)重新分配角色——例如當(dāng)無(wú)人船Cuboat缺席時(shí)，輪足機(jī)器人Diablo會(huì)接替其監(jiān)測(cè)職責(zé)，體現(xiàn)了框架對(duì)團(tuán)隊(duì)組成變化的強(qiáng)魯棒性。

實(shí)驗(yàn)驗(yàn)證與真實(shí)世界部署

研究團(tuán)隊(duì)搭建了涵蓋無(wú)人機(jī)、無(wú)人船、輪足機(jī)器人、人形機(jī)器人、差速輪式機(jī)器人及單/雙臂機(jī)械手在內(nèi)的7類(lèi)異構(gòu)機(jī)器人集群，在30個(gè)多步協(xié)作場(chǎng)景中對(duì)IAIL框架進(jìn)行了全面驗(yàn)證。值得注意的是，示教團(tuán)隊(duì)與學(xué)習(xí)團(tuán)隊(duì)之間沒(méi)有任何機(jī)器人重疊——學(xué)習(xí)者需要在從未見(jiàn)過(guò)示教者形態(tài)的條件下，僅憑意圖理解來(lái)復(fù)現(xiàn)任務(wù)目標(biāo)。

實(shí)驗(yàn)結(jié)果表明，IAIL在跨異構(gòu)團(tuán)隊(duì)的模仿中取得了92%的任務(wù)成功率和88%的最佳自適應(yīng)率。系統(tǒng)不僅能夠在示教物品可用時(shí)精確復(fù)現(xiàn)，也能在僅有同類(lèi)替代品時(shí)做出合理替代，更能在任務(wù)不可行時(shí)正確識(shí)別并主動(dòng)保持待機(jī)，避免錯(cuò)誤操作。所有角色分配均嚴(yán)格落在各機(jī)器人的物理能力范圍內(nèi)，且角色會(huì)隨團(tuán)隊(duì)組成和環(huán)境配置動(dòng)態(tài)調(diào)整——這種涌現(xiàn)式的智能分配并非硬編碼規(guī)則，而是IAIL基于意圖空間中的能力感知推理自動(dòng)產(chǎn)生的。

除了真機(jī)實(shí)驗(yàn)，團(tuán)隊(duì)還進(jìn)行了系統(tǒng)的仿真對(duì)比實(shí)驗(yàn)，將IAIL與兩類(lèi)代表性基線(xiàn)范式進(jìn)行對(duì)照。第一類(lèi)是基于密度的映射方法（Density-based Mapping），通過(guò)循環(huán)一致性損失（cycle-consistency loss）對(duì)齊示教者與學(xué)習(xí)者的技能分布，在不依賴(lài)標(biāo)注的前提下實(shí)現(xiàn)無(wú)監(jiān)督跨體型遷移。第二類(lèi)是基于描述的翻譯方法（Description-based Translation），以自然語(yǔ)言作為中間表示實(shí)現(xiàn)語(yǔ)言條件策略學(xué)習(xí)（language-conditioned policy learning），通過(guò)將示教動(dòng)作編碼為文本描述再解碼為學(xué)習(xí)者的執(zhí)行策略。為確保公平比較，兩類(lèi)基線(xiàn)與IAIL使用相同的編碼器/解碼器架構(gòu)和相同的標(biāo)注數(shù)據(jù)集。

從理論分析角度，兩類(lèi)基線(xiàn)方法各有根本性局限：密度方法在示教者與學(xué)習(xí)者的任務(wù)分布存在顯著差異時(shí)會(huì)退化（因其依賴(lài)分布對(duì)齊而非語(yǔ)義理解）；描述方法雖具備語(yǔ)義魯棒性，但缺乏對(duì)學(xué)習(xí)者物理能力的顯式建模，當(dāng)學(xué)習(xí)者不具備執(zhí)行示教任務(wù)的能力時(shí)，仍會(huì)生成不可行的動(dòng)作。兩者均無(wú)法檢測(cè)任務(wù)不可行場(chǎng)景（即示教任務(wù)超出學(xué)習(xí)者能力范圍時(shí)），可能導(dǎo)致機(jī)器人執(zhí)行錯(cuò)誤甚至危險(xiǎn)的操作。在涉及所有機(jī)器人配對(duì)的500次重復(fù)評(píng)估中（使用三個(gè)隨機(jī)種子），雙側(cè)Welch t檢驗(yàn)證實(shí)IAIL在所有挑戰(zhàn)性配對(duì)中顯著優(yōu)于兩類(lèi)基線(xiàn)（所有p < 0.001）。

在目標(biāo)監(jiān)測(cè)任務(wù)仿真中，四種機(jī)器人（Pepper、Drone、Carter、Wheeled Biped）因各自體型約束對(duì)兩個(gè)目標(biāo)有不同的動(dòng)作分布偏好。密度方法在動(dòng)作分布相似的配對(duì)中表現(xiàn)尚可，但在分布差異顯著的8組配對(duì)中性能急劇退化——IAIL相比密度方法的無(wú)權(quán)重平均分差Δ=1.40（95% CI [1.01, 1.79]，SD=0.47），效應(yīng)量普遍達(dá)到大效應(yīng)（Cohen's d > 0.8）。描述方法在Pepper-Carter等能力不匹配的4組配對(duì)中同樣失敗，IAIL相比描述方法的平均分差Δ=0.94（95% CI [0.84, 1.04]，SD=0.063）。最具診斷價(jià)值的發(fā)現(xiàn)是：在Pepper-Carter配對(duì)中，兩種基線(xiàn)方法的平均得分均為-1（始終執(zhí)行錯(cuò)誤動(dòng)作），而IAIL能夠正確識(shí)別不可行任務(wù)并保持待機(jī)。這一差異的實(shí)際意義在于：在真實(shí)部署中，執(zhí)行錯(cuò)誤動(dòng)作可能導(dǎo)致物理?yè)p壞或安全事故，而IAIL的意圖感知機(jī)制提供了傳統(tǒng)方法不具備的本質(zhì)安全保障。

在物品抓取任務(wù)仿真中，三臺(tái)Universal Robots UR5機(jī)械臂具有相同的運(yùn)動(dòng)學(xué)結(jié)構(gòu)但不同的相機(jī)視角，需要從18種物品（分屬5個(gè)語(yǔ)義類(lèi)別）中進(jìn)行跨體選擇。由于更高維度的狀態(tài)-動(dòng)作空間和更精細(xì)的物品語(yǔ)義差異，該任務(wù)的難度顯著高于監(jiān)測(cè)任務(wù)。IAIL在所有9組配對(duì)中均顯著優(yōu)于兩類(lèi)基線(xiàn)（所有p < 0.001）：相比密度方法的平均分差Δ=1.11（95% CI [1.08, 1.14]，SD=0.04），相比描述方法的平均分差Δ=0.63（95% CI [0.55, 0.70]，SD=0.10）。層次化分析表明，描述方法在“同一物品可用”條件下表現(xiàn)尚可，但在“同類(lèi)替代”條件下性能大幅下降——這恰恰反映了其缺乏細(xì)粒度語(yǔ)義編碼能力：它能復(fù)述具體物品名稱(chēng)，卻無(wú)法在類(lèi)別層面上進(jìn)行靈活的語(yǔ)義推理。密度方法在兩種條件下均表現(xiàn)最差，因其完全依賴(lài)分布統(tǒng)計(jì)而缺乏任何語(yǔ)義信息。兩種基線(xiàn)方法在不可行場(chǎng)景中均無(wú)法檢測(cè)任務(wù)不可行性，頻繁產(chǎn)生錯(cuò)誤動(dòng)作。綜合來(lái)看，IAIL通過(guò)意圖空間中的多層級(jí)語(yǔ)義編碼，在物品實(shí)例級(jí)和類(lèi)別級(jí)均實(shí)現(xiàn)了準(zhǔn)確的跨體型行為遷移，同時(shí)具備唯一能夠保障任務(wù)不可行場(chǎng)景下行為安全性的能力。

作為框架可擴(kuò)展性的一項(xiàng)重要驗(yàn)證，研究團(tuán)隊(duì)還展示了IAIL與大語(yǔ)言模型（LLMs）的集成潛力。由于IAIL的注釋編碼器與運(yùn)動(dòng)編碼器經(jīng)過(guò)聯(lián)合訓(xùn)練，框架能夠?qū)⒄Z(yǔ)言指令與運(yùn)動(dòng)軌跡同等地投射到意圖空間中。這意味著，當(dāng)使用語(yǔ)言指令替代示教軌跡時(shí)，僅需將意圖提取階段的編碼器從運(yùn)動(dòng)編碼器切換至注釋編碼器，即可實(shí)現(xiàn)無(wú)縫的模態(tài)切換——無(wú)需任何額外訓(xùn)練或架構(gòu)調(diào)整。這一特性使得大語(yǔ)言模型可直接作為高層規(guī)劃器為異構(gòu)機(jī)器人團(tuán)隊(duì)生成任務(wù)指令，IAIL則負(fù)責(zé)在意圖空間中找到與指令語(yǔ)義最匹配的可執(zhí)行動(dòng)作。當(dāng)采集人類(lèi)示教軌跡不可行時(shí)，LLMs還可自動(dòng)生成語(yǔ)言指令作為替代示教，從根本上降低了異構(gòu)多機(jī)系統(tǒng)的部署門(mén)檻。

四、研究結(jié)論

本文提出了一種基于“意圖對(duì)齊”的新范式，通過(guò)構(gòu)建共享意圖嵌入空間，使異構(gòu)機(jī)器人在保留各自物理差異的前提下實(shí)現(xiàn)高層語(yǔ)義協(xié)作，突破了傳統(tǒng)統(tǒng)一模型壓縮多樣本體的局限。

本文將模仿學(xué)習(xí)從動(dòng)作映射提升為意圖對(duì)齊，提升了系統(tǒng)的可擴(kuò)展性與泛化能力，增強(qiáng)了機(jī)器人行為的可讀性與可預(yù)測(cè)性，有助于人機(jī)協(xié)作中的理解與信任建立。IAIL的三階段流程（運(yùn)動(dòng)生成—意圖提取—意圖關(guān)聯(lián)）為開(kāi)放環(huán)境中的動(dòng)態(tài)多機(jī)器人協(xié)作提供了通用模板，并支持結(jié)合大語(yǔ)言模型實(shí)現(xiàn)零樣本任務(wù)分配與跨體型泛化。

從系統(tǒng)層面看，本文構(gòu)建了一種去中心化協(xié)同機(jī)制，將意圖空間作為共享“心智模型”，連接集中式基礎(chǔ)模型與分布式多智能體系統(tǒng)，為構(gòu)建可擴(kuò)展、可解釋且物理可執(zhí)行的異構(gòu)人機(jī)協(xié)作體系提供了關(guān)鍵方法論基礎(chǔ)。

五、作者簡(jiǎn)介

共同第一作者：高源教授

高源，現(xiàn)任香港中文大學(xué)（深圳）理工學(xué)院客座助理教授、深圳市人工智能與機(jī)器人研究院（AIRS）副研究員、國(guó)際合作部項(xiàng)目負(fù)責(zé)人（PI）。主持國(guó)家科技部重大專(zhuān)項(xiàng)子課題及多項(xiàng)省市級(jí)科研項(xiàng)目，并參與瑞典SSF、歐盟Horizon 2020、ANIMATAS等國(guó)際機(jī)器人研究項(xiàng)目。高源博士在機(jī)器人學(xué)習(xí)算法、多機(jī)協(xié)作策略及異構(gòu)多機(jī)系統(tǒng)等領(lǐng)域累計(jì)發(fā)表論文50余篇，主要發(fā)表于Science Robotics、IEEE T-RO、IEEE IoT-J、IEEE T-MECH、ACM IMWUT、ACM CHI、RA-L、NeurIPS、ICRA、IROS等國(guó)際頂尖期刊與會(huì)議。其研究聚焦于城市級(jí)社會(huì)化異構(gòu)多機(jī)器人系統(tǒng)、云-邊-端多模態(tài)大模型驅(qū)動(dòng)的異構(gòu)機(jī)器人集群，以及人機(jī)協(xié)同混合智能，致力于推動(dòng)多機(jī)器人系統(tǒng)、大模型與智能協(xié)同交叉領(lǐng)域的理論創(chuàng)新與工程落地。

共同通訊作者：林天麟教授

林天麟，香港中文大學(xué)（深圳）副教授、深圳河套學(xué)院雙聘教授，擔(dān)任機(jī)器人與智能制造國(guó)家地方聯(lián)合工程實(shí)驗(yàn)室常務(wù)副主任、IEEE機(jī)器人與自動(dòng)化學(xué)會(huì)廣州分會(huì)副主席。林教授長(zhǎng)期從事模塊化機(jī)器人、多機(jī)器人系統(tǒng)及特種機(jī)器人的研究工作，在機(jī)器人與人工智能領(lǐng)域期刊及會(huì)議發(fā)表論文100余篇，包括Science Robotics 2篇、IJRR 3篇、TRO 8篇、TPAMI 2篇；獲熊有倫智湖優(yōu)秀青年學(xué)者獎(jiǎng)、TMECH年度最佳論文獎(jiǎng)、IROS機(jī)器人機(jī)構(gòu)設(shè)計(jì)最佳論文獎(jiǎng)、ICRA最佳論文提名獎(jiǎng)，入選全球前2%頂尖科學(xué)家。研究成果被中央電視臺(tái)、路透社、福布斯、IEEE Spectrum等國(guó)內(nèi)外媒體報(bào)導(dǎo)。林教授擔(dān)任TRO、TMECH、TASE、JFR等期刊編委。

供稿｜論文作者團(tuán)隊(duì)

财神真人娱乐城-大发888中期-金龙全讯官网首页下载安装视频大全最新版

關(guān)于我們

校園資訊

教學(xué)

書(shū)院

科研

招生

就業(yè)

校園生活

關(guān)于我們

校園資訊

教學(xué)

書(shū)院

科研

招生

就業(yè)

校園生活

理工學(xué)院高源教授、林天麟教授在Science Robotics發(fā)表論文

相關(guān)推薦

理工學(xué)院林天麟教授團(tuán)隊(duì)在Science Robotics發(fā)表論文

财神真人娱乐城-大发888中期-金龙全讯官网首页下载安装视频大全最新版

關(guān)于我們

校園資訊

教學(xué)

書(shū)院

科研

招生

就業(yè)

校園生活

關(guān)于我們

校園資訊

教學(xué)

書(shū)院

科研

招生

就業(yè)

校園生活

理工學(xué)院高源教授、林天麟教授在Science Robotics發(fā)表論文

相關(guān)推薦

理工學(xué)院林天麟教授團(tuán)隊(duì)在Science Robotics發(fā)表論文

理工學(xué)院高源教授、林天麟教授在Science Robotics發(fā)表論文