H-RDT: Human Manipulation Enhanced Bimanual Robotic Manipulation
https://arxiv.org/abs/2507.23523
https://embodiedfoundation.github.io/hrdt
H-RDT 架構(gòu)
H-RDT是一個(gè)具有20億參數(shù)的擴(kuò)散Transformer,使用流匹配來(lái)建模雙臂機(jī)器人的復(fù)雜動(dòng)作分布。H-RDT采用兩階段訓(xùn)練范式:1)在大規(guī)模第一人稱(chēng)人類(lèi)數(shù)據(jù)上預(yù)訓(xùn)練;2)通過(guò)模塊化動(dòng)作編解碼器在機(jī)器人數(shù)據(jù)上進(jìn)行微調(diào),實(shí)現(xiàn)跨本體遷移。
人類(lèi)動(dòng)作表征設(shè)計(jì)
我們采用較為精細(xì)的3D手部姿態(tài)表示方法,將動(dòng)作編碼為緊湊的48維向量,以捕捉關(guān)鍵的雙手靈巧操作信息:
(1)左右手的3D位置(3×2)與6D姿態(tài)(6×2),共計(jì)18維;
(2)與機(jī)器人控制中的末端執(zhí)行器 (End-Effector) 控制參數(shù)對(duì)齊;
(1)每個(gè)手五根手指,各提取一個(gè)三維坐標(biāo),總共10×3=30維;
(2)用于表達(dá)手指張合、握持形態(tài)等細(xì)粒度操作意圖。
總計(jì):18(手腕)+30(指尖)=48維動(dòng)作表示
這種表征策略的優(yōu)勢(shì)體現(xiàn)在三個(gè)方面:
(1)動(dòng)作通用性強(qiáng):該表示可以視作覆蓋大多數(shù)操作型機(jī)器人的“上層動(dòng)作空間”,能覆蓋如雙臂7-DoF機(jī)械臂、并聯(lián)夾爪等控制參數(shù);
(2)保留人類(lèi)操作的關(guān)鍵特征:指尖相對(duì)位置、手腕旋轉(zhuǎn)、抓取姿態(tài)等都被編碼在其中,保留了對(duì)操控幾何和力學(xué)要素的刻畫(huà)能力;
(3)提供顯式的動(dòng)力學(xué)參數(shù):相比于point flow等表征方式,無(wú)需額外增加動(dòng)力學(xué)映射,更為聚焦操作語(yǔ)義。
模型結(jié)構(gòu)
H-RDT構(gòu)建了一個(gè)五模塊組成的DiT (Diffusion Transformer) 框架,負(fù)責(zé)從多模態(tài)感知輸入生成機(jī)器人控制序列:
視覺(jué)編碼器 (DinoV2+SigLIP) :提取RGB觀測(cè)的視覺(jué)特征;配有MLP Adapter映射到transformer嵌入空間。
語(yǔ)言編碼器 (T5-XXL) :編碼自然語(yǔ)言任務(wù)指令;同樣通過(guò)MLP Adapter接入主干。
模塊化動(dòng)作編/解碼器:編碼器對(duì)機(jī)器人狀態(tài)向量與噪聲動(dòng)作軌跡分別編碼;解碼器將輸出特征解碼為Action Chunk,其在微調(diào)階段對(duì)不同本體重新初始化。
Transformer主干(類(lèi)LLaMA3架構(gòu)):使用SwiGLU激活與RMSNorm;使用解耦交叉注意力分別對(duì)視覺(jué)和語(yǔ)言信息進(jìn)行融合;流時(shí)間 (τ) 通過(guò)AdaLN注入。
兩階段訓(xùn)練范式
階段一:人類(lèi)數(shù)據(jù)預(yù)訓(xùn)練
第一階段使用EgoDex數(shù)據(jù)集,以48維人手動(dòng)作表征對(duì)H-RDT進(jìn)行預(yù)訓(xùn)練。EgoDex數(shù)據(jù)集包括338 K+條軌跡、涵蓋194項(xiàng)不同操作任務(wù),全面覆蓋了人類(lèi)操作策略、物體交互方式以及雙手協(xié)作。
第二階段對(duì)特定機(jī)器人本體微調(diào)時(shí),需重新初始化動(dòng)作編碼器和解碼器子模塊以適應(yīng)不同本體,其余模塊使用預(yù)訓(xùn)練權(quán)重進(jìn)行微調(diào)。
流匹配訓(xùn)練方法
實(shí)驗(yàn)結(jié)果
真機(jī)實(shí)驗(yàn)
我們?cè)谌N真實(shí)機(jī)器人上進(jìn)行多任務(wù)訓(xùn)練,用于驗(yàn)證模型的跨本體遷移能力與實(shí)際部署的魯棒性。
1)Aloha-Agilex-2.0實(shí)驗(yàn)
兩項(xiàng)任務(wù)均采用基于子任務(wù)的評(píng)分體系,全部完成視為完全成功。各方法各任務(wù)均測(cè)試25次。
**任務(wù)1疊毛巾:**測(cè)試模型連續(xù)折疊柔性物體的能力。
實(shí)驗(yàn)結(jié)果如下表所示,H-RDT的完全成功率為52%,RDT為40%,未經(jīng)人類(lèi)數(shù)據(jù)預(yù)訓(xùn)練的模型成功率為0。
任務(wù)2將杯子放到杯墊上: 該任務(wù)測(cè)試模型的空間推理能力,要求模型根據(jù)杯子的自動(dòng)選擇合適的手去抓杯子(左側(cè)杯子必須用左手抓,右側(cè)杯子必須用右手抓)。
實(shí)驗(yàn)結(jié)果如下表所示,H-RDT的完全成功率為64%,RDT為28%,未經(jīng)人類(lèi)數(shù)據(jù)預(yù)訓(xùn)練的模型成功率為20%。
2)雙臂ARX5小樣本實(shí)驗(yàn)
我們?cè)O(shè)計(jì)了一個(gè)極具挑戰(zhàn)的任務(wù):在雙臂ARX5機(jī)器人上完成113個(gè)不同的抓取放置任務(wù),每個(gè)任務(wù)僅提供1到5個(gè)示范樣本。
實(shí)驗(yàn)結(jié)果如下表所示,H-RDT成功率達(dá)到了41.6%,而π0僅為31.2%,RDT為16%,未經(jīng)人類(lèi)數(shù)據(jù)預(yù)訓(xùn)練的模型17.6%。
3)雙臂UR5+UMI實(shí)驗(yàn)
我們?cè)陔p臂UR5機(jī)器人上評(píng)估了H-RDT,人類(lèi)演示數(shù)據(jù)通過(guò)UMI收集。任務(wù)為雙手協(xié)作放置外賣(mài)袋,細(xì)分為四個(gè)連續(xù)步驟:右手抓取 → 右手放置 → 左手抓取 → 左手放置。
實(shí)驗(yàn)結(jié)果如下表所示,H-RDT完全成功率達(dá)到58.0%,遠(yuǎn)超RDT(29%)、 π0(31%)、未經(jīng)人類(lèi)數(shù)據(jù)預(yù)訓(xùn)練的版本(16%)。
仿真測(cè)試
我們?cè)诜抡姝h(huán)境RoboTwin 2.0上進(jìn)行了全面測(cè)試,包括單任務(wù)和多任務(wù)設(shè)置:
**單任務(wù)實(shí)驗(yàn):**在RoboTwin 2.0基準(zhǔn)測(cè)試的13項(xiàng)操作任務(wù)上評(píng)估單任務(wù)性能。每項(xiàng)任務(wù)使用簡(jiǎn)單模式下收集的50個(gè)演示樣本進(jìn)行訓(xùn)練,并在兩種模式下評(píng)估:包括簡(jiǎn)單模式(干凈桌面)與困難模式(隨機(jī)光照、雜亂環(huán)境)。
H-RDT在簡(jiǎn)單模式下取得了最高68.7%的平均成功率,在困難模式下為25.6%,顯著優(yōu)于其他方法;且在簡(jiǎn)單和困難模式下均大幅超越未經(jīng)人類(lèi)數(shù)據(jù)預(yù)訓(xùn)練的版本 (w/o human) ,證明了利用人類(lèi)操作數(shù)據(jù)預(yù)訓(xùn)練的有效性。
**多任務(wù)實(shí)驗(yàn):**在RoboTwin 2.0的45項(xiàng)任務(wù)上進(jìn)行多任務(wù)實(shí)驗(yàn),使用在困難模式下收集的約2250個(gè)演示樣本進(jìn)行訓(xùn)練,評(píng)估了10項(xiàng)任務(wù)子集。實(shí)驗(yàn)結(jié)果如下表所示。
在多任務(wù)場(chǎng)景中,H-RDT取得了高達(dá)87.2%的平均成功率,顯著優(yōu)于RDT(28.8%)、π0(48.4%)和未經(jīng)人類(lèi)數(shù)據(jù)預(yù)訓(xùn)練的版本w/o human(67.2%)。H-RDT相較于未經(jīng)人類(lèi)數(shù)據(jù)預(yù)訓(xùn)練版本w/o human平均成功率提高了20.0%,明顯大于在單任務(wù)場(chǎng)景。這表明,在多任務(wù)場(chǎng)景中,利用人類(lèi)操作數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練能提供更好的性能。
**跨本體泛化:**為進(jìn)一步驗(yàn)證H-RDT的跨本體遷移能力,在仿真環(huán)境中對(duì)兩種不同的機(jī)器人本體Aloha-Agilex-1.0和Franka-Panda進(jìn)行了多任務(wù)實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如下圖所示。
H-RDT在兩種機(jī)器人上均表現(xiàn)出很強(qiáng)的性能,在 Aloha-Agilex-1.0上達(dá)到87.2%的成功率,在Franka-Panda上達(dá)到62.9%的成功率,在兩個(gè)機(jī)器人上均顯著優(yōu)于基線方法。
總結(jié)與展望
本文提出H-RDT模型,使用具有3D手部位姿標(biāo)注的第一人稱(chēng)人類(lèi)操作視頻預(yù)訓(xùn)練以增強(qiáng)雙臂機(jī)器人的操作能力。展望未來(lái),面對(duì)數(shù)據(jù)采集成本高、模型泛化困難等挑戰(zhàn),人類(lèi)操作數(shù)據(jù)憑借其極低的采集成本和豐富的操作語(yǔ)義,將成為機(jī)器人策略學(xué)習(xí)不可忽視的新“寶藏”。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。