Agility Robotics 解釋了如何訓(xùn)練全身控制基礎(chǔ)模型

Agility Robotics 為其 Digit 仿人型機(jī)器人開發(fā)了一個(gè)全身控制基礎(chǔ)模型。來(lái)源:Agility Robotics
根據(jù)最近 Agility Robotics 的博客文章,仿人型機(jī)器人最顯著的優(yōu)勢(shì)是能夠在高度受限的環(huán)境中執(zhí)行各種任務(wù)。建成世界是為人而設(shè)計(jì)的,能夠匹配我們一般能力的機(jī)器將是最有價(jià)值的。
當(dāng)然,這并不意味著仿人型機(jī)器人必須長(zhǎng)得和我們一樣,公司之前已經(jīng)解釋過(guò)了。
任務(wù)目標(biāo)相對(duì)明確,但執(zhí)行工作卻面臨各種挑戰(zhàn)。機(jī)器人必須保持平衡,平穩(wěn)移動(dòng),并對(duì)外部環(huán)境干擾具有魯棒性,同時(shí)還要以極高的精度進(jìn)行抓取、握持和操作。最重要的是,機(jī)器人絕不能摔倒。
Agility Robotics 為 Digit 賦予了“運(yùn)動(dòng)皮層”
為此,Agility Robotics 為其 Digit 人類機(jī)器人開發(fā)了一個(gè)全身控制基礎(chǔ)模型,以確保其在執(zhí)行各種任務(wù)時(shí)保持安全和穩(wěn)定。它就像人類大腦中的運(yùn)動(dòng)皮層一樣,接收來(lái)自大腦不同部分的信號(hào)——在 Digit 的情況下,是 Agility 的控制層次結(jié)構(gòu)的不同級(jí)別——以控制自主運(yùn)動(dòng)和精細(xì)運(yùn)動(dòng)技能。
該模型是一個(gè)相對(duì)較小的 LSTM(長(zhǎng)短期記憶)神經(jīng)網(wǎng)絡(luò),參數(shù)少于 100 萬(wàn)個(gè),在 NVIDIA 的 Isaac Sim 物理 模擬器 中進(jìn)行了訓(xùn)練,模擬時(shí)間長(zhǎng)達(dá)數(shù)十年,訓(xùn)練時(shí)間為三到四天。
Digit 的運(yùn)動(dòng)皮層完全在模擬中學(xué)習(xí),并且可以零樣本遷移到現(xiàn)實(shí)世界。它可以被提示使用手臂和軀干的密集自由空間位置和方向目標(biāo)來(lái)實(shí)現(xiàn)不同的目標(biāo),包括行走和拾取和放置重物。它可以在運(yùn)動(dòng)皮層之上學(xué)習(xí)下游靈巧操作技能,并且類似地使用大型語(yǔ)言模型(LLMs)協(xié)調(diào)復(fù)雜行為。
Agility Robotics 可以使用多種方法提示其模型,以完成一系列多樣化的任務(wù)。
三月份,該公司在其早期版本的工作中,在 NVIDIA 的 GTC 活動(dòng)上展示了 Digit 購(gòu)物。在這個(gè)演示中,策略是由一個(gè)開放詞匯對(duì)象檢測(cè)器提示的,然后被提升到 3D,執(zhí)行通過(guò)狀態(tài)機(jī)規(guī)劃循環(huán)管理:

Digit 在 NVIDIA GTC 上展示了雜貨處理能力。來(lái)源:Agility Robotics
Agility 表示,這是使 Digit 在執(zhí)行復(fù)雜操作計(jì)劃時(shí)更加抗干擾的重要一步。該公司還使用 Gemini 研究預(yù)覽提示了運(yùn)動(dòng)皮層:
該控制器也能穩(wěn)健地拿起非常重的物體:

來(lái)源:Agility Robotics
為什么這很難?
Agility Robotics 表示,為了執(zhí)行有用的工作,機(jī)器人必須能夠在其末端執(zhí)行器在世界中穩(wěn)健地定位和移動(dòng)。對(duì)于固定基座機(jī)器人來(lái)說(shuō),這是一個(gè)已經(jīng)得到充分理解的問(wèn)題;幾十年來(lái),人們已經(jīng)廣泛使用基于模型的算法,如逆運(yùn)動(dòng)學(xué)(IK)或逆動(dòng)力學(xué)(ID)的簡(jiǎn)單控制器,取得了極大的成效。
從使用這種系統(tǒng)的用戶的角度來(lái)看,他們只需要提供末端執(zhí)行器的期望姿態(tài),固定基座機(jī)器人就會(huì)迅速移動(dòng)以匹配該目標(biāo)姿態(tài)。
Agility 表示希望為仿人機(jī)器人創(chuàng)建相同的接口:機(jī)器人只需通過(guò)其末端執(zhí)行器的期望運(yùn)動(dòng)即可獲得信息,然后機(jī)器人快速高效地定位自身以實(shí)現(xiàn)這些目標(biāo)。
不幸的是,這種能力在腿式機(jī)器人上并不簡(jiǎn)單,它表示。腿式行走的物理特性有兩種模式:一種是腿在空中自由擺動(dòng),另一種是腿著地并對(duì)機(jī)器人的其余部分施加力。這兩種物理特性由“接觸”或“斷開接觸”的概念分開,這發(fā)生在機(jī)器人放置腳或抬起腳離開地面時(shí)。
這種復(fù)雜性帶來(lái)了巨大的計(jì)算成本,為了簡(jiǎn)化控制和規(guī)劃問(wèn)題,幾乎總是采用簡(jiǎn)化假設(shè)。一種常見(jiàn)的簡(jiǎn)化假設(shè)是,在末端執(zhí)行器達(dá)到目標(biāo)或操縱世界中的物體時(shí),機(jī)器人的腿將保持與地面的接觸——實(shí)際上將腿式平臺(tái)變成固定基座平臺(tái)。
Agility Robotics 表示,這是一個(gè)強(qiáng)大的啟發(fā)式方法,是機(jī)器人領(lǐng)域最近許多令人印象深刻的進(jìn)步的基礎(chǔ),但也是一個(gè)限制現(xiàn)代機(jī)器人性能的基本限制。防止機(jī)器人動(dòng)態(tài)調(diào)整其腳部位置將限制其操作工作空間,并阻止其智能自然地應(yīng)對(duì)工作過(guò)程中可能遇到的干擾力。
更理想的界面應(yīng)該是機(jī)器人簡(jiǎn)單地跟蹤用戶期望的手部動(dòng)作,在必要時(shí)自行行走,避免與環(huán)境的碰撞,并努力不摔倒。在實(shí)時(shí)生成動(dòng)態(tài)可行的全身運(yùn)動(dòng)計(jì)劃方面的難度,使這種界面對(duì)于人形機(jī)器人來(lái)說(shuō),直到最近一直是不可能實(shí)現(xiàn)的。
進(jìn)入強(qiáng)化學(xué)習(xí)
深度強(qiáng)化學(xué)習(xí)(RL)正迅速成為人形機(jī)器人的主導(dǎo)控制范式。它不是在控制器中顯式地模擬機(jī)器人混合動(dòng)力學(xué)的運(yùn)動(dòng)方程,也不是對(duì)整個(gè)系統(tǒng)的接觸狀態(tài)做出簡(jiǎn)化假設(shè),而是在物理模擬器中訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò),使其作為控制器來(lái)跟蹤全身運(yùn)動(dòng),然后將該神經(jīng)網(wǎng)絡(luò)部署在硬件上。
最近關(guān)于人形全身控制的研究成果令人印象深刻,具有高度動(dòng)態(tài)性,并且與使用更傳統(tǒng)的基于模型的控制方法相比,在硬件上實(shí)現(xiàn)工作所需的專業(yè)知識(shí)和精力要少得多。然而,這些研究大多集中在動(dòng)態(tài)全身運(yùn)動(dòng)上,如舞蹈,而未能實(shí)現(xiàn)移動(dòng)操作所需的精確跟蹤。
Agility Robotics 正專注于雙手和雙腳施加力的能力,以便 Digit 能夠抬起和移動(dòng)重物。
控制器必須覆蓋工作空間
大多數(shù)現(xiàn)有的使用強(qiáng)化學(xué)習(xí)(如 GMT 或 TWIST)訓(xùn)練人形機(jī)器人全身控制器的工作都使用大型離線數(shù)據(jù)集,例如 AMASS 或 LAFAN1 來(lái)訓(xùn)練全身控制網(wǎng)絡(luò)。這已經(jīng)取得了一些非常令人印象深刻和逼真的結(jié)果,但這些軌跡分布通常無(wú)法覆蓋整個(gè)所需的手部操作空間,Agility Robotics 觀察到。
不可避免地,這些離線數(shù)據(jù)集中的手部姿態(tài)目標(biāo)將密集覆蓋工作空間中的一些代表性區(qū)域,而工作空間的極端區(qū)域或其他關(guān)鍵區(qū)域則分布稀疏。然而,Agility 堅(jiān)持認(rèn)為,手部目標(biāo)的訓(xùn)練分布必須均勻覆蓋整個(gè)工作空間,以確保機(jī)器人能夠可靠地執(zhí)行利用其整個(gè)范圍進(jìn)行復(fù)雜操作。
為了確保其運(yùn)動(dòng)皮層能夠以高精度和可靠性到達(dá)工作空間中的任何一點(diǎn),Agility 采用了一種隨機(jī)采樣方案,我們從工作空間中均勻地隨機(jī)選擇位置和方向,并在這些點(diǎn)之間生成隨機(jī)的平移和旋轉(zhuǎn)運(yùn)動(dòng)速度,為雙手和軀干創(chuàng)建時(shí)間索引軌跡。它使用一個(gè)考慮當(dāng)前手部姿態(tài)和目標(biāo)手部姿態(tài)之間平移和旋轉(zhuǎn)誤差的獎(jiǎng)勵(lì)項(xiàng)來(lái)訓(xùn)練其運(yùn)動(dòng)皮層,以到達(dá)這些點(diǎn)。

Agility Robotics 正在用全身控制器模型訓(xùn)練 Digit。來(lái)源:Agility Robotics
位置 > 速度
為了訓(xùn)練一個(gè)能夠以多種方式精確與世界交互的強(qiáng)化學(xué)習(xí)策略,Agility Robotics 表示希望機(jī)器人能夠走到世界中的特定位置并停留在那里。
然而,將強(qiáng)化學(xué)習(xí)應(yīng)用于雙足機(jī)器人的大多數(shù)文獻(xiàn)都訓(xùn)練神經(jīng)網(wǎng)絡(luò)來(lái)跟蹤目標(biāo)根速度(“匹配這個(gè)速度和方向”)而不是根位置(“到達(dá)這個(gè)點(diǎn)”),例如基于速度的 VMP、AMOR、FALCON、ExBody 和 ExBody2、HumanPlus、GMT、R2S2、MHC 與位置能力型 CLONE、OmniH2O 和 HOVER。
訓(xùn)練控制器以跟蹤速度而不是位置,目的是為了移動(dòng),這提供了一個(gè)更豐富和更寬容的獎(jiǎng)勵(lì)信號(hào),因此通常是一個(gè)務(wù)實(shí)的選擇,Agility 表示。此外,在測(cè)試時(shí)在硬件上跟蹤根位置需要(非平凡地)某種形式的里程計(jì),例如一個(gè)浮點(diǎn)基礎(chǔ)姿態(tài)估計(jì)器的實(shí)現(xiàn)。
然而,一個(gè)基于目標(biāo)速度而非目標(biāo)位置的移動(dòng)控制器需要更高級(jí)別的規(guī)劃器對(duì)象或人類遠(yuǎn)程操作員來(lái)提供持續(xù)的指導(dǎo),以糾正位置漂移或考慮位置誤差。理想情況下,用戶會(huì)告訴控制器它應(yīng)該在自由空間中的位置,它會(huì)導(dǎo)航到那里,即使被推搡或受到其他干擾,也會(huì)自然地返回到該位置。
在任務(wù)空間中進(jìn)行提示比在配置空間中更好
另一個(gè)問(wèn)題是,在先前的工作中,上肢目標(biāo)設(shè)定點(diǎn)通常在關(guān)節(jié)空間中參數(shù)化。這意味著,要實(shí)際使用全身控制器,您需要要么配備動(dòng)作捕捉服,并從人類配置空間映射到機(jī)器人配置空間,要么需要一個(gè)規(guī)劃器或模型來(lái)生成上肢運(yùn)動(dòng)計(jì)劃,Agility Robotics 表示。
它指出,這些是嚴(yán)重的限制,因?yàn)樗鼈円蟾呒?jí)規(guī)劃層、人類遠(yuǎn)程操作員或 LLM 需要擁有機(jī)器人運(yùn)動(dòng)學(xué)狀態(tài)模型。如果控制器基于的是自由空間位置和方向,那么對(duì)于下游腳本、 遠(yuǎn)程操作和行為克隆等構(gòu)建在控制器之上的應(yīng)用來(lái)說(shuō),將更加方便。
這也有助于更接近用于最先進(jìn)模仿學(xué)習(xí)方法所使用的表示方式,這意味著我們可以直接使用像 Gemini 這樣的模型來(lái)預(yù)測(cè)物體位置,以提供執(zhí)行策略。
Agility Robotics 層疊行為
Agility Robotics 表示它正在積極建設(shè)和部署能夠在人類環(huán)境中執(zhí)行有用工作的智能人形機(jī)器人。Digit 的“運(yùn)動(dòng)皮層”是其中的一部分,該公司表示。它作為一個(gè)“始終開啟”的安全層,能夠?qū)崿F(xiàn)我們機(jī)器人的反應(yīng)式和直觀控制。
“我們可以在這一層運(yùn)動(dòng)皮層之上構(gòu)建復(fù)雜的行為,包括學(xué)習(xí)靈巧的移動(dòng)操作行為,”它補(bǔ)充道?!拔覀冋J(rèn)為這是朝著為現(xiàn)實(shí)世界的人形機(jī)器人構(gòu)建一個(gè)安全可靠的運(yùn)動(dòng)基礎(chǔ)模型的第一步?!?/p>
想了解更多關(guān)于這個(gè)主題的信息,可以查看俄勒岡州立大學(xué)動(dòng)態(tài)機(jī)器人與人工智能實(shí)驗(yàn)室共同主任艾倫·費(fèi)恩博士的文章:“ 正在興起的人形運(yùn)動(dòng)皮層:RL 訓(xùn)練控制器的清單 ?!?/p>



評(píng)論