Open-TeleVision——通過VR沉浸式感受人形機(jī)器人視野:兼?zhèn)溥h(yuǎn)程控制和深度感知能力
共 8366字,需瀏覽 17分鐘
·
2024-07-16 20:13
《大模型項(xiàng)目開發(fā)線上營第二期》文末開秒
前言
7.3日,我司七月在線(集AI大模型職教、應(yīng)用開發(fā)、機(jī)器人解決方案為一體的科技公司)的「大模型機(jī)器人(具身智能)線下營」群里的一學(xué)員發(fā)了《Open-TeleVision: Teleoperation with Immersive Active Visual Feedback》這篇論文的鏈接
前言
我當(dāng)時(shí)快速看了一遍,還是挺有價(jià)值的一個(gè)工作(與moblie aloha、humanplus最大的區(qū)別是,moblie aloha是通過從動(dòng)臂遙控,humanplus則是用過影子系統(tǒng)遙控,而television則是遠(yuǎn)程遙控,之后機(jī)器人再自主操作),一直想做下解讀來著
無奈過去一周一直在弄mamba2的解讀,所以沒來得及弄,但后來考慮到
7.11,在和一長沙的朋友聊到我司給工廠的機(jī)器人解決方案時(shí),他無意中也發(fā)了「Open-TeleVision」這個(gè)工作的鏈接給我,說他也在關(guān)注這個(gè)團(tuán)隊(duì),并表示:“VR+具身智能,應(yīng)用場景太大了”
-
之前本計(jì)劃解讀完mamba2之后,便解讀open-television、我司7方面review微調(diào)gemma2,再之后是TTT、nature審稿微調(diào) 但沒想7.12這天,flashattention3又來了..,實(shí)屬應(yīng)接不暇 故打算加快發(fā)布一篇篇新文章的節(jié)奏,即暫停對(duì)mamba2的修訂(過幾天后繼續(xù)),而先開始解讀這個(gè)Open-TeleVision了
故,本文來了
01
Open-TeleVision的原理、創(chuàng)新點(diǎn)與技術(shù)架構(gòu)
1.1.1 之前的各種遠(yuǎn)程操作方法
基于模仿學(xué)習(xí)的機(jī)器人在本博客的前幾篇機(jī)器人文章中已經(jīng)介紹過很多了,其中有個(gè)關(guān)鍵點(diǎn)便是數(shù)據(jù)的收集
而數(shù)據(jù)收集的其中一種重要的方式便是遠(yuǎn)程操作,它不僅提供了準(zhǔn)確和精確的操
作演示,還提供了自然和流暢的軌跡,使學(xué)習(xí)到的策略能夠推廣到新的環(huán)境配置和任務(wù)中
而各種遠(yuǎn)程操作方法包括且不限于
-
使用VR設(shè)備 [Learning visuotactile skills with two multifingered hands, Open teach: A versatile teleoperation system for robotic manipulation] -
RGB相機(jī)[Anyteleop:A general vision-based dexterous robot arm-hand teleoperation system, Robotic telekinesis: Learning a robotic hand imitator by watching humans on youtube , A mobile robot hand-arm teleoperation system by vision and imu] -
可穿戴手套 [A systematic review of commercial smart gloves: Current status and applications, High-fidelity grasping in virtual reality using a glove-based system, A glove-based system for studying hand-object manipulation via joint pose and force sensing] -
定制硬件 [aloha之Learning fine-grained bimanual manipulation with low-cost hardware , AirExo: Low-Cost Exoskeletons for Learning Whole-Arm Manipulation in the Wild] 其中,ALOHA框架[10]提供了對(duì)細(xì)粒度操作任務(wù)的精確控制,具有精確的關(guān)節(jié)映射。在作者團(tuán)隊(duì)發(fā)現(xiàn)基于VR的遠(yuǎn)程操作系統(tǒng)通過手部重定向也可以實(shí)現(xiàn)對(duì)細(xì)粒度操作任務(wù)的精確控制,而不是采用關(guān)節(jié)復(fù)制,詳見:ACT的原理解析:斯坦福炒蝦機(jī)器人Moblie Aloha的動(dòng)作分塊算法ACT
對(duì)于執(zhí)行,使用關(guān)節(jié)復(fù)制來操縱機(jī)器人提供了高控制帶寬和精度 [Aloha, Yell at your robot: Improving on-the-fly from language corrections, Gello: A general, low-cost, and intuitive
teleoperation framework for robot manipulators] 然而,這要求操作員和機(jī)器人必須在同一地點(diǎn),無法進(jìn)行遠(yuǎn)程控制,即每個(gè)機(jī)器人硬件需要與一個(gè)特定的遠(yuǎn)程操作硬件配對(duì) 重要的是,這些系統(tǒng)尚不能操作多指靈巧手(Moblie aloha和UMI確實(shí)都沒有靈巧手,dexcap才有) 好在,VR頭顯制造商通常集成內(nèi)置的手部跟蹤算法,這些算法融合了來自多種傳感器的數(shù)據(jù),包括多個(gè)攝像頭、深度傳感器和IMU。通過VR設(shè)備收集的手部跟蹤數(shù)據(jù)通常被認(rèn)為比自開發(fā)的視覺跟蹤系統(tǒng)更穩(wěn)定和準(zhǔn)確,而后者僅使用了所提到傳感器的一部分(RGB+RGBD[4],Depth + IMU[6]等)
對(duì)于感知,最直接的方法是用操作員自己的眼睛以第三人稱視角 [Robotic telekinesis,Anyteleop, Learning visuotactile skills with two multifingered hands] 或第一人稱視角 [Mobile aloha, Dexcap] 觀察機(jī)器人任務(wù)空間 然,這不可避免地會(huì)在遠(yuǎn)程操作過程中遮擋操作員的視線(例如,被機(jī)器人手臂或軀干遮擋),操作員無法確保收集的演示已捕捉到策略學(xué)習(xí)所需的視覺觀察 重要的是,對(duì)于細(xì)粒度的操作任務(wù),遠(yuǎn)程操作員很難在操作過程中近距離直觀地觀察物體 此外,第三人稱靜態(tài)攝像頭視圖或在VR頭戴設(shè)備中使用透視功能 [Learning visuotactile skills with two multifingered hands, Open teach, Using apple vision pro to train and control robots] 也會(huì)遇到類似的挑戰(zhàn)
提前說一嘴,總之,在TeleVision之前,沒有系統(tǒng)同時(shí)提供遠(yuǎn)程控制和深度感知:操作員被迫在直接觀看(需要物理存在)和RGB流(放棄深度信息)之間做出選擇。通過利用立體流媒體,TeleVision將首次在單一設(shè)置中提供了這兩種功能
1.1.2 TeleVision的創(chuàng)新點(diǎn)與改進(jìn)之處
如下圖所示,便是TeleVision的遠(yuǎn)程操作數(shù)據(jù)收集和學(xué)習(xí)設(shè)置
上圖左側(cè):是遠(yuǎn)程操作系統(tǒng) 首先,VR設(shè)備(雖然系統(tǒng)對(duì)VR設(shè)備型號(hào)不敏感,但還是選擇的Apple VisionPro作為VR設(shè)備平臺(tái))將人體的手部、頭部和手腕的姿態(tài)流式傳輸?shù)椒?wù)器 其次,服務(wù)器再將人類姿態(tài)重新定向到機(jī)器人(用了兩個(gè)機(jī)器人做實(shí)驗(yàn),一個(gè)來自宇樹科技的具有多手指的Unitree H1,一個(gè)則是傅里葉智能的具有抓手的Fourier GR1) 最后,將關(guān)節(jié)位置目標(biāo)發(fā)送到機(jī)器人 換言之,通過捕捉人類操作員的手部姿勢,然后進(jìn)行重新定位以控制多指機(jī)器人手或平行爪抓手,最后依靠逆運(yùn)動(dòng)學(xué)將操作員的手根位置轉(zhuǎn)換為機(jī)器人手臂末端執(zhí)行器的位置
上圖右側(cè):使用基于transformer的動(dòng)作分塊算法即ACT,為每個(gè)任務(wù)訓(xùn)練模仿策略,比如Transformer編碼器捕捉圖像和本體感覺token的關(guān)系,Transformer解碼器輸出特定塊大小的動(dòng)作序列
而TeleVision對(duì)允許細(xì)粒度操作的主要貢獻(xiàn)來自感知,它結(jié)合了具有主動(dòng)視覺反饋的VR系統(tǒng)即在機(jī)器人頭部使用單個(gè)主動(dòng)立體RGB相機(jī),配備2或3個(gè)自由度的驅(qū)動(dòng),模仿人類頭部運(yùn)動(dòng)以觀察大工作空間。在遠(yuǎn)程操作過程中,攝像頭會(huì)隨著操作員的頭部移動(dòng)而移動(dòng),進(jìn)行流媒體傳輸,即如下圖所示
這是因?yàn)閷?shí)時(shí)、自我中心的3D觀察傳輸?shù)絍R設(shè)備,使得人類操作員看到的是機(jī)器人看到的。這種第一人稱主動(dòng)感知為遠(yuǎn)程操作和策略學(xué)習(xí)帶來了好處
-
對(duì)于遠(yuǎn)程操作,它為用戶提供了一種更直觀的機(jī)制,通過移動(dòng)機(jī)器人的頭部來探索更廣闊的視野,并關(guān)注重要區(qū)域以進(jìn)行詳細(xì)交互 -
對(duì)于模仿學(xué)習(xí),TeleVision的策略將模仿如何在操作的同時(shí)主動(dòng)移動(dòng)機(jī)器人的頭部 與其采用進(jìn)一步的靜態(tài)捕獲視圖作為輸入,主動(dòng)攝像頭提供了一種自然的注意機(jī)制,專注于下一步操作相關(guān)區(qū)域并減少需要處理的像素,從而實(shí)現(xiàn)平滑、實(shí)時(shí)和精確的閉環(huán)控制
1.2 TeleVision System:實(shí)現(xiàn)實(shí)時(shí)遠(yuǎn)程遙控
1.2.1 VR將人體姿態(tài)傳到服務(wù)器,服務(wù)器處理重定向,傳達(dá)目標(biāo)姿態(tài)給機(jī)器人
humanplus通過影子系統(tǒng)實(shí)現(xiàn)了人類操作員對(duì)機(jī)器人的實(shí)時(shí)控制,那TeleVision又是如何做到實(shí)時(shí)遠(yuǎn)程遙控的呢
事實(shí)上,TeleVision基于Vuer [19]開發(fā)了一個(gè)網(wǎng)絡(luò)服務(wù)器
VR設(shè)備將操作員的手、頭和手腕姿態(tài)以 SE(3)格式流式傳輸?shù)椒?wù)器
-
服務(wù)器處理人到機(jī)器人的運(yùn)動(dòng)重定向
反過來,機(jī)器人以每只眼480x640的分辨率流式傳輸立體視頻(整個(gè)循環(huán)以60 Hz的頻率進(jìn)行)
且過程中只考慮它們的主動(dòng)感知頸部、兩個(gè)7自由度的手臂和末端執(zhí)行器,而其他自由度未被使用。其中,H1的每只手有6個(gè)自由度 [20],而GR-1有一個(gè)1自由度的下顎夾持器
此外,為了主動(dòng)感知,設(shè)計(jì)了一個(gè)具有兩個(gè)旋轉(zhuǎn)自由度(偏航和俯仰)的云臺(tái),安裝在H1軀干頂部,該云臺(tái)由3D打印部件組裝而成,并由DYNAMIXEL XL330-M288-T電機(jī)驅(qū)動(dòng) [21]
對(duì)于GR-1,使用了廠家提供的3自由度頸部(偏航、滾動(dòng)和俯仰),且兩個(gè)機(jī)器人都使用ZED Mini [22] 立體相機(jī)提供立體RGB流
1.2.2 對(duì)機(jī)器人手臂、手部的控制
對(duì)于手臂控制而言,人類手腕姿態(tài)首先轉(zhuǎn)換為機(jī)器人的坐標(biāo)系。具體來說,機(jī)器人末端執(zhí)行器與機(jī)器人頭部之間的相對(duì)位置應(yīng)與人類手腕和頭部之間的相對(duì)位置相匹配,且機(jī)器人的手腕方向與人類手腕的絕對(duì)方向?qū)R,這些方向是在初始化Apple VisionPro手部追蹤后端時(shí)估計(jì)的
這種對(duì)末端執(zhí)行器位置和方向的差異化處理確保了當(dāng)機(jī)器人的頭部隨人類頭部移動(dòng)時(shí),機(jī)器人末端執(zhí)行器的穩(wěn)定性
過程中,TeleVision采用基于Pinocchio[23, 24, 25]的閉環(huán)逆運(yùn)動(dòng)學(xué)(CLIK)算法來計(jì)算機(jī)器人手臂的關(guān)節(jié)角度
輸入的末端執(zhí)行器姿態(tài)使用SE(3)群濾波器進(jìn)行平滑處理,該濾波器由Pinocchio的 SE(3)插值實(shí)現(xiàn),從而增強(qiáng)了IK算法的穩(wěn)定性
為了進(jìn)一步降低IK失敗的風(fēng)險(xiǎn),當(dāng)手臂的可操作性接近其極限時(shí),加入了關(guān)節(jié)角度偏移。這種校正過程對(duì)末端執(zhí)行器的跟蹤性能影響最小,因?yàn)槠屏勘煌队暗綑C(jī)器人手臂雅可比矩陣的零空間,從而在解決約束的同時(shí)保持跟蹤精度
對(duì)于手部控制而言,通過dex-retargeting,一個(gè)高度通用且計(jì)算速度快的運(yùn)動(dòng)重定向庫,人手關(guān)鍵點(diǎn)被轉(zhuǎn)換為機(jī)器人關(guān)節(jié)角度命令 [Anyteleop]
TeleVision的方法在靈巧手和夾持器形態(tài)上都使用了向量優(yōu)化器。向量優(yōu)化器將重定向問題表述為一個(gè)優(yōu)化問題 [Anyteleop, Dexpilot],而優(yōu)化是基于用戶選擇的向量定義的:
在上述公式中
-
表示時(shí)間
時(shí)的機(jī)器人關(guān)節(jié)角度
-
是人手上的第
個(gè)關(guān)鍵點(diǎn)向量
-
函數(shù) 使用來自關(guān)節(jié)角度
的正向運(yùn)動(dòng)學(xué)計(jì)算機(jī)器人手上的第
個(gè)關(guān)鍵點(diǎn)向量
-
參數(shù) α是一個(gè)縮放因子,用于考慮人手和機(jī)器人手之間的尺寸差異(將其設(shè)置為1.1用于Inspire手) -
參數(shù) β權(quán)衡了確保連續(xù)步驟之間時(shí)間一致性的懲罰項(xiàng)。優(yōu)化是使用順序最小二乘二次規(guī)劃(SLSQP)算法[27]在NLopt庫[28]中實(shí)時(shí)進(jìn)行的,正向運(yùn)動(dòng)學(xué)及其導(dǎo)數(shù)的計(jì)算在Pinocchio[24]中進(jìn)行
對(duì)于靈巧手,使用7個(gè)向量來同步人手和機(jī)器人手,其中
5個(gè)向量表示手腕和每個(gè)指尖關(guān)鍵點(diǎn)之間的相對(duì)位置
另外2個(gè)向量,從拇指指尖延伸到主要指尖(食指和中指),以增強(qiáng)細(xì)致任務(wù)中的運(yùn)動(dòng)精度
-
對(duì)于夾持器,優(yōu)化是使用一個(gè)單一向量實(shí)現(xiàn)的,該向量定義在人類拇指和食指指尖之間。這個(gè)向量與夾爪上下端之間的相對(duì)位置,使得通過簡單地捏住操作員的食指和拇指,可以直觀地控制夾爪的開合動(dòng)作
1.3 TeleVision的技術(shù)架構(gòu):選擇ACT做模仿學(xué)習(xí)
1.3.1 ACT作為模仿學(xué)習(xí)算法,但做了兩項(xiàng)修改
TeleVision和Moblie Aloha一樣,選擇 ACT[10]作為的模仿學(xué)習(xí)算法
但進(jìn)行了兩項(xiàng)關(guān)鍵修改
首先,用更強(qiáng)大的視覺骨干 DinoV2替換了ResNet,這是一個(gè)通過自監(jiān)督學(xué)習(xí)預(yù)訓(xùn)練的視覺transformer(ViT)[詳見Dinov2: Learning robust visual features without supervision, Vision transformers need registers]
-
其次,使用兩幅立體圖像而不是四幅單獨(dú)排列的 RGB 攝像機(jī)圖像作為transformer編碼器的輸入 DinoV2 骨干為每張圖像生成 16 × 22個(gè)token。狀態(tài)token是從機(jī)器人的當(dāng)前關(guān)節(jié)位置投影出來的,且使用絕對(duì)關(guān)節(jié)位置作為動(dòng)作空間 對(duì)于 H1,動(dòng)作維度是 28(每個(gè)手臂 7 個(gè),每只手 6 個(gè),主動(dòng)頸部 2 個(gè));
對(duì)于GR-1,動(dòng)作維度是19(每只手臂7個(gè),每個(gè)夾爪1個(gè),主動(dòng)頸部3個(gè)) 至于本體感覺token是從相應(yīng)的關(guān)節(jié)位置讀數(shù)投影出來的
1.3.2 ACT相關(guān)的超參數(shù)設(shè)置
用于訓(xùn)練ACT [10] 模型的超參數(shù)詳見下圖(雖然這些超參數(shù)在所有基線和所有任務(wù)中大多數(shù)是一致的,但也有一些例外,包括塊大小和時(shí)間加權(quán))
提前說一嘴,在所有任務(wù)中TeleVision使用60的塊大小,除了罐插入任務(wù)中,TeleVision使用100的塊大小。在TeleVision的設(shè)置中使用60的塊大小有效地為機(jī)器人提供了大約一秒的記憶,與推理和動(dòng)作頻率60Hz相對(duì)應(yīng)
盡管如此,我們注意到在罐插入任務(wù)中,使用更大的塊大小(對(duì)應(yīng)于包含更多的歷史動(dòng)作)對(duì)模型執(zhí)行正確的動(dòng)作序列是有利的
此外,在原始ACT論文[即Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware,詳見此文的2.1.1節(jié)動(dòng)作分塊:將同一時(shí)間步內(nèi)的預(yù)測動(dòng)作進(jìn)行聚合]中采用指數(shù)加權(quán)方案
為不同時(shí)間步的動(dòng)作分配權(quán)重
其中,是最早動(dòng)作的權(quán)重,遵循ACT的設(shè)置。
是上圖中提到的時(shí)間加權(quán)超參數(shù)。隨著
的減少,更多的強(qiáng)調(diào)放在最近的動(dòng)作上,使模型響應(yīng)性更好但穩(wěn)定性較差
經(jīng)過實(shí)驗(yàn)發(fā)現(xiàn),對(duì)于大多數(shù)任務(wù),使用時(shí)間權(quán)重 m為0.01可以在響應(yīng)性和穩(wěn)定性之間達(dá)到令人滿意的平衡。然而,對(duì)于卸載和罐子分類任務(wù),我們調(diào)整了這個(gè)參數(shù)以滿足它們的特定需求
對(duì)于卸載任務(wù), m設(shè)置為0.05,確保在手中傳遞時(shí)更大的穩(wěn)定性
對(duì)于罐子分類任務(wù), m設(shè)置為0.005,提供更快的動(dòng)作
限于篇幅更到這里,想看完整內(nèi)容私蘇蘇老師: julyedukefu008 或七月在線其他老師領(lǐng)。剩余內(nèi)容目錄如下:
「大模型項(xiàng)目開發(fā)線上營 第二期」不止新學(xué)員青睞,大模型第一期學(xué)員大多數(shù)都續(xù)報(bào)了第二期。商用項(xiàng)目果然受用
“ 為何講大模型商用項(xiàng)目的課程很罕見
一方面,即便在大廠,雖有技術(shù)但沒法講其內(nèi)部項(xiàng)目,而專門搞應(yīng)用開發(fā)的小廠,很難將其賴之生存的項(xiàng)目拿出來講
二方面,一般職業(yè)講師 背后沒有項(xiàng)目團(tuán)隊(duì) 只能搞個(gè)demo,至于一般教育機(jī)構(gòu)也很難再搞個(gè)項(xiàng)目團(tuán)隊(duì),成本大 招人難 做出成果更難
現(xiàn)在報(bào)名加送:
① 一年GPU,封裝了諸如ChatGLM3等各大主流大模型
② 一個(gè)VIP年卡「200多個(gè)AI小課、5個(gè)大模型小課(即ChatGPT原理、類ChatGPT微調(diào)實(shí)戰(zhàn)、SD及其二次開發(fā)、垂直大模型實(shí)戰(zhàn)、大模型數(shù)據(jù)處理實(shí)戰(zhàn))」
③多送1個(gè)大模型小課:LLM與langchain/知識(shí)圖譜/數(shù)據(jù)庫的實(shí)戰(zhàn)
