本文基于諾亦騰聯合創始人、CTO戴若犁博士于2024年10月開源創新大會的主題演講修改而成,亦為2024年8月世界機器人大會期間發表的《用動作捕捉技術構建具身智能數據工廠》一文的續篇。
數據是橫亙在具身智能規模化落地面前的一座大山。在過去的兩年里,諾亦騰深入機器人行業,在商業一線感知水溫,在與合作伙伴攜手前行的過程中發現了具身智能行業缺數據,缺高質量數據的現狀。
以可控的成本建設高質量、大規模數據集并以此樹立技術門檻,已逐漸成為整個行業的戰略共識。然而,其中真正的挑戰,仍未被業界充分認識。
戴博士基于服務具身智能行業客戶的一線落地經驗,針對具身智能數據工廠建設中有關數據采集、設備選擇、管理優化、數據上規模等實際的難點與挑戰,分享了他的經驗與洞察。歡迎轉載分享。
感謝各位。
在咱們這個領域,快速、高效積累大規模高質量數據集的重要性已經被認可。我此前曾經圍繞「利用動作捕捉技術建設具身智能數據工廠」這個話題分享過一些經驗,關于動作捕捉、高精度追蹤技術在具身智能領域中怎么用,典型的遙操作數據采集工作流是什么樣子的,四種數據生產方式的特點和長短板都在哪里等。在那之后,諾亦騰與一些有遠見有實力的機構、公司積極展開合作,獲得了許多第一手的珍貴實踐經驗。感謝他們的信任,也感謝他們允許我把部分「最佳實踐」信息面向行業做有限度的披露與分享。
2024年開源創新大會戴若犁博士演講
在這個過程中我們發現,有一些問題仍然是行業中的 Open Questions:數據采集的最佳實踐流程(production pipeline)應該是什么樣子的?會遇到哪些困難?多大的數據量才足夠閉環一個相對泛化的任務?合成數據和真實數據的比例應該是多少?Cross-embodiment gap (跨本體的數據通用性)能不能解決?Sim2Real gap(仿真數據可用性)能不能解決?行業中的各位都在怎么干?
所以我今天的分享,主要圍繞數據采集這件事情展開,聊一聊數據采集這件事情的難度究竟在哪里。主要講三個「難點」:
① 數據精度與連續性、魯棒性的平衡以及解法;
②「Demo」與「量產」的區別,多席位采集中的各種挑戰;
③「1000萬條數據」的生產意味著什么。
我會快速地鋪展開全貌,希望能夠為大家帶來一些啟發。
講正題之前,我首先要向在座的一位嘉賓致敬,他就是 OpenCV 的創始人 Dr. Gary Bradski。不夸張地說,我們這個基于計算機視覺的動作捕捉與追蹤的行業的飯碗是他給的。感謝他今天專門來聽我這個 Talk。
數據精度與連續性、魯棒性的平衡以及解法
「既要,又要,還要」
第一個難點在于如何滿足「既要又要還要」:既要保證一定的精度需求,又要最大程度保證數據的連續性與魯棒性,且做到多快好省。
諾亦騰動作捕捉應用于各類機器人遙操作
首先需要明確的是:在遙操作數據采集中,對于數據連續性和魯棒性的需求高于對數據精度的需求。一般來說,本體映射會造成損耗,實際末端精度達不到亞毫米級別,但由于「人在流程中」(Human-in-the-loop),最終的遙操作任務達成和末端交互精度由遙操作「中之人」來保障,因此厘米級別精度就足以滿足具身智能遙操作數據采集的需求。如果盲目追求高精度,忽略數據的連續性,有可能會產生極高的后期數據清理費用,而這一費用甚至要遠高于數據采集流程中所有設備與人員的成本攤銷。
諾亦騰動作捕捉應用于各類機器人虛擬遙操作
另一方面,一個具身智能數據工廠要確保單日單席產出100條有效數據的要求(后面會介紹為何單日單席產出100條有效數據是合理目標),數據篩選與標注的流程應當在數據產出后馬上進行。如果數據質量差、連續性差,就必須刪除數據重新采集。數據連續性未達到標準,會進而影響整個數據采集流程的效率與穩定程度。
「慣性」還是「光學」?
在這里就不得不談一談關于遙操作動作捕捉設備的選擇。「慣性」還是「光學」?這是一個問題。慣性動作捕捉設備依靠穿戴于人體關鍵肢體位置的慣性測量單元(IMU,由陀螺儀、加速度計以及磁力計構成)估算人的動作姿態。而光學動作捕捉設備利用工作在 850nm 至 900nm 紅外波段的高速相機系統,捕捉人體動捕服上的馬克點(Marker)計算動作姿態。
技術路徑的區別決定了慣性動作捕捉只有姿態精度,沒有位置精度可言。它的算法基于前向動力學(FK),逆向動力學(IK),生物力學(Bio-Mechanics)與物理引擎(Physical Engine),我本人和諾亦騰的研發團隊在這套算法身上花了十余年的時間。慣性動作捕捉可以滿足視覺合理性、動作一致性、物理可解釋性,但是無法滿足末端絕對精度。如果有人問起「慣性動捕的指尖精度是厘米級別還是毫米級別」,這個問題是不存在答案的。
典型的慣性動作捕捉過程 powered by PN Studio
與之相對,光學動作捕捉設備一直是「室內高精度位姿追蹤」的「金標準」,可以達到亞毫米級別的追蹤精度。光學動捕廠商可以提供不同分辨率、不同FOV的鏡頭供選擇,單鏡頭價格從幾千元到十幾萬元不等。光學動作捕捉一直是影視特效與科研領域的香餑餑。
那么,是不是說光學動捕就是優先選擇的對象呢?事實上并不是這樣的。
在實踐中,都把慣性動作捕捉作為了第一選擇。慣性動作捕捉設備相對便宜,單角色可穿戴動捕設備的市場標價(list price)一般在幾萬元人民幣到幾十萬元人民幣不等,但在遙操作數據采集流程中,價格低并不是慣性動捕的最大優點。
慣性動作捕捉技術最大的優勢在于它的數據永不中斷,環境適應性極強,完全不會受到遮擋影響。如果解決好了地磁干擾問題和射頻干擾問題(后文會專門提及這兩個問題如何解決)則幾乎不用考慮在哪里能用、怎么才能用的問題,也無需顧及遙操作時完成何種任務,無需擔心數據的魯棒性受到影響。
如前面提到的,慣性動作捕捉沒有末端絕對位置精度可言,那為何這些頭部企業(以及諾亦騰絕大部分的遙操作需求用戶)還是會選擇它呢?其關鍵在于「人在流程中」。
從人體180個自由度的構型向機器人URDF構型的映射
在遙操作過程中,末端精度并不是依靠毫米級/亞毫米級精確映射人和機器人的末端執行器(人手與機器靈巧手)的指尖運動或高精度電缸/伺服關節控制達成的,而是依靠人眼和人腦達成的。遙操作人員主觀視覺全程關注機器人靈巧手而不是自己的手,一旦觸碰到交互物體,他穿戴著動捕手套的手指就會停止運動。依靠人眼、人腦與肢體的協同來保證任務閉環與末端精度。在這個環節中,動作捕捉系統充當的并不是高精度金標準量測設備,而是一個符合人類自然動作人機交互的“遙控器”(”It's a joystick”,北美某頭部人形團隊運控 team leader 的原話是這樣講的)。
光學動作捕捉的兩個「圣杯」
在機器人領域中,中等精度遙操作確實用慣性動捕就夠用了,但是光學動作捕捉的需求仍然非常明確。在有多人交互、人和機器人協同,機器人與第三方物體交互的場景,或者超高精度人類動作采集,人手動作采集(非遙操作需求,而是人類高精度動作數據需求)這樣的需求中,事實上需要將光學系統與慣性系統聯合使用:通過慣性系統獲取基本的人體姿態信息,通過光學系統獲取有精度需求的關鍵點信息(比如末端執行器:雙手,以及第三方交互目標物體)。這個需求中,傳統光學系統其實面臨著著重大的挑戰,但絕大多數業內人士甚至沒有意識到這一點。
光學動作捕捉世界一直存在著兩個「圣杯」問題——誰解決了這兩個問題,誰就摘下了這個領域皇冠上的明珠。第一個問題是抗遮擋(anti-occulusion):光學動捕系統通過對每個相機視距范圍、視野范圍內的馬克點的圓度、尺寸、圓心位置進行識別與追蹤估算,作為其動作捕捉的基礎數據來源(raw data)。一旦馬克點被環境、道具或者人自身遮擋,那么之后所有的追蹤或動捕都會受到影響。
由于馬克點被遮擋,圖中動作捕捉數據受到嚴重影響
而機器人數據采集與遙操作異常復雜,遮擋情況嚴重,橫向對比影視特效攝影棚的環境,或者嚴格可控的實驗室環境,環境和遮擋挑戰從30分被拉到了90分。
我們想象一個場景:一個產業工人打開料倉,伸手進去取貨,再將貨物搬運出來進行碼垛。在這個過程中,他的關鍵肢體有多少次會被環境,被貨物,被自己的身體遮擋?再想象一個場景:一個競速魔方運動員,他在把玩魔方的過程中,他的手指會有多少次被遮擋?
在傳統光學動作捕捉流程,特別是服務那些影視特效、動畫制作的應用中,這些遮擋可能并不是問題。即便整個項目所需要清理的數據高達1000條,其后期數據清理(data clean-up)單價或許會超過 20元/s 粗修,200元/s 精修的行業標準,但這些成本仍然是在可控范圍內的。
2022年2月 某互聯網大廠高精度動作捕捉數據修復需求報價單
但是如果當我們的需求是面向泛化抓取任務的 200萬條靈巧手操作數據,每條數據時長為10-20秒時,后期的數據清洗將會是一個完全無法承擔的成本。遙操作數據必須盡可能地連續,極少中斷,遮擋問題必須要解決。
光學動作捕捉的第二個圣杯問題是「同型剛體」(identical rigid-body): 光學動捕技術要獲取一個空間物體,或者人的肢體的六自由度位姿信息,需要用不少于三個馬克點構建成一個固定形態,我們稱之為剛體(rigid-body)。為了追蹤多個目標物,每個剛體需要是不同形態的「異型剛體」(heterogeneous rigid-body),否則光學動捕系統就區分不出來哪個剛體代表左手,哪個剛體代表右手。換言之,傳統光學捕捉系統,用異構的方式給每個剛體帶來了獨立「ID」。
同型剛體(左)與8種不同構型的異型剛體(右)
在傳統的影視與科研應用中,這仍然不是什么大問題。在空間追蹤的目標物非常有限的情況下,只需要費點腦子和制作時間,把這些馬克點貼成不同的組合形態即可。但是在機器人領域,需求則完全不一樣:在機器人遙操作數據采集流程中,數據量需求的基本單位將達到萬級,動輒需要數十甚至上百個席位同時進行遙操作數據生產。同一場地中,集中著對應數量的動作捕捉數據采集員,場地內的可追蹤剛體數量總和將達到數百個之多。
考慮到可佩戴在身體上的剛體的尺寸是有約束條件的(鑒于佩戴舒適度與安全考量,身體佩戴的剛體追蹤物通常不能超過50mm*80mm,而佩戴在手指上的同場尺寸不能超過10mm*20mm)。在這樣的條件下,將3-4個馬克點在規定尺寸面內貼出幾十上百種不同的構型,是數學上無解的任務——剛體中每個三角形的每條邊的差異度,需要大于半個馬克球的直徑。換而言之,尺寸約束、不同構型、數量極多——這三個條件構成了事實上的「不可能三角形」。
關于光學剛體的「不可能三角形」悖論(Trilemma),三者不能同時成立
因此只有采用同型剛體,且用某種巧妙的辦法使其能被賦予各自的唯一ID時,光學動捕才能在具身智能人形機器人數據采集流程中發揮優勢,才能被應用到這一領域中。
諾亦騰基于同型剛體的光慣混合手指動捕
完美的一攬子解決方案
因此,面向具身智能行業需求,我們搞動捕的人都撞墻了——慣性動作捕捉存在著末端精度的問題,光學動捕存在遮擋和異構剛體問題,有沒有解法呢?答案是有的。光學與慣性混合的 HybridTrack 系統可以完美地一攬子解決以上所有問題。這是一套誕生于2018年的算法與軟硬件系統,將慣性與光學系統的優質特性融合在一起,用光學定位補充慣性末端精度,用慣性數據源與光學計算進行緊耦合,極大提升了光學系統的抗遮擋能力,并將慣性傳感器的ID賦予同型光學剛體。甚至可以毫不夸張地講,這是到目前為止唯一能完美保障機器人遙操作數據采集,或者大規模人體動作、超高精度手部動作數據采集流程的系統。
2018年 諾亦騰同型剛體研發項目
諾亦騰多人全場互動仿真實訓項目
從「Demo」到「量產」 多席位采集中的各種挑戰
至此,我們講清楚了如何在合理預算下,從技術的角度大力出奇跡,來平衡數據精度與數據魯棒性和連續性的問題。這是幾乎最重要,也是最難的一個挑戰。但它不是唯一的挑戰。
正如前面所提到的,在機器人遙操作數據采集的流程中,為了應對萬級的數據采集量,常常需要數十甚至上百個席位,同時進行遙操作數據生產。當到了這樣的「量產級別」規模時,許多此前在Demo階段預料不到的問題就會出現。比如說網絡復雜度的問題、射頻干擾的問題、長時間供電的問題以及多源信息同步的問題等等。這些問題是必須要通過工程手段逐一解決的,不解決就上不了規模,或者上了規模仍然無法高效生產。
舉例來說,在一個具身智能數據工廠中,有100個采集席位。數據采集員身著目前主流的無線傳感器動作捕捉設備。在這種情況下,無線信道的并發數量、所占用的帶寬是超負荷的,而很多廠商可能對于這一點缺乏預判與準備。這種「射頻打架」的狀態影響數據回流,無法獲得良好的數據得包率,無法做到時間對齊,甚至連最基本的連續性都無法保證。顯而易見在這種條件下獲得的數據是無法用于模型訓練的。
為了應對各種挑戰,諾亦騰進行了針對性地研發工作,重構出專為具身智能數據采集場景優化的全身有線動作捕捉設備,開發出了更好的抗磁算法,用在線動態誤差估計修正了傳感器時漂、溫漂等一系列問題,還通過全系統能耗優化提升了設備的續航時間——針對性地解決了各種問題。
「1000萬條數據」的生產意味著什么?
人類遙操作人員穿戴著動作捕捉設備,操控機器人在真實的環境中采集真實數據,再將這些數據與視覺信息、運控信息、力觸覺信息數據等打上時間標簽同步,打包回流,這樣的流程沒有 Sim2Real Gap(仿真-現實域差異),沒有 Environment domain Gap (環境差異),獲得數據的質量最高。我們可以將這個流程簡單理解成開著一輛智能駕駛車輛上路,獲得最真實的第一手真實行車數據。這非常類似于在自動駕駛領域中已經得到驗證,并且正在大量實踐的端到端自動駕駛模型的數據采集流程。
那么多大的數據規模才能夠滿足具身智能模型訓練的需求呢?通過和行業中從事端到端訓練的專家交流,我們得到了一個大致的量級:基本上百萬條有效數據這樣的規模才是足夠閉環一個場景中的泛化任務執行能力的訓練。對于具身智能機器人領域來說,我們把bar再提高一點,可以得出結論:1000萬條高水平、高質量的數據是一個門檻,只有邁過去這個,才能真幫人類干點活,我們才不用那么卷。
那么1000萬條數據意味著什么呢?我們不妨來算一筆賬。假設某企業建設了一個規模化的具身智能數據工廠,有100個席位,每一個席位的采集員和標注員每天可以出產100條數據,每天一共可以采集一萬條數據,一年可以采集300萬條。所以說,1000萬條數據的flag,需要300個席位單班,或者100個席位三班倒,猛干一年才能夠實現的數據量,這是一個相當龐大的工程。
從0到1實現數據采集的 Demonstration,其實是非常快的。但要從這一步走到100-200個數采席位,三班倒去采集數據的具身智能數據工廠,其實仍有90%的路還未走完。其間會面臨許多需要切實解決的問題——甚至可以說,當面臨1000萬條數據的生產的時候,這個項目的管理復雜度跟實際運營一個工廠其實并無區別。目前許多研究者、業界從業者暫時還未發現這是個重大挑戰,或者沒做好如何去做的準備。諾亦騰在大規模的設備管理、復雜環境的應對等方面,通過此前大量的項目經驗,積累了豐富的經驗。
曾經諾亦騰做過一個非常有趣的項目:上百位觀眾身著設備同時進行虛擬現實體驗,體驗奔馳發布的全新一代A-Class轎車,這個項目的靈感來源是當年很火的電影《頭號玩家》。在這樣的一個場地中,有上百人的規模,同時運行各類動作捕捉、Tracking、VR設備,在三天的時間中接待了上千人——這不僅僅是一個技術難題,更是一個管理難題,是一件非常有挑戰性的事情。
最后還有一個大挑戰,是關于數據量的。1000萬條數據簡單換算,大約要用6.5噸硬盤來存儲,如何保證數據維護、管理、存儲、運轉的可靠性是一個大挑戰,對于建立具身智能數據工廠而言,或許也需要建設配套的邊緣云,找到合適的供應商提供數據服務。同樣是具身智能數據工廠建設過程中不得不去考慮的問題之一。
總結
最后我們總結一下。前面講述的三個難點,是諾亦騰目前通過合作,通過實踐積累的一些經驗。具身智能數據工廠,或者說具身智能數據的積累很難,很具有挑戰性。但是它本身的價值與需求的天花板會很高,會是一個有著可觀回報,或者說能夠積累長期價值的事情。這一領域目前仍然處于上升期之內,低谷期和長尾期尚未到來,因此這件事情非常值得長期堅持做下去。
想要做好這件很難的事情,需要擁有很強的能力,也需要攜手各方展開合作:本體廠商、模型廠商,像諾亦騰這樣做設備的廠商,以及全球的開源社區、學界一起努力。對于諾亦騰而言,我們的目標是和合作伙伴們一起努力去積累這樣一些能力,一起做好這件非常有價值、有意思的事情。
2024年開源創新大會戴若犁博士演講
謝謝GOSIM組委會的邀請,我們也愿意給開源社區做點貢獻,比如聯合起來弄個足夠大的、高質量的「具身智能開源數據集」。