機(jī)器人會代替人類嗎?
百年之前,機(jī)器人幫助人類完成大量機(jī)械作業(yè),在卡雷爾·查培克的《羅薩姆的萬能機(jī)器人》中還只是虛構(gòu)情節(jié)。而如今,已成現(xiàn)實。
剛閉幕不久的2021世界制造業(yè)大會上,以實用性“出圈”的聯(lián)想晨星機(jī)器人再次收割一大波“關(guān)注”。
晨星機(jī)器人有一雙“慧眼”
聯(lián)想晨星機(jī)器人是一個能夠幫助用戶立體感知遠(yuǎn)程環(huán)境,并與之實時交互的“復(fù)合型機(jī)器人”,非常適合代替人工在流水線、工作空間受限、空氣質(zhì)量惡劣等環(huán)境中作業(yè),在裝配流水線,噴涂車間,電力巡檢作業(yè)等應(yīng)用場景中堪稱“得力干將”。
在智能車間里,聯(lián)想晨星機(jī)器人的智能化和柔性化能力得以全面展現(xiàn)。它可以給數(shù)百種零部件進(jìn)行精細(xì)噴漆;可以避開障礙,靈活游走車間;可以根據(jù)顏色、形狀對零件進(jìn)行分類;還可以進(jìn)行缺陷檢測,保證工作質(zhì)量……
以某高端智能制造流程中的噴漆環(huán)節(jié)為例,聯(lián)想晨星機(jī)器人會對整個車間進(jìn)行空間掃描感知、圖像識別,所獲取的數(shù)據(jù)會在邊緣側(cè)的虛擬機(jī)上進(jìn)行實時的三維建圖和渲染,通過SLAM 、導(dǎo)航定位、物體識別與跟蹤技術(shù),便可輕松避障,順利到達(dá)噴漆間;噴漆操作開始前,機(jī)器人的雙目立體相機(jī)會將操作臺的各類工件和周邊環(huán)境采集到邊緣服務(wù)器,服務(wù)器會將3D視頻流實時推送給晨星AR眼鏡,技術(shù)人員通過AR眼鏡和手柄即可遠(yuǎn)程操控機(jī)器人進(jìn)行人機(jī)協(xié)同噴漆操作。
而這一系列操作步驟的完成,正是對計算機(jī)視覺技術(shù)的立體展示。計算機(jī)視覺技術(shù)賦予了聯(lián)想晨星機(jī)器人一雙“看懂”制造場景各方細(xì)節(jié)的“慧眼”。
計算機(jī)視覺讓機(jī)器“有目”共睹
作為人工智能領(lǐng)域的一個關(guān)鍵分支,計算機(jī)視覺好比人眼,是人工智能在感知層面最為重要的核心技術(shù)之一,它可以模擬人眼對目標(biāo)進(jìn)行識別、跟蹤和測量等,所獲取的數(shù)據(jù)將被處理成更適合人眼觀察或儀器檢測的圖像,亦或者直接針對所獲取的信息進(jìn)行相對精準(zhǔn)地判斷、預(yù)測和行動規(guī)劃等。
用眼睛看世界是人類與生俱來的能力,而如何讓機(jī)器學(xué)會像人類那樣通過視覺觀察“看懂”這個世界,便是計算機(jī)視覺技術(shù)要完成的任務(wù)。
歷經(jīng)幾十年的迭代,目前的計算機(jī)視覺技術(shù)主要基于深度學(xué)習(xí)來精進(jìn)自己“看”的能力。深度學(xué)習(xí)算法的實質(zhì),是通過構(gòu)建具有很多隱層的機(jī)器學(xué)習(xí)模型和海量的訓(xùn)練數(shù)據(jù),來學(xué)習(xí)更有用的特征,最終提升分類和推斷的準(zhǔn)確性。
為了讓機(jī)器看得細(xì)、看得廣、看得更清楚,需要為深度學(xué)習(xí)預(yù)設(shè)更多模型參數(shù)和更豐富的數(shù)據(jù),模型參數(shù)的設(shè)定和數(shù)據(jù)處理能力的多維度需求對GPU算力的提升提出更高要求。計算機(jī)視覺的應(yīng)用場景端,往往承擔(dān)著數(shù)據(jù)采集和分析任務(wù),很多需要本地處理,快速反應(yīng),計算力下沉,對邊緣的存儲和計算能力同樣帶來挑戰(zhàn)。相應(yīng)的海量數(shù)據(jù)傳輸,又需要強(qiáng)大的網(wǎng)絡(luò)速率作為支撐,以保證應(yīng)用端延時性的降低。而隨著算法的更新、算力的升級、數(shù)據(jù)的大爆發(fā),5G帶來的高速網(wǎng)絡(luò)以及邊緣能力的不斷提高,計算機(jī)對圖像的分析、理解和預(yù)測輸出能力已經(jīng)在不斷加強(qiáng),并逐步深植各行各業(yè),得到更加深入的應(yīng)用和發(fā)展。
與此同時,日益豐富的應(yīng)用場景推動著計算機(jī)視覺技術(shù)的不斷細(xì)化,計算機(jī)視覺技術(shù)衍生和拆分出了圖像分類、物體檢測、物體識別、物體跟蹤、視覺SLAM等關(guān)鍵技術(shù)。作為人工智能細(xì)分領(lǐng)域發(fā)展最快、應(yīng)用最廣泛的核心技術(shù)之一,計算機(jī)視覺的各項分支技術(shù)已廣泛應(yīng)用于制造、安防、醫(yī)療、教育、汽車等領(lǐng)域。
聯(lián)想讓機(jī)器人“見多識廣”
聯(lián)想的計算機(jī)視覺可以“看懂”當(dāng)時生產(chǎn)線上出現(xiàn)的零件缺陷、缺失、安裝不到位等問題,目前這項計算機(jī)視覺缺陷檢測方案已應(yīng)用于聯(lián)想武漢工廠與深圳工廠的智能手機(jī)和筆記本裝配檢測流程中。
隨著自身智能化轉(zhuǎn)型的漸趨深入,聯(lián)想對計算機(jī)視覺的應(yīng)用范圍和應(yīng)用方式不斷突破著邊界。“看懂”也不再局限于某一場景下的某一種生產(chǎn)零件的情況,而是更為豐富而復(fù)雜的動態(tài)場景中的不同事物及其狀態(tài),簡而言之,就是更加的“見多識廣”了。
聯(lián)想提出的“端-邊-云-網(wǎng)-智”創(chuàng)新架構(gòu)為計算機(jī)視覺技術(shù)的應(yīng)用和發(fā)展提供了天然的生態(tài)條件。端側(cè),聯(lián)想既有AR/VR相關(guān)的各種新型智能硬件終端,如聯(lián)想手機(jī)、電腦、晨星AR眼鏡、聯(lián)想晨星視覺模組、聯(lián)想晨星MR攝像機(jī)等,也有硬件、軟件、服務(wù)一體的智能解決方案,如智能生產(chǎn)、智能運維、智能檢測等,為計算機(jī)視覺的提供了豐富的應(yīng)用場景。
而在邊緣側(cè),聯(lián)想的邊緣計算平臺(LECP)和聯(lián)想大腦-Edge AI平臺可以為端側(cè)提供更強(qiáng)大的算力支持和存儲補(bǔ)充,像計算機(jī)視覺應(yīng)用中經(jīng)常涉及到的識別、檢測、建模、渲染、數(shù)據(jù)聚合與分發(fā)等計算和存儲需求都將轉(zhuǎn)移到邊緣側(cè)進(jìn)行,端-邊協(xié)同推理,充分發(fā)揮邊緣側(cè)的就近處理、快速響應(yīng)、滿足個性化需求、隱私保護(hù)等優(yōu)勢。
云端的“大腦”主要負(fù)責(zé)通用化沉淀,以聯(lián)想全球領(lǐng)先的超算技術(shù)為算力基礎(chǔ),通過多層次的學(xué)習(xí)模型,進(jìn)行海量數(shù)據(jù)的訓(xùn)練,形成更通用的應(yīng)用模型給邊緣側(cè)和端側(cè)調(diào)用,為端側(cè)實現(xiàn)更高層次的數(shù)據(jù)復(fù)用、知識共享和能力調(diào)配,持續(xù)推進(jìn)端側(cè)的機(jī)器對識別、推測和行動規(guī)劃能力的提升。而聯(lián)想基于自己研發(fā)的5G網(wǎng)絡(luò)通信虛擬化產(chǎn)品,又為計算機(jī)技術(shù)在整個“端-邊-云-網(wǎng)-智”中的應(yīng)用和發(fā)展加足馬力,提供了速率保障。
基于“端邊云網(wǎng)智”這樣的創(chuàng)新架構(gòu),聯(lián)想將計算機(jī)視覺與混合現(xiàn)實技術(shù)融合,打造了完整的端到端的核心技術(shù)布局,包括光學(xué)以及顯示系統(tǒng)、計算機(jī)視覺系統(tǒng)、計算機(jī)視覺標(biāo)定、顯示引擎、定位跟蹤、空間3D重建、物體識別與追蹤、檢測以及云渲染等。
在定位跟蹤方面,聯(lián)想基于自己的技術(shù)優(yōu)勢,開發(fā)了一種基于多傳感器的SLAM(Simultaneous Localization And Mapping)算法框架,并對相關(guān)底層運算進(jìn)行優(yōu)化加速,實現(xiàn)了在空曠、少紋理場景下的穩(wěn)定定位,也就是在特定環(huán)境里,這個技術(shù)能夠幫助機(jī)器進(jìn)行導(dǎo)航、定位和地圖的規(guī)劃,幫助機(jī)器不迷路,不繞遠(yuǎn)。
除了標(biāo)定位置和路線,我們還需要對機(jī)器周圍的動態(tài)場景進(jìn)行檢測和追蹤,以避免“飛來橫禍”。聯(lián)想的另一項核心優(yōu)勢就是三維物體識別和追蹤,指的是針對指定的一個或者多個三維物體,在一個連續(xù)的圖像序列中進(jìn)行物體的目標(biāo)檢測與姿態(tài)求解。基于三維物體的檢測與追蹤獲得的結(jié)果,可以為增強(qiáng)現(xiàn)實中虛實物體的交互提供信息,為機(jī)器人抓取的任務(wù)規(guī)劃提供依據(jù),為車輛之間的定位提供參考,因此三維物體識別與追蹤在增強(qiáng)現(xiàn)實、機(jī)器人、自動駕駛領(lǐng)域有非常重要的應(yīng)用價值。
2020年12月,憑借業(yè)內(nèi)領(lǐng)先的計算機(jī)視覺技術(shù)能力,聯(lián)想研究院在國際多目標(biāo)跟蹤挑戰(zhàn)(MOT16)榜單上,超越阿里達(dá)摩院、百度、馬克思普朗克研究所、卡內(nèi)基梅隴大學(xué)等強(qiáng)隊高居榜首,成為計算機(jī)視覺技術(shù)領(lǐng)域的佼佼者。
“看懂”千行百業(yè)
從內(nèi)生需求驅(qū)動到外化行業(yè)賦能,聯(lián)想對計算機(jī)視覺技術(shù)的應(yīng)用已經(jīng)在智能制造、智慧醫(yī)療、智慧城市等領(lǐng)域?qū)崿F(xiàn)了多點開花,為各行各業(yè)的智能化轉(zhuǎn)型提供解決方案。
在智能制造方面,聯(lián)想晨星機(jī)器人就是一個非常典型的案例,除此之外,在飛機(jī)生產(chǎn)制造的研發(fā)設(shè)計、供應(yīng)鏈、生產(chǎn)制造、試飛測試以及運維五個流程中,計算機(jī)視覺作為“導(dǎo)航儀”,貫穿在飛機(jī)制造的每一個環(huán)節(jié)中。
此外,我們還打造了基于計算機(jī)視覺的生產(chǎn)線質(zhì)量檢測解決方案。在個人電腦、手機(jī)等智能設(shè)備產(chǎn)品整機(jī)系統(tǒng)生產(chǎn)中,由于來料運輸和組裝過程中產(chǎn)生的負(fù)向干擾,整機(jī)生產(chǎn)過程中有多個檢測站點用于發(fā)現(xiàn)不良或缺陷,以往需要人工100%肉眼檢測,持續(xù)注視,極易疲勞,主觀判斷不易穩(wěn)定。一旦發(fā)生不良品出貨到終端客戶的情況,會導(dǎo)致客戶體驗感不佳;其次由此帶來的后續(xù)處理問題,成本巨大。因此,我們綜合目前視覺檢測以及機(jī)器人開發(fā)成果,結(jié)合自身的情況研發(fā)了智能制造的機(jī)器視覺方案,即生產(chǎn)線裝配質(zhì)量檢測解決方案,有效提升了質(zhì)檢的效率和精度。
在智慧園區(qū)領(lǐng)域,聯(lián)想將LeFace人臉識別技術(shù)應(yīng)用在門禁閘機(jī)上,打造了 “端側(cè)屏下”智慧易行閘機(jī)識別方案,毫秒級響應(yīng),高效安全,并且針對園區(qū)場景定制化優(yōu)化,針對不同光線等條件專項優(yōu)化,實現(xiàn)復(fù)雜場景下精準(zhǔn)識別。用戶經(jīng)過閘機(jī),不用刻意停下來找攝像頭,只要是“自己人”,就可暢通無阻。這項技術(shù),也被應(yīng)用于零售領(lǐng)域,在聯(lián)想總部的無人商店,人們可以通過人臉識別自由進(jìn)出商店,購買商品。
在聯(lián)想對計算機(jī)視覺技術(shù)的應(yīng)用案例中,這些都是浮光掠影的一部分。相對于計算機(jī)視覺技術(shù)自身的發(fā)展?jié)摿Χ裕壳叭藗儗@一技術(shù)的應(yīng)用不過是冰山一角。隨著人工智能在各個領(lǐng)域的不斷深入發(fā)展,這雙“慧眼”的應(yīng)用空間將不斷拓展,而它,也將牽引著人工智能“看見”更廣闊的未來世界。