【ITBEAR】在具身智能領(lǐng)域,環(huán)境感知與理解能力被視為其核心競爭力。特別是在Transformer架構(gòu)問世后,視覺模型與其融合,經(jīng)歷了一場從“小模型到大型模型,從多任務(wù)到單一模型”的變革,顯著提升了全場景視覺感知能力,為技術(shù)的實際應(yīng)用開辟了更廣闊的道路。
近日,IDEA研究院在深圳舉辦的2024 IDEA大會上,隆重發(fā)布了最新的DINO-X通用視覺大模型。該模型具備物體級別的理解能力,能夠無需人工提示,實現(xiàn)對開放世界目標(biāo)的自動檢測。同時,IDEA研究院還推出了行業(yè)平臺架構(gòu),通過大模型基座與通用識別技術(shù)的結(jié)合,使得模型能夠在不重新訓(xùn)練的情況下,邊使用邊學(xué)習(xí),滿足多種應(yīng)用需求。
IDEA研究院創(chuàng)院理事長、美國國家工程院外籍院士沈向洋在會上表示,當(dāng)前具身智能正處于新一輪的落地浪潮中,技術(shù)路徑更加注重泛化性和現(xiàn)實場景的適應(yīng)性。為此,IDEA研究院宣布了三項重要合作:與騰訊合作,在深圳福田區(qū)及河套深港科技創(chuàng)新合作區(qū)建設(shè)福田實驗室,專注于人居環(huán)境具身智能技術(shù)的研發(fā);與美團攜手,探索無人機視覺智能技術(shù);與比亞迪合作,拓展工業(yè)化機器人的智能應(yīng)用。
傳統(tǒng)機器人在工廠制造、汽車生產(chǎn)車間、物流倉儲等半結(jié)構(gòu)化領(lǐng)域中已有所應(yīng)用,但面對真實場景時,其認(rèn)知能力仍有待提升。IDEA研究院計算機視覺與機器人研究中心負(fù)責(zé)人張磊指出,不同類型的機器人,如雙臂機器人和移動機器人,在面對復(fù)雜環(huán)境時,需要更高的認(rèn)知與決策能力。特別是移動機器人,在室外環(huán)境中,其面臨的挑戰(zhàn)與無人駕駛類似,需要應(yīng)對結(jié)構(gòu)化、半結(jié)構(gòu)化甚至非結(jié)構(gòu)化的道路環(huán)境。
AI大模型的引入,為機器人的認(rèn)知和決策能力帶來了顯著提升。騰訊Robotics X實驗室智能體中心負(fù)責(zé)人韓磊認(rèn)為,語言是人類知識和思維的高度抽象,而機器人則是通過第一人稱視角來感知世界,因此,視覺理解是機器人首要的任務(wù)。
在圓桌討論《從視覺到行動:具身智能的挑戰(zhàn)和機遇》中,與會專家一致認(rèn)為,多模態(tài)信息的加入,結(jié)合物理世界的認(rèn)知,可以顯著增強機器人對世界的理解角度。這對于機器人的運動控制、環(huán)境適應(yīng)以及任務(wù)執(zhí)行等方面都具有重要意義。
美團副總裁兼無人機業(yè)務(wù)部負(fù)責(zé)人毛一年表示,機器人應(yīng)用的首要場景應(yīng)該是人類的高風(fēng)險任務(wù),如上山巡檢、深海檢測、油田鉆井、高樓清潔等。通過從小場景切入,逐步擴大應(yīng)用范圍,可以逐漸提升用戶對機器人的接受度和信任度。他強調(diào),機器人的應(yīng)用需要確保安全穩(wěn)定,避免給用戶帶來不必要的麻煩或損失。
沈向洋院士在會上還指出,在技術(shù)大爆發(fā)的時期,對技術(shù)的深度理解尤為重要。深圳這座城市以其快速的迭代速度,不僅在硬件領(lǐng)域不斷創(chuàng)新,也在軟件領(lǐng)域取得了顯著成果。IDEA研究院除了與福田實驗室合作外,還與前海深港合作區(qū)、深圳龍崗區(qū)、橫琴粵澳深度合作區(qū)等地建立了多個分支機構(gòu),共同推動技術(shù)創(chuàng)新和成果轉(zhuǎn)化。
在初創(chuàng)生態(tài)方面,IDEA研究院還孵化了一批生態(tài)企業(yè),如識淵科技、AI玩伴機器人愛小伴、GPU加速電影工業(yè)渲染器Smaray慧光追等,這些企業(yè)在各自的領(lǐng)域內(nèi)取得了不俗的成績,為IDEA研究院的創(chuàng)新生態(tài)增添了新的活力。