在AI技術(shù)日新月異的今天,國內(nèi)大廠字節(jié)跳動緊跟國際步伐,于近日在GitHub平臺推出了一款面向圖形化用戶界面(GUI)的全新自動化操作模型——UI-TARS。這款模型擁有高達70億參數(shù),巧妙地將視覺理解、文本處理、操作規(guī)劃及記憶管理等核心組件融為一體,能夠在跨平臺環(huán)境下完成復(fù)雜任務(wù),其能力堪比人類,能夠感知界面信息、推理操作步驟并精準(zhǔn)執(zhí)行交互指令。
UI-TARS的推出,標(biāo)志著字節(jié)跳動在AI智能體領(lǐng)域邁出了堅實的一步。通過官方公布的一段演示視頻,我們可以看到UI-TARS如何自動完成發(fā)布推文的全過程,展現(xiàn)了其強大的自動化處理能力。盡管目前仍處于預(yù)覽及迭代階段,需要人工輔助完成部分點擊及文案撰寫,但UI-TARS已在MacOS與Windows系統(tǒng)上線,為用戶提供了全新的自動化體驗。
無獨有偶,就在兩天前的1月24日,美國OpenAI公司正式推出了其首款A(yù)I智能體功能應(yīng)用“Operator”。這款應(yīng)用能夠模擬人類操作瀏覽器,完成購物、訂餐、論文整理等一系列復(fù)雜任務(wù),通過融合視覺識別與高級推理的CUA模型,實現(xiàn)了復(fù)雜步驟的精準(zhǔn)規(guī)劃。目前,“Operator”已向每月200美元訂閱的美國ChatGPT Pro用戶開放測試,標(biāo)志著AI智能體技術(shù)正逐步走向成熟。
近年來,“AI智能體”概念持續(xù)升溫,吸引了眾多企業(yè)和研究團隊的關(guān)注。智譜推出了AutoGLM、GLM-PC等多個AI智能體應(yīng)用產(chǎn)品;字節(jié)跳動的AI應(yīng)用開發(fā)平臺扣子已發(fā)布超過200萬個智能體,引領(lǐng)國內(nèi)AI智能體技術(shù)的發(fā)展潮流。在今年的CES展會上,英偉達CEO黃仁勛更是預(yù)言,AI智能體應(yīng)用或?qū)⒊蔀橄乱粋€價值數(shù)萬億美元的機器人產(chǎn)業(yè)。
AI智能體,作為一個具有智能的實體,能夠自主感知環(huán)境、做出決策并執(zhí)行行動。它可以是程序、系統(tǒng),也可以是機器人,能夠像有智商、有情商的“小助手”一樣,協(xié)助用戶高效完成各類任務(wù)。隨著AI技術(shù)的不斷進步,AI智能體已具備類似人類的思考和規(guī)劃能力,能夠與人類及環(huán)境進行高效交互,完成特定任務(wù)。
自2022年底ChatGPT風(fēng)靡全球以來,生成式AI應(yīng)用的發(fā)展便成為業(yè)界熱議的話題。斯坦福大學(xué)和谷歌的聯(lián)合研究團隊更是通過一項研究,展示了接入ChatGPT的虛擬人在虛擬小鎮(zhèn)Smallville中表現(xiàn)出的各種人類行為,進一步帶火了AI智能體概念。如今,AI智能體已在客服、編程、內(nèi)容創(chuàng)作、知識獲取、財務(wù)、手機助手、工業(yè)制造等多個領(lǐng)域得到廣泛應(yīng)用,展現(xiàn)出巨大的市場潛力和商業(yè)價值。
以O(shè)penAI的“Operator”為例,它不僅能夠根據(jù)用戶需求捕獲屏幕畫面,制定下一步計劃,還能使用虛擬鼠標(biāo)和鍵盤精確執(zhí)行操作,直到任務(wù)完成或需要用戶輸入。這種能力使得AI智能體能夠成為用戶的得力助手,幫助用戶高效完成各類任務(wù)。
隨著AI智能體技術(shù)的不斷發(fā)展,越來越多的企業(yè)開始認(rèn)識到AI智能體在降本增效方面的重要作用。火山引擎副總裁張鑫表示,未來企業(yè)需要通過0代碼方式快速、廣泛實現(xiàn)創(chuàng)新應(yīng)用,構(gòu)建自己的AI能力中心。這將有助于企業(yè)在復(fù)雜多變的數(shù)字環(huán)境中實現(xiàn)更高效、更智能的運營。
同時,AI技術(shù)的深度融合也正加速推動企業(yè)AI事項的落地與實踐。F5作為全球領(lǐng)先的多云應(yīng)用交付網(wǎng)絡(luò)和應(yīng)用安全解決方案提供商,正通過其豐富的AI和機器學(xué)習(xí)技術(shù)經(jīng)驗,全面賦能企業(yè)客戶。F5亞太區(qū)首席技術(shù)官Mohan Veloo表示,未來AI應(yīng)用將更加依賴于API,相關(guān)API接口也將呈現(xiàn)爆炸式增長。因此,如何有效利用AI大模型能力實現(xiàn)應(yīng)用方向的創(chuàng)新部署,將成為企業(yè)發(fā)展的關(guān)鍵。