在無數玩家心中,《我的世界》(Minecraft)不僅僅是一款游戲,它是一個充滿無限可能的虛擬宇宙,是冒險與創造的搖籃。從夜幕下匆忙搭建的簡陋木屋,到精心復刻的校園與古老阿房宮,再到深邃礦道中對鉆石的無盡追尋,這片由方塊構成的天地見證了無數玩家的夢想與努力。
然而,當人工智能(AI)涉足這個充滿挑戰與驚喜的世界時,一切都變得不同尋常。AI能否像人類一樣,在這個沒有固定目標、沒有預設玩法的開放世界中,找到屬于自己的生存之道,甚至挖掘到那閃耀的鉆石?
起初,人們并未將AI視為《我的世界》中的佼佼者。畢竟,在圍棋、Dota2等策略型游戲中,AI已經大放異彩,但這些游戲的規則和目標相對明確,AI只需計算出最優解即可。而《我的世界》則截然不同,它的地圖隨機生成,每次進入都是全新的挑戰,玩家需要憑借直覺、經驗和創造力去適應環境。
然而,2019年,Facebook推出了CraftAssist Bot,讓AI能在游戲中執行人類指令,如建造房屋、馴服動物等。同年,CMU、微軟、DeepMind等機構也聯合發起了MineRL大賽,嘗試將互聯網視覺數據融入《我的世界》的技能學習中。這些嘗試,標志著AI正式踏入這個充滿未知與挑戰的世界。
MineRL大賽的目標很簡單,就是讓AI在游戲里成功挖到鉆石。但現實卻給研究人員帶來了沉重的打擊:900多個頂尖團隊傾盡全力,竟沒有一個AI成功拿到鉆石。這些AI智能體在探索過程中,出現了許多令人啼笑皆非的錯誤,如只知道砍樹卻不懂得合成斧頭,或是一頭栽進巖漿里,將角色活活燒死。
這些錯誤,恰恰揭示了AI在面對開放世界時的困境。它們不像人類那樣擁有豐富的常識和直覺,而是必須從零開始,一步步推導出世界的運行規則。但這也正是《我的世界》的魅力所在:它考驗的不僅是操作技巧,還有對環境的理解、對資源的管理和對長遠目標的規劃。
隨著研究的深入,強化學習(Reinforcement Learning)逐漸成為AI在《我的世界》中取得突破的關鍵。強化學習讓AI像真正的小白玩家一樣,通過與環境不斷互動來獲得反饋。隨著時間的推移,AI逐漸學會了更有效地探索地圖、管理資源、打造裝備和執行復雜任務。這種“適應”能力,讓AI不再只會照本宣科,而是能根據環境做出靈活決策。
近年來,隨著大語言模型(LLM)如GPT-4的出現,新的研究方向開始浮現。LLM能充當“游戲智囊團”,為AI在游戲世界中的行為提供更成熟的任務規劃和技能順序安排。這些研究讓AI從完全的游戲小白變成了擁有豐富游戲經驗的玩家,它們既能統籌所需技能,又能反思游戲環境帶來的變化,從而一步步逼近最終目標。
如今,AI在《我的世界》中的表現已經取得了顯著進步。騰訊AILab的“絕悟”在MineRL大賽中奪得冠軍,證明了AI能夠在這一開放世界游戲中取得優異成績。而DeepMind的DreamerV3更是實現了近乎真正的自主探索,它沒有看任何人類數據,完全靠自己摸索,僅用17天就完成了MineRL挑戰,成為首個能“自力更生”挖到鉆石的AI。
AI在《我的世界》中的征程遠未結束。DeepMind的最新研究再次刷新了認知邊界,他們讓AI不僅能在游戲世界里生存下去,還能超越人類的操作水平。這一突破的關鍵在于基于模型的強化學習(MBRL)和Transformer世界模型(TWM)的結合。研究者通過一系列優化措施,提高了世界模型的學習效率和策略優化的效率,使AI能夠在有限交互數據下高效學習,并掌握高效的生存之道。
在Craftax-classic環境的實驗中,這款AI不僅規劃、探索能力出眾,還在多人評測對戰中戰勝了人類高手,成為首個超越人類表現的智能體。這一結果證明,RL AI不僅能自主學習,還能在高度復雜的環境中做出比人類更優的決策。
從最初連最基本的生存都難以維持,到如今能夠自主規劃行動、高效地挖掘鉆石,AI在《我的世界》中取得的進步令人驚嘆。它學到的不僅是“挖鉆石”的小技巧,更是如何理解世界、制定策略、應對變化——這些真正的高層次智慧。或許有一天,AI真的能像人類一樣,在這個無限廣闊的像素世界里自由探索、創造,成為某個數字宇宙里的創世神。