日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

讓AI模型成為GTA五星玩家,基于視覺的可編程智能體Octopus來了

電子游戲已經成為如今現實世界的模擬舞臺,展現出無限可能。以游戲《俠盜獵車手》(GTA)為例,在 GTA 的世界里,玩家可以以第一人稱視角,在洛圣都(游戲虛擬城市)當中經歷豐富多彩的生活。然而,既然人類玩家能夠在洛圣都里盡情遨游完成若干任務,我們是否也能有一個 AI 視覺模型,操控 GTA 中的角色,成為執行任務的 “玩家” 呢?GTA 的 AI 玩家又是否能夠扮演一個五星好市民,遵守交通規則,幫助警方抓捕罪犯,甚至做個熱心腸的路人,幫助流浪漢找到合適的住所?

目前的視覺 - 語言模型(VLMs)在多模態感知和推理方面取得了實質性的進步,但它們往往基于較為簡單的視覺問答(VQA)或者視覺標注(Caption)任務。這些任務設定顯然無法使 VLM 真正完成現實世界當中的任務。因為實際任務不僅需要對于視覺信息的理解,更需要模型具有規劃推理以及根據實時更新的環境信息做出反饋的能力。同時生成的規劃也需要能夠操縱環境中的實體來真實地完成任務。

盡管已有的語言模型(LLMs)能夠根據所提供的信息進行任務規劃,但其無法理解視覺輸入,極大的限制了語言模型在執行現實世界的具體任務時的應用范圍,尤其是對于一些具身智能任務,基于文本的輸入往往很難詳盡或過于復雜,從而使得語言模型無法從中高效地提取信息從而完成任務。而當前的語言模型對于程序生成已經進行了若干探索,但是根據視覺輸入來生成結構化,可執行,且穩健的代碼的探索還尚未深入。

為了解決如何使大模型具身智能化的問題,創建能夠準確制定計劃并執行命令的自主和情境感知系統,來自新加坡南洋理工大學,清華大學等的學者提出了 Octopus。Octopus 是一種基于視覺的可編程智能體,它的目的是通過視覺輸入學習,理解真實世界,并以生成可執行代碼的方式完成各種實際任務。通過在大量視覺輸入和可執行代碼的數據對的訓練,Octopus學會了如何操控電子游戲的角色完成游戲任務,或者完成復雜的家務活動。

讓AI模型成為GTA五星玩家,基于視覺的可編程智能體Octopus來了

  • 論文地址:https://arxiv.org/abs/2310.08588
  • 項目網頁:https://choiszt.Github.io/Octopus/
  • 開源代碼:https://github.com/dongyh20/Octopus

數據采集與訓練

為了訓練能夠完成具身智能化任務的視覺 - 語言模型,研究者們還開發了 OctoVerse,其包含兩個仿真系統用于為 Octopus 的訓練提供訓練數據以及測試環境。這兩個仿真環境為 VLM 的具身智能化提供了可用 的訓練以及測試場景,對模型的推理和任務規劃能力都提出了更高的要求。具體如下:

1.OctoGibson:基于斯坦福大學開發的 OmniGibson 進行開發,一共包括了 476 個符合現實生活的家 務活動。整個仿真環境中包括 16 種不同類別的家庭場景,涵蓋 155 個實際的家庭環境實例。模型可 以操作其中存在的大量可交互物體來完成最終的任務。

2.OctoGTA:基于《俠盜獵車手》(GTA)游戲進行開發,一共構建了 20 個任務并將其泛化到五個不 同的場景當中。通過預先設定好的程序將玩家設定在固定的位置,提供完成任務必須的物品和 NPC,以保證任務能夠順利進行。

下圖展示了 OctoGibson 的任務分類以及 OctoGibson 和 OctoGTA 的一些統計結果。

讓AI模型成為GTA五星玩家,基于視覺的可編程智能體Octopus來了

為了在構建的兩個仿真環境中高效的收集訓練數據,研究者構建了一套完整的數據收集系統。通過引入 GPT-4 作為任務的執行者,研究者們使用預先實現的函數將在仿真環境當中采集到的視覺輸入處理為文本信息提供給 GPT-4,在 GPT-4 返回當前一步的任務規劃和可執行代碼后,再在仿真環境當中執行代碼,并 判斷當前一步的任務是否完成。如果成功,則繼續采集下一步的視覺輸入;如果失敗,則回到上一步的起始位置,重新采集數據。

讓AI模型成為GTA五星玩家,基于視覺的可編程智能體Octopus來了

上圖以 OctoGibson 環境當中的 Cook a Bacon 任務為例,展示了收集數據的完整流程。需要指出的是,在收集數據的過程中,研究者不僅記錄了任務執行過程中的視覺信息,GPT-4 返回的可執行代碼等,還記錄了每一個子任務的成功情況,這些將作為后續引入強化學習來構建更高效的 VLM 的基礎。GPT-4 的功能雖然強大,但并非無懈可擊。錯誤可以以多種方式顯現,包括語法錯誤和模擬器中的物理挑戰。例如,如圖 3 所示,在狀態 #5 和 #6 之間,由于 agent 拿著的培根與平底鍋之間的距離過遠,導致 “把培根放到平底鍋” 的行動失敗。此類挫折會將任務重置到之前的狀態。如果一個任務在 10 步之后仍未完成,則被認定為不成功,我們會因預算問題而終止這個任務,而這個任務的所有子任務的數據對都會認為執行失敗。

讓AI模型成為GTA五星玩家,基于視覺的可編程智能體Octopus來了

在收集一定規模的訓練數據后,研究者利用這些數據訓練出了一個具身智能化的視覺 - 語言模型 Octopus。上圖展現了完整的數據采集和訓練流程。在第一階段,通過使用采集的數據進行監督式微調,研究者構建出了一個能夠以視覺信息作為輸入,遵從固定格式進行輸出的 VLM 模型。在這一階段, 模型能夠完成視覺輸入信息到任務計劃以及可執行代碼的映射。而在第二階段,研究者引入了 RLEF

(Reinforcement Learning with Environmental Feedback),通過利用先前采集的子任務的成功情況作為獎勵信號,采用強化學習的算法更進一步的提升 VLM 的任務規劃能力,從而提高整體任務的成功率。

實驗結果

研究者在構建的 OctoGibson 環境中,對于當前主流的 VLM 和 LLM 進行了測試,下表展示了主要實驗結 果。對于不同的測試模型,Vision Model 列舉了不同模型所使用的視覺模型,對于 LLM 來說,研究者將視覺信息處理為文本作為 LLM 的輸入。其中 O 代表提供了場景中可交互物體的信息,R 代表提供了場景中 物體相對關系的信息,GT 代表使用真實準確的信息,而不引入額外的視覺模型來進行檢測。

對于所有的測試任務,研究者報告了完整的測試集成功率,并進一步將其分為四個類別,分別記錄在訓 練集中存在的場景中完成新任務,在訓練集中不存在的場景中完成新任務的泛化能力,以及對于簡單的 跟隨任務以及復雜的推理任務的泛化能力。對于每一種類別的統計,研究者報告了兩種評價指標,其中 第一個為任務的完成率,以衡量模型完成具身智能任務的成功率;第二個為任務規劃準確率,用于體現 模型進行任務規劃的能力。

讓AI模型成為GTA五星玩家,基于視覺的可編程智能體Octopus來了

此外,研究者還展示了不同模型對于 OctoGibson 仿真環境中采集的視覺數據的響應實例。下圖展示了 TAPA+CodeLLaMA,Octopus 以及 GPT-4V 對于 OctoGibson 當中視覺輸入生成的回復。可以看到,相較 于 TAPA+CodeLLaMA 以及只進行了監督式微調的 Octopus 模型,使用 RLEF 進行訓練之后的 Octopus 模型 的任務規劃更加合理,即使是對于較為模糊的任務指令(find a carboy)也能提供更加完善的計劃。這些表現都更進一步說明了 RLEF 訓練策略對于提升模型的任務規劃能力以及推理能力的有效性。

讓AI模型成為GTA五星玩家,基于視覺的可編程智能體Octopus來了

總體來說,現有的模型在仿真環境中表現出的實際任務完成度和任務規劃能力依舊有很大的提升空間。研究者們總結了一些較為關鍵的發現:

1.CodeLLaMA 能夠提升模型的代碼生成能力,但不能提升任務規劃能力。

研究者指出,通過實驗結果可以看出,CodeLLaMA 能夠顯著的提升模型的代碼生成能力。與傳統的 LLM 相比,使用 CodeLLaMA 能夠獲得更好的,可執行率更高的代碼。然而,盡管一些模型使用了 CodeLLaMA 進行代碼生成,但整體任務的成功率依然會受到任務規劃能力的限制。任務規劃能力較弱的模型,及時生成的代碼可執行率較高,最終的任務成功率依然較低;而反觀 Octopus,盡管未使用 CodeLLaMA,代碼的可執行率有所下降,但得益于其強大的任務規劃能力,整體任務成功率依舊優于其他模型。

2.LLM 在面對大量的文本信息輸入時,處理較為困難。

在實際的測試過程中,研究者通過對比 TAPA 和 CodeLLaMA 的實驗結果得出了一個結論,即語言模型很難較好地處理長文本輸入。研究者們遵從 TAPA 的方法,使用真實的物體信息來進行任務規劃,而 CodeLLaMA 使用物體和物體之間的相對位置關系,以期提供較為完整的信息。但在實驗過程中,研究者 發現由于環境當中存在大量的冗余信息,因此當環境較為復雜時,文本輸入顯著增加,LLM 難以從大量 的冗余信息當中提取有價值的線索,從而降低了任務的成功率。這也體現了 LLM 的局限性,即如果使用 文本信息來表示復雜的場景,將會產生大量冗余且無價值的輸入信息。

3.Octopus 表現出了較好的任務泛化能力。

通過實驗結果可以得出,Octopus 具有較強的任務泛化能力。其在訓練集當中未出現的新場景中完成任 務的成功率和任務規劃的成功率均優于已有的模型。這也展現出了視覺 - 語言模型的一些內在優勢,針對 同一類別的任務,其泛化性優于傳統的 LLM。

4.RLEF 能夠增強模型的任務規劃能力。

在實驗結果中,研究者們提供了只經過第一階段監督式微調的模型以及經過 RLEF 訓練之后模型的性能比 較。可以看出,在經過 RLEF 訓練之后,模型在需要較強的推理能力和任務規劃能力的任務上,整體成功 率和規劃能力有了顯著提升。與已有的 VLM 訓練策略相比,RLEF 也更加的高效。上圖所展示的示例也能夠體現 RLEF 訓練之后模型在任務規劃能力上的提升。經過 RLEF 訓練之后的模型能夠懂得在面對較為復雜的任務時,如何在環境當中進行探索;此外,模型在任務規劃上能夠更加遵從仿真環境中的實際要求(如,模型需要先移動到要交互的物體,才能開始交互),從而降低任務規劃的失敗比率。

討論

消融實驗

在對模型的實際能力進行評估之后,研究者們更進一步探究了一些影響模型性能的可能因素。如下圖所示,研究者從三個方面開展了實驗。

1. 訓練參數的比重

研究者對比了只訓練視覺模型與語言模型的連接層,訓練連接層和語言模型,以及完整訓練的模型的性能。可以看出,隨著訓練參數的增加,模型的性能逐漸獲得了提升。這說明,訓練參數的多少對于模型是否能夠在一些固定的場景當中完成任務至關重要。

2. 模型的大小

研究者們比較了較小的 3B 參數模型與基線 7B 模型在兩個訓練階段的性能差異。通過比較可以看出,當模型整體參數量較大時,模型的性能也會得到明顯的提升。如何選定合適的模型訓練參數,使得模型能夠 擁有完成對應任務的能力,同時也能夠保證模型的輕量化和較快的推理速度,將是未來 VLM 領域研究中較為關鍵的一點。

3. 視覺輸入的連續性

為了探究不同的視覺輸入對于實際 VLM 性能的影響,研究者對視覺信息的輸入順序進行了實驗。在測試 的過程中,模型會在仿真環境當中順序轉動,采集第一視角圖像,并采集兩張鳥瞰圖,之后這些視覺圖 像會按順序輸入 VLM 當中。而在實驗中,當研究者隨機打亂視覺圖像順序再輸入 VLM 中時,VLM 產生了 較大的性能損失。這一方面說明了完整且結構化的視覺信息對于 VLM 的重要性,另一方面也從某種程度上反映了 VLM 在對視覺輸入進行響應時需要依靠視覺圖像的內在聯系,而一旦這種視覺上的聯系被破壞,將會極大的影響 VLM 的表現。

讓AI模型成為GTA五星玩家,基于視覺的可編程智能體Octopus來了

GPT-4

此外,研究者還對 GPT-4 以及 GPT-4V 在仿真環境當中的性能進行了測試和統計。

1.GPT-4

針對 GPT-4,在測試過程中研究者提供與使用其采集訓練數據時完全相同的文本信息作為輸入。在測試任務上,GPT-4 能夠完成一半的任務,這一方面說明現有的 VLM 相對于 GPT-4 這樣的語言模型,從性能上還 有很大的提升空間;另一方面也說明,即使是 GPT-4 這樣性能較強的語言模型,在面對具身智能任務時, 其任務規劃能力和任務執行能力依然需要更進一步的提升。

2.GPT-4V

由于 GPT-4V 剛剛發布可以直接調用的 API,研究者還沒來得及嘗試,但是研究者們之前也手動測試了一些實例來展現 GPT-4V 的性能。通過一些示例,研究者認為 GPT-4V 對于仿真環境當中的任務具有較強的零樣本泛化能力,也能夠根據視覺輸入生成對應的可執行的代碼,但其在一些任務規劃上稍遜色于在仿真環境采集的數據上微調之后的模型。

總結

研究者們指出了目前工作的一些局限性:

1. 當前的 Octopus 模型在較為復雜的任務上性能并不令人滿意。在面對復雜任務時,Octopus 往往會做出錯誤的規劃,并且嚴重依賴于環境給出的反饋信息,最終往往難以完成整體的任務。

2.Octopus 模型僅在仿真環境當中進行訓練,而如何將其遷移到真實世界當中將會面臨一系列的問題。例如,真實環境當中模型將難以得到較為準確的物體相對位置信息,如何構建起物體對于場景 的理解將變得更加困難。

3.Octopus 目前的視覺輸入為離散的靜態圖片,如何使其能夠處理連續的視頻將是未來的挑戰。連續的視頻可以更進一步提高模型完成任務的性能,但如何高效地處理和理解連續視覺輸入將成為進一步提升 VLM 性能的關鍵。

分享到:
標簽:模型 AI
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定