日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

大語言模型因其強大而通用的語言生成、理解能力,展現出了成為通用智能體的潛力。與此同時,在開放式的環境中探索、學習則是通用智能體的重要能力之一。因此,大語言模型如何適配開放世界是一個重要的研究問題。

北京大學和北京智源人工智能研究院的團隊針對這個問題提出了 LLaMA-Rider,該方法賦予了大模型在開放世界中探索任務、收集數據、學習策略的能力,助力智能體在《我的世界》(Minecraft)中自主探索獲取知識并學習解決各種任務,提升智能體自主能力和通用性。

讓大模型自主探索開放世界,北大&智源提出訓練框架LLaMA-Rider 讓大模型自主探索開放世界,北大&智源提出訓練框架LLaMA-Rider

論文鏈接:https://arxiv.org/abs/2310.08922

代碼鏈接:https://Github.com/PKU-RL/LLaMA-Rider

1、環境反饋驅動的探索與學習

LLaMA-Rider 著眼于讓大語言模型 (LLM) 適應環境從而提高在環境中解決多任務的能力。LLM 在預訓練階段獲得的知識與實際環境很可能存在不一致,這常常導致決策錯誤。為了解決這個問題,現有的方法有些利用提示工程,通過和 LLM 頻繁交互讓其獲取環境信息,不過并不更新 LLM;有些使用強化學習在線微調 LLM,不過其計算代價高且難以擴展到多任務和復雜任務。

LLaMA-Rider 對此提出了新的思路。它首先利用環境的反饋信息,靠 LLM 自身的能力在環境中探索,收集成功經驗。之后,LLaMA-Rider 將經驗整合成監督數據集進行學習,更新自身的知識。這樣一個兩階段的訓練框架讓 LLaMA-Rider 能夠在 Minecraft 環境中的 30 個任務上取得超過 ChatGPT 任務規劃器的平均表現,并展現出對新任務的泛化能力。

讓大模型自主探索開放世界,北大&智源提出訓練框架LLaMA-Rider

在探索階段,LLaMA-Rider 利用反饋 - 修改機制來進行主動探索。在每個時間步上,LLaMA-Rider 接收文本化的環境信息和任務信息,并給出下一步的決策。由于與環境的知識差距,該決策可能無法在環境中執行并觸發環境的反饋信息,而該反饋信息會再次輸入給 LLaMA-Rider,引導其修改決策。憑借 LLM 自身的上下文理解能力和環境反饋信息,LLaMA-Rider 可高效探索開放世界。

為了將 LLM 的文本輸出匹配到環境的動作空間,LLaMA-Rider 使用了一組預訓練的技能作為技能庫,并使用技能檢索模塊將 LLM 的輸出文本和技能庫中的技能描述進行匹配,檢索最接近的技能。由于技能描述和環境中的動作相比具有更多的語義,這種方式可以更大程度利用 LLM 的能力。

此外,LLaMA-Rider 使用了子任務重標記的方法,在探索過程中用當前正在完成的子任務信息替換輸入中的原始任務信息,讓 LLM 在探索過程中能關注當下的子目標,提高任務成功率。

讓大模型自主探索開放世界,北大&智源提出訓練框架LLaMA-Rider

在學習階段,探索時收集到的經驗將會整合成監督數據集,用以對 LLM 進行監督微調 (SFT)。數據集中同樣采用子任務重標記的方法讓 LLaMA-Rider 學習到任務之間的子任務組合性,提高策略的泛化能力。

2、實驗效果

LLaMA-Rider 使用的大語言模型為近期推出的 LLaMA-2-70B-chat。在 Minecraft 的三類共 30 個任務中,LLaMA-Rider 的表現超過了基于 ChatGPT 的任務規劃器,并且經過學習后的 LLaMA-Rider 所能完成的任務數量也超過了它在探索階段能成功的數量,展現出 LLaMA-Rider 對于開放世界中持續學習和多任務解決的能力。

與強化學習 (RL) 方法相比,LLaMA-Rider 則展現出了高采樣效率和低訓練代價的優勢。即使在難度較簡單、完成步數較短的木材相關任務上,RL 方法也難以取得訓練成效,表明強化學習的訓練方法難以擴展到大動作空間以及復雜的場景中。而 LLaMA-Rider 在探索階段只采用了 5-10 次的任務探索便完成數據收集,在學習階段也只在包含 1.3k 樣本量的數據集上進行訓練就取得了效果提升。

讓大模型自主探索開放世界,北大&智源提出訓練框架LLaMA-Rider

作者進而發現,在對上述的 30 個任務進行探索學習后,LLaMA-Rider 在測試時對于學習過程中未探索過的更困難的鐵礦相關任務,也能取得效果的提升。這進一步體現了 LLaMA-Rider 學習到的決策能力的泛化性。

讓大模型自主探索開放世界,北大&智源提出訓練框架LLaMA-Rider

在消融實驗中,作者利用包含更多子任務的石頭相關任務,驗證了子任務重標記的方法對于任務成功率和任務泛化能力的關鍵作用。

讓大模型自主探索開放世界,北大&智源提出訓練框架LLaMA-Rider

除此之外,盡管 LLaMA-Rider 只學習了任務決策相關的數據,當作者使用任務相關的問題進行提問時,LLaMA-Rider 也給出了更準確的回答,表明它在訓練過程中同樣學習到了環境知識,證明 LLaMA-Rider 起到了與環境知識對齊的作用。

讓大模型自主探索開放世界,北大&智源提出訓練框架LLaMA-Rider

3、總結

作者提出了 LLaMA-Rider 的大語言模型訓練框架,讓大語言模型根據環境反饋結合自身能力自主探索開放世界,并根據收集到的經驗完成高效學習,在 Minecraft 環境中取得了比包括 ChatGPT 任務規劃器在內的其他方法更好的解決多任務的能力,讓大語言模型獲得了對開放世界的適應性。此外,LLaMA-Rider 能利用過去任務的經驗解決新任務的泛化能力表明了該方法應用于大模型終身探索學習的前景。

分享到:
標簽:模型
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定