日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

ChatGPT 的誕生,讓基于 Transformer 的大型語言模型 (LLM) 為通用人工智能(AGI)鋪開了一條革命性的道路,并在知識庫、人機交互、機器人等多個領域得到應用。然而,目前存在一個普遍的限制:由于資源受限,當前大多 LLM 主要是在較短的文本上進行預訓練,導致它們在較長上下文方面的表現較差,而長上下文在現實世界的環境中是更加常見的。

最近的一篇綜述論文對此進行了全面的調研,作者重點關注了基于 Transformer 的 LLM 模型體系結構在從預訓練到推理的所有階段中優化長上下文能力的進展。

面向超長上下文,大語言模型如何優化架構,這篇綜述一網打盡了

論文鏈接:https://arxiv.org/pdf/2311.12351.pdf

論文首先分析了使用當前基于 Transformer 的模型處理長上下文輸入和輸出的問題。然后,提供了一個全面的分類體系,以指導 Transformer 架構升級的領域,來解決這些問題。作者對長上下文 LLM 廣泛使用的評估需求進行了調研,包括數據集、度量標準和基準模型,以及一些令人驚奇的優化工具包,如庫、系統和編譯器,以增強 LLM 在不同階段的效率和功效。最后,文章進一步討論了這一領域未來研究的主要挑戰和潛在方向。作者還建立了一個倉庫,匯總了相關文獻,并提供實時更新 https://Github.com/Strivin0311/long-llms-learning。

綜述概覽

文章從基本的語言建模目標 (第 2.1 節) 開始,內容涵蓋從典型的建模階段到在基于 Transformer 的僅解碼 LLM 中找到的關鍵架構模塊,如圖 1 (a) 所示。隨后,作者對 LLM 在遇到擴展上下文窗口時的架構限制進行了簡要分析 (第 2.2 節)。最后提出了一個全面的方法論分類法 (第 2.3 節),旨在通過架構創新增強 LLM 的長上下文能力 (見圖 1 (b))。這個分類法作為文章的第 3、4、5、6、7 節的指南。

面向超長上下文,大語言模型如何優化架構,這篇綜述一網打盡了圖 1:文章核心概述:(a) 現代基于 Transformer 的僅解碼 LLMs 的典型架構解剖圖,右上角有圖例;(b) 用于增強 Transformer 架構模塊的方法論分類法(與 (a) 相對應的顏色):高效注意力(注意力核心的子模塊),長期記憶(針對 KV 緩存),外推性 PEs(針對位置嵌入模塊),上下文處理(與上下文預 / 后處理有關)和雜項(整個解碼器塊以及損失模塊通用)。

長上下文,目前有哪些難點待突破?

注意力復雜度。在典型情況下 L ? d,MHA 的計算復雜性可以簡潔總結如下:它涉及 O (L 2d) 的時間復雜度,包括 QKV 投影的 O (Ld2),計算 P 的 O (L 2d),通過 softmax 運算獲取 A 的 O (L 2 ),A 與 V 相乘的 O (L 2d),以及輸出投影 O 的 O (Ld2)。它還產生 O (L 2) 的空間復雜度,包括 Q、K、V、O 的嵌入的 O (Ld),以及額外的 O (L 2) 緩沖區用于存儲權重 P 和 A。因此,隨著序列長度的增加,時間和空間計算成本都呈二次增加,這對于訓練和推理可能都是繁重的。

上下文記憶。LLM 缺乏顯式的記憶機制,完全依賴 KV 緩存來存儲列表中所有先前 token 的表示。這種設計一旦在一個調用中完成查詢,Transformer 在后續的調用中不會保留或召回任何先前的狀態或序列,除非整個歷史記錄逐個 token 重新加載到 KV 緩存中。因此,Transformer 在每個調用中僅具有一個上下文工作記憶,而不是像長短時記憶 (LSTM) 這樣的內在記憶機制。這種無狀態性在并行性方面提供了計算優勢,但在聊天機器人應用等需要長期記憶保留的任務中的挑戰很明顯。

最大長度約束。在訓練階段,工程師通常需要確定一個關鍵的超參數 max-length,本文中表示為 L_max。這個超參數代表了批次中任何訓練樣本的序列長度的上限,通常根據可用的計算資源設置為 1k、2k 或 4k,以避免在 GPU 上發生內存溢出 (OOM) 錯誤。在推理階段,LLM 的服務提供者還必須限制用戶提示的長度或自動截斷它們以與預定義的 L_max 對齊,即使推理資源通常比訓練階段更豐富。需要注意的是 Transformer 的任何模塊在本質上都不需要這樣的限制,因為所有學習的權重僅依賴于維度大小。因此,理論上只要資源足夠,Transformer 可以處理任意長度的序列。然而,當前的語言模型在處理超過 L_max 的輸入序列時通常表現出明顯的性能下降,經常導致重復和不切實際的輸出。

改進的新方法

對于上述限制,有多種改進方法可以探索,例如在訓練過程中減少注意力復雜性、設計高效的記憶機制,以及增強長度外推的能力,該模型在短序列上進行訓練,但在推理過程中對更長的序列進行測試。

因此,論文全面回顧了致力于改進 LLM 長上下文能力的各個階段的最新方法,并將它們組織成一個統一的分類法,如圖 1 (b) 所示。具體而言,這些方法被分為五個主要的類別,如下:

高效注意力 (論文第 3 節):這些方法側重于實現具有降低計算要求的高效注意力機制,甚至實現了線性復雜度。通過這樣做,它們能夠通過直接在預訓練階段增加 L_max 來推進 LLM 在推理期間的有效上下文長度邊界。

長期記憶 (論文第 4 節):為了解決上下文工作記憶的局限性,一些方法旨在設計明確的記憶機制,彌補 LLM 中缺乏高效和有效的長期記憶的不足。

外推性 PEs (論文第 5 節):最新的研究致力于通過改進現有位置編碼方案的外推性能來增強 LLM 的長度泛化能力。

上下文處理 (論文第 6 節):除了增強特定低級 Transformer 模塊的方法外,一些方法涉及對現成的 LLM 與額外的上下文預 / 后處理。這些方法確保每次調用 LLM 時輸入始終滿足最大長度要求,并通過引入多個調用開銷打破上下文窗口限制。

雜項 (論文第 7 節):探討了各種一般且有價值的方法,這些方法不容易歸入前面四類,為推進 LLM 的長上下文能力提供了更廣泛的視角。

未來方向

論文的第 3、4、5、6 節中討論了該領域取得的顯著進展,但仍然存在一些挑戰。下面是對一些關鍵挑戰的探討以及未來在增強基于 Transformer 的 LLM 的長上下文能力方面進行研究和開發的潛在方向,重點關注架構的增強。

注意力 Trade-off。在第 3 節,作者探討了高效注意方法往往涉及在保持全尺度注意力依賴性(例如局部注意力)或通過近似注意力提高注意力分數精度以減輕標準注意內核的計算需求之間的微妙權衡。然而,隨著上下文的延長,話語結構和相互關聯的信息變得越來越復雜,需要捕捉全局、長距離的依賴性,同時保持精確的相關性。

解決這一挑戰需要在計算效率和盡可能保留注意模式精度之間找到最佳平衡。因此,在長上下文 LLM 領域,這仍然是一個持續追求的目標。最近的創新如 Flash Attention,探索了算法級別之外的 IO 感知解決方案,極大地提高了運行時和記憶開銷的效率,而不會喪失注意精度。這是在實際應用中解決這個問題的一個激動人心的潛在途徑。此外,可以探索在「即插即用」替代方案中集成先前的高效策略,利用強大的 GPU 內核編程工具 (如 CUDA) 或更輕量級的 Triton。

記憶效果和效率。正如在文章第 2.1、2.2 節中前面討論的,作者已經概述了由于缺乏明確的記憶機制,僅依賴上下文內工作記憶以及在延長上下文交互期間 KV 緩存記憶消耗顯著增加而產生的限制。這些挑戰共同強調了在基于 Transformer 的 LLM 領域需要更有效和高效的記憶機制。雖然第 4 節中引入了各種長期記憶機制,但它們受到其復雜啟發式設計引入的額外記憶開銷的限制,因此隨著時間的推移可能導致性能下降。為了解決這一挑戰,研究人員可以從最近的進展中汲取靈感,比如 Paged Attention,研發更有效的記憶存儲策略,增強讀 / 寫吞吐量。

長度外推挖掘。在第 5 節中,作者對與基于 Transformer 的模型的長度外推相關的挑戰進行了徹底的分析,重點關注了位置嵌入的普遍設計。文章提供了對最近突破的全面概述,特別是應用于 RoPE 的擴展策略,作者相信這在解決外推限制方面具有重要的前景。值得注意的是,這些進步往往依賴于對復雜高維位置嵌入屬性的簡化觀察,并包含簡單的啟發式調整。作者對使用高維嵌入來建模序列性的理論基礎提出質疑,并探索在這些啟發式設計的指導下引導具有許多超參數的可學習嵌入的潛在復蘇。作者認為未來的研究應該深入探討這一領域,尤其是在 Transformer 設置下為建模序列性開發健壯的理論框架方面,比如 CLEX 所實現的內容。

特定但通用目標。前文已經為長文本建模量身定制的具體目標做了討論,但值得注意的是,許多目標僅限于某些類型的任務,或者僅與 MLM 目標兼容,而不是如今更普遍的 CLM 目標。這突顯了需要特定但普遍適用的因果語言建模目標,可以在模型訓練的早期有效捕捉長距離依賴性。通過與先前提到的目標相一致,這是可能實現的。

可靠的度量需求。在評估度量方面,文章的第 8 節中研究了許多可選項。根據在評估中的先前經驗,常用的度量,如 ROUGE 分數,與人類判斷分數存在顯著差異,后者可以看作是「神諭」。隨著 LLM 在現實世界場景中的快速部署,越來越迫切地需要更可靠的度量來評估長上下文能力,特別是在生成性任務中,其中精確的真實性難以捉摸。一個有希望的途徑涉及利用最先進的 LLM (如 GPT4) 的魯棒性作為人類評審的替代,盡管相關的高成本仍然在更廣泛地在研究界中采用方面帶來挑戰。

更多研究細節,可參見原論文。

分享到:
標簽:模型 語言
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定