日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:52011
  • 待審:79
  • 小程序:12
  • 文章:1184964
  • 會員:801

在人工智能領域,一項由牛津大學劉世偉教授領銜的國際合作研究近日引起了廣泛關注。該研究聯合了西湖大學、埃默里大學、大連理工大學及薩里大學等多家頂尖學府,其突破性成果已于2025年7月發表于人工智能領域的權威期刊上。論文題為《大型語言模型中的深度困境》,感興趣的讀者可訪問arXiv:2502.05795v2獲取全文。

該研究深入探討了當前最先進的大型語言模型(例如ChatGPT、Claude等)在訓練過程中的一個奇特現象:模型層次越深,后續層級的重要性反而越小。為了形象地說明這一問題,研究團隊將其比喻為一座智慧大樓,其中每一層本應各司其職,共同為最終智能輸出貢獻力量。然而,他們驚人地發現,大樓的上半部分“工匠”幾乎在消極怠工,即便移除這些層級,模型的整體表現也幾乎不受影響。

為了驗證這一現象的普遍性,研究團隊選取了當前流行的多個大型語言模型家族作為測試對象,包括Llama、Mistral、DeepSeek和Qwen系列。他們巧妙地設計了一系列實驗,通過逐一移除模型的不同層級,觀察并記錄模型性能的變化。實驗結果令人震驚:移除深層的多個層級后,模型的表現幾乎未受影響,甚至在某些情況下略有提升;相反,移除淺層的任何一層都會導致模型性能顯著下降。

研究團隊將這一奇特現象命名為“深度困境”。這一名稱形象地揭示了當前大型語言模型訓練中的一個根本矛盾:盡管我們投入了大量計算資源來訓練更深的模型,期望獲得更強的能力,但實際上,越深的層級對模型的貢獻越小,仿佛被某種無形的困境所束縛。

為了深入理解這一現象,研究團隊進一步分析了層與層之間表示的相似性。他們利用角度距離這一數學工具來測量不同層級的輸出相似性。結果表明,在深層網絡中,相鄰層級的輸出幾乎完全相同,這意味著這些層級只是在重復前面層級的工作,沒有產生任何新的有用信息。

研究團隊還對比了兩種不同的網絡架構設計:現代大型語言模型普遍采用的“前置層歸一化”(Pre-LN)與較早模型使用的“后置層歸一化”(Post-LN)。通過對比實驗,他們發現采用Pre-LN的模型更容易出現深度困境現象,而采用Post-LN的模型則表現出相反的趨勢:深層比淺層更重要。這一發現為理解深度困境的根源提供了重要線索。

為了揭示深度困境的理論根源,研究團隊深入探討了Pre-LN架構的工作原理。他們發現,在Pre-LN架構中,隨著網絡層數的增加,輸出的方差會呈指數級增長。這種增長導致深層網絡的梯度趨近于單位矩陣,使得這些層級幾乎變成了“透明層”,沒有進行任何有意義的轉換。為了直觀理解這一概念,研究團隊用烹飪過程進行了類比:如果后續步驟只是簡單的“保溫”操作,那么無論進行多少步驟,最終的味道都不會有太大變化。

面對這一棘手問題,研究團隊提出了一個簡潔而有效的解決方案:層歸一化縮放(LNS)。這一方法的核心思想是通過給每一層的輸出乘以一個與層深度相關的縮放因子來控制方差的增長。縮放因子等于當前層深度的平方根的倒數,即1/√l,其中l為層的索引。這種設計確保了每一層都能發揮其應有的作用,避免了深層網絡的“偷懶”現象。

為了驗證LNS的有效性,研究團隊進行了大規模的實驗驗證。實驗涵蓋了從小型模型到大型模型的各種規模,結果顯示LNS在所有測試規模上都顯著優于傳統的歸一化方法。特別是在工業級別的訓練規模下,LNS仍然表現出顯著的性能提升。

研究團隊還進行了下游任務的微調實驗。他們使用Commonsense170K數據集在八個不同的推理任務上測試了經過LNS預訓練的模型。結果顯示,使用LNS預訓練的模型在微調后的表現也明顯優于傳統方法。這表明LNS不僅改善了預訓練效果,還增強了模型的通用學習能力。

為了深入理解LNS的工作機制,研究團隊還進行了詳細的分析實驗。他們驗證了LNS確實能夠有效控制輸出方差,并分析了LNS對層間表示多樣性的影響。實驗結果表明,LNS成功地讓每一層都發揮了應有的作用,提高了模型的整體性能。

LNS的實現既簡單又巧妙。它不需要引入額外的可學習參數或調整任何超參數,只需在每個層歸一化操作的輸出后乘以相應的縮放因子即可。這種設計既保持了Pre-LN的訓練穩定性優勢,又解決了深層網絡效果不佳的問題。

值得注意的是,研究團隊還發現LNS與某些初始化策略可能存在沖突。他們建議在使用LNS時移除縮放初始化以獲得最佳性能提升。研究團隊還將LNS應用到視覺Transformer中進行了初步探索,發現LNS的具體實現可能需要根據不同的模型架構和任務進行調整。

這項研究的實際應用價值巨大。當前訓練大型語言模型需要消耗大量計算資源和能源,而深度困境意味著其中相當一部分投資實際上是浪費的。LNS的引入能夠提高訓練效率和最終性能,降低計算成本。

對于工業界來說,這意味著在相同的計算預算下可以獲得更好的模型性能,或者在保持性能不變的情況下顯著降低計算成本。考慮到大型語言模型的訓練成本高昂,這種效率提升的經濟價值不言而喻。

對于研究界來說,這項工作開啟了重新審視現有架構設計的新視角。它表明,即使是被廣泛采用的設計選擇也可能存在根本性缺陷,需要更深入的理論分析來發現和解決。研究團隊的工作為未來模型架構的設計提供了重要指導,強調了在追求更深、更大的模型時,必須仔細考慮深度對模型行為的影響。

分享到:
標簽:牛津大學 縮放 詛咒 揭秘 深度
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 52011

    網站

  • 12

    小程序

  • 1184964

    文章

  • 801

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定