H100加速新突破！Flash Attention作者推QuACK內核庫，無需CUDA代碼性能提升顯著-魔扣目錄

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告：魔扣目錄網為廣大站長提供免費收錄網站服務，提交前請做好本站友鏈：【網站目錄：http://www.ylptlb.cn 】，免友鏈快審服務（50元/站），

網站：52011
待審：79
小程序：12
文章：1184964
會員：801

H100加速新突破！Flash Attention作者推QuACK內核庫，無需CUDA代碼性能提升顯著

發布時間：2025-07-11 21:01:56 作者：網友整理

近期，一項由Flash Attention聯合創作者Tri Dao攜手普林斯頓大學兩位研究生帶來的技術創新，在深度學習界掀起了波瀾。他們推出的QuACK內核庫，憑借純Python與CuTe-DSL的結合，在不依賴CUDA C++的情況下，于H100顯卡上實現了性能上的飛躍，速度超越了PyTorch的torch.compile和Liger等主流庫，提升幅度高達33%至50%。

Tri Dao分享道，內存密集型內核的高效運作并非遙不可及的秘密，而是基于對特定細節的精細雕琢。他著重指出，深入理解現代加速器的線程與內存層級結構是提升性能的關鍵。借助CuTe-DSL這一Python基礎的領域特定語言，開發者得以在更直觀友好的環境下，實現性能的大幅躍升。

QuACK的創新成果迅速吸引了行業專家的目光。英偉達CUTLASS團隊的資深成員Vijay對其表達了高度贊揚，并指出CuTe-DSL的設計極大簡化了GPU高效運行的實現過程。他還預告，年內將有更多相關精彩內容問世。同時，PyTorch團隊的Horace He也對這一創新展現出了濃厚興趣，認為它在長序列處理方面具有顯著優勢。

為了讓更多開發者能夠利用這一創新，QuACK的開發者們精心編寫了一份詳盡教程，詳細介紹了實現步驟及相關代碼，便于開發者直接上手應用。教程強調，在GPU的模型訓練和推理過程中，既要注重計算密集型內核的優化，也不可忽視內存密集型內核的提升。鑒于矩陣乘法和注意力機制的優化已相對成熟，此次研究將重點放在了內存密集型內核的優化上。

開發者們解釋說，內存密集型內核的算術強度相對較低，因此其吞吐量更多地依賴于每秒傳輸的數據量。通過充分利用GPU的內存層級結構和硬件特性，他們成功地將內存密集型內核的性能提升至接近極限的水平，這一成就無疑為深度學習領域帶來了新的突破。

分享到：

標簽：新突破內核無需加速提升