PyTorch 2.8發布：LLM推理性能大幅提升，Intel GPU分布式后端實驗性支持上線-魔扣目錄

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告：魔扣目錄網為廣大站長提供免費收錄網站服務，提交前請做好本站友鏈：【網站目錄：http://www.ylptlb.cn 】，免友鏈快審服務（50元/站），

網站：52011
待審：79
小程序：12
文章：1184964
會員：801

PyTorch 2.8發布：LLM推理性能大幅提升，Intel GPU分布式后端實驗性支持上線

發布時間：2025-08-09 04:59:06 作者：網友整理

PyTorch，這一廣受歡迎的開源機器學習框架，近期正式推出了其最新版本——2.8版。此次版本更新聚焦于提升量化大語言模型（LLM）在Intel CPU上的推理性能，吸引了眾多開發者和研究人員的目光。

在PyTorch 2.8中，開發者團隊通過算法優化和技術革新，顯著提高了量化LLM的推理速度。新版本支持多種量化模式，諸如A16W8、DA8W8及A16W4等，為開發者提供了更多選擇。據測試數據顯示，在Intel第六代Xeon平臺上運行Llama-3.1-8B模型時，PyTorch 2.8實現了超過20%的端到端延遲降低，其性能表現甚至能夠媲美一些主流LLM服務框架。

PyTorch 2.8還首次為Intel離散GPU引入了XCCL分布式后端的實驗性支持。這一新功能的加入，為開發者在不同訓練模式下的應用提供了更大的靈活性，使得模型能夠在更多樣化的硬件環境中發揮出色性能。

PyTorch 2.8還包含了一系列其他重要改進。其中，SYCL支持的引入進一步豐富了PyTorch的C++擴展API功能，而XPU設備也新增了對A16W4模式的支持。開發團隊還為libtorch ABI提供了穩定接口，有效減少了第三方C++/CUDA擴展中的兼容性問題，為開發者帶來了更多便利。

針對ROCm的支持也得到了顯著提升，PyTorch 2.8增加了對gfx950架構的支持，并結合TorchInductor和AOTInductor，提供了多個內核的自動調優模板。同時，新版本還引入了條件判斷、循環等控制流操作，使得模型的編譯和導出過程更加高效，進一步提升了開發效率。

PyTorch 2.8的發布，無疑為機器學習領域注入了新的活力，為開發者提供了更加強大的工具。這一版本的諸多改進和創新，將有力推動大語言模型的應用和發展，為人工智能領域帶來更多可能性。

感興趣的開發者可以前往PyTorch的官方GitHub頁面下載最新版本：https://github.com/pytorch/pytorch/releases/tag/v2.8.0。

分享到：

標簽：實驗性分布式推理大幅后端