PyTorch,這一廣受歡迎的開源機器學習框架,近期正式推出了其最新版本——2.8版。此次版本更新聚焦于提升量化大語言模型(LLM)在Intel CPU上的推理性能,吸引了眾多開發者和研究人員的目光。
在PyTorch 2.8中,開發者團隊通過算法優化和技術革新,顯著提高了量化LLM的推理速度。新版本支持多種量化模式,諸如A16W8、DA8W8及A16W4等,為開發者提供了更多選擇。據測試數據顯示,在Intel第六代Xeon平臺上運行Llama-3.1-8B模型時,PyTorch 2.8實現了超過20%的端到端延遲降低,其性能表現甚至能夠媲美一些主流LLM服務框架。
PyTorch 2.8還首次為Intel離散GPU引入了XCCL分布式后端的實驗性支持。這一新功能的加入,為開發者在不同訓練模式下的應用提供了更大的靈活性,使得模型能夠在更多樣化的硬件環境中發揮出色性能。
PyTorch 2.8還包含了一系列其他重要改進。其中,SYCL支持的引入進一步豐富了PyTorch的C++擴展API功能,而XPU設備也新增了對A16W4模式的支持。開發團隊還為libtorch ABI提供了穩定接口,有效減少了第三方C++/CUDA擴展中的兼容性問題,為開發者帶來了更多便利。
針對ROCm的支持也得到了顯著提升,PyTorch 2.8增加了對gfx950架構的支持,并結合TorchInductor和AOTInductor,提供了多個內核的自動調優模板。同時,新版本還引入了條件判斷、循環等控制流操作,使得模型的編譯和導出過程更加高效,進一步提升了開發效率。
PyTorch 2.8的發布,無疑為機器學習領域注入了新的活力,為開發者提供了更加強大的工具。這一版本的諸多改進和創新,將有力推動大語言模型的應用和發展,為人工智能領域帶來更多可能性。
感興趣的開發者可以前往PyTorch的官方GitHub頁面下載最新版本:https://github.com/pytorch/pytorch/releases/tag/v2.8.0。