字節跳動旗下的Seed團隊最近公布了一項名為Seed Diffusion Preview的實驗性語言模型,這標志著語言模型技術領域的一次重要飛躍。該模型專注于通過一系列代碼生成實驗,探索離散擴散技術路徑能否成為未來語言模型的核心架構。
Seed Diffusion Preview在推理速度方面實現了顯著提升,達到了每秒2146個tokens的驚人速度,這比同等規模的自回歸模型快了5.4倍。同時,在多個代碼生成基準測試中,它的性能與自回歸模型不相上下,甚至在某些方面有所超越。
這款模型的推出,主要是為了克服自回歸模型在推理速度和全局控制方面的不足。擴散模型在圖像和視頻合成等連續數據領域已經取得了顯著成果,但在自然語言等離散數據領域的應用卻面臨諸多挑戰。其中,最主要的問題是標準擴散過程與離散狀態空間的不兼容。
為了應對這些挑戰,Seed Diffusion Preview采用了四項創新技術。首先,兩階段課程學習策略,通過掩碼擴散訓練和編輯擴散訓練,增強了模型的局部上下文補全能力和全局代碼合理性評估能力。其次,約束順序擴散技術,通過引入代碼的結構化先驗知識,幫助模型更好地理解代碼中的依賴關系。第三,同策略學習技術,通過優化生成步驟,進一步提升了模型的推理速度。最后,塊級并行擴散采樣方案,在保證因果順序的同時,實現了高效的塊級推理。
實驗數據表明,Seed Diffusion Preview在代碼推理速度上的表現極為出色,達到了2146tokens/s,遠超同等規模的自回歸模型。更重要的是,這種速度的提升并沒有犧牲模型的性能。在多個業界基準測試中,它的表現與頂尖的自回歸模型相當,甚至在代碼編輯等復雜任務上表現得更為出色。這一成果不僅證明了離散擴散模型在推理加速方面的巨大潛力,還展示了它在處理復雜推理任務時的優勢。
想要了解更多關于Seed Diffusion Preview的信息,可以訪問項目頁面:https://seed.bytedance.com/seed_diffusion。同時,你也可以通過以下鏈接體驗該模型:https://studio.seed.ai/exp/seed_diffusion。