近期,網易有道在翻譯技術領域取得了重大突破,成功研發出一款基于自研“有道翻譯大模型2.0”的140億參數專業領域小模型,這一消息由AsianFin獲悉。
這款新型翻譯模型在保持卓越翻譯性能的同時,顯著降低了計算資源消耗和部署成本,使其更容易融入現有的系統和設備中,進一步拓寬了技術的應用范圍。
網易有道已將這一大型模型技術應用于有道詞典、有道翻譯和有道翻譯官等產品中。用戶現在可以在標準模型和高級模型之間進行無縫切換,享受更加靈活多樣的翻譯服務。
網易有道還將這款大型模型融入其智能硬件產品中。其中,有道詞典筆X7系列已經率先升級至最新版本,其他設備也將陸續跟進。
值得注意的是,大型語言模型的性能并不僅僅取決于參數數量,還受到數據質量、領域適應性和算法優化等多重因素的影響。網易有道的140億參數專業領域小模型在數據處理方面取得了顯著進展,采用了經過專業英語教師和翻譯人員精心標注的高質量翻譯語料庫,這一龐大的數據資源有效提升了模型在多種翻譯場景下的處理能力。
在算法層面,有道在“有道翻譯大模型2.0”的基礎上進行了二次預訓練,打造出了一款兼顧專業準確性和領域特異性的翻譯基礎模型。通過大型模型蒸餾、模型融合和在線直接偏好優化(DPO)等技術手段,有效避免了災難性遺忘問題,并在運算效率、準確性和流暢性方面顯著提升了翻譯性能。
為了評估模型的性能,有道開發了一款名為“獎勵模型”的翻譯評估工具,該工具利用累積的翻譯數據為評估提供了可靠的量化基礎。同時,結合全面的手動評估框架,實現了對模型翻譯結果的多維度分析。
據悉,“有道翻譯大模型2.0”在中文到英文的翻譯方面,特別是在垂直領域場景下,取得了顯著改進。有道內部評估顯示,新模型在人文、商務、生活服務、醫療和科學等19個垂直領域表現出更高的準確性和流暢性。在專業性、準確性、語言規范和風格方面均優于前代版本。
網易有道相關負責人強調了垂直模型的重要性:“通用大型模型在參數和計算能力上展開競爭,但翻譯不能僅憑參數堆疊來實現專業性。在通用大型模型競相擴大規模的同時,我們堅信垂直模型的未來價值。我們致力于通過專業應用解決專業場景中的痛點。”
在大模型技術興起之前,有道的翻譯解決方案主要基于統計機器翻譯和神經機器翻譯(NMT)。如今,有道的翻譯產品已擁有超過10億用戶。據Quest Mobile數據顯示,網易有道詞典月活躍用戶已超過1億,并自2019年以來連續六年穩居教育工具類應用榜首。