【ITBEAR】9月28日消息,中國電信人工智能研究院近日取得了重大突破,成功完成了國內(nèi)首個完全基于國產(chǎn)化萬卡集群訓(xùn)練的萬億參數(shù)大模型,并將千億參數(shù)的星辰語義大模型TeleChat2-115B對外開源。
這一里程碑式的成果顯示,國產(chǎn)大模型訓(xùn)練已全面實現(xiàn)國產(chǎn)化替代,邁入了自主創(chuàng)新、安全可控的新階段。TeleChat2-115B大模型依托于天翼云的“息壤一體化智算服務(wù)平臺”及“星海AI平臺”進行訓(xùn)練,不僅保證了訓(xùn)練精度,還通過多項優(yōu)化技術(shù)顯著提升了訓(xùn)練效率和穩(wěn)定性。
在模型訓(xùn)練過程中,TeleAI團隊創(chuàng)新性地采用了小模型Scaling策略,有效驗證了不同模型結(jié)構(gòu)的性能。同時,通過精細的數(shù)據(jù)配比和回歸預(yù)測模型,實現(xiàn)了訓(xùn)練數(shù)據(jù)的優(yōu)化配置。
后訓(xùn)練階段,TeleAI合成了大量針對數(shù)學(xué)、代碼和邏輯推理的問答數(shù)據(jù),用于監(jiān)督式微調(diào)。團隊還采用迭代式更新和拒絕采樣技術(shù),進一步提升了模型生成的答案質(zhì)量和數(shù)據(jù)代表性。
為便于業(yè)界同仁共同研究與進步,TeleChat2-115B大模型已在多個平臺開源,包括GitHub、Gitee、ModelScope和Modelers,供全球開發(fā)者和研究者免費訪問和使用。