近日,由環球時報、中國科協新技術開發中心及清華大學技術創新研究中心攜手舉辦的新質生產力產業實踐洞見活動在京拉開帷幕。此次活動匯聚了業界眾多精英,共同探討大模型產業的現狀與未來。
活動中,清華大學計算機系教授、中國工程院院士鄭緯民發表了深刻見解。他指出,2024年,國內大模型產業展現出兩大顯著趨勢:一是從基礎大模型向多模態的拓展,二是大模型與行業應用的深度融合。鄭院士認為,中國在推進大模型與行業結合方面具有顯著優勢,有望在全球范圍內領先。
鄭緯民院士詳細剖析了大模型生命周期的五個核心環節及其面臨的挑戰。首先是數據獲取環節,面對海量的數據文件,如何高效讀取和處理成為一大難題。緊接著是數據預處理環節,由于原始數據質量參差不齊,直接用于訓練效果不佳,需經過繁瑣的預處理流程。以GPT-4為例,其訓練過程中有近半時間用于數據預處理,效率亟待提升。
在數據預處理方面,當前主流軟件Spark雖具有生態完善、可擴展性和容錯性強的優勢,但處理速度較慢且內存占用高。針對這一問題,清華大學的研究團隊通過部分模塊采用C++編寫及優化內存占用等方法,有望將預處理時間減半。
模型訓練環節則對計算、存儲等資源提出了更高要求。鄭緯民院士強調了訓練過程中的可靠性問題,指出即使是世界先進水平的系統,也難免出現錯誤,嚴重影響訓練效率。業內正積極探索更高效的讀寫方案,以應對這一挑戰。
模型微調環節則是將基礎大模型針對特定行業或場景進行二次訓練,以獲取更加精準的結果。例如,在醫療領域,可在基礎大模型基礎上結合醫院數據進行二次訓練,形成醫療領域的大模型,進而針對更細分的領域進行多次訓練,以不斷提升模型的精準度和實用性。
最后一個環節是推理,即將訓練好的大模型應用于實際場景中,實現其價值。
鄭緯民院士還指出,AI芯片作為大模型產業的焦點,國產AI芯片在近年來取得了顯著進步,但生態問題仍是制約其發展的關鍵因素。構建國產萬卡系統和異構卡聯合訓練成為業界共同努力的方向。
科大訊飛聯合創始人、高級副總裁江濤在活動中透露,科大訊飛與華為聯合推出了國內首個萬卡規模大模型算力平臺“飛星一號”,該平臺能夠實現大模型訓練推理一體化設計,有效解決大模型時代的“卡脖子”問題。在此基礎上,訊飛星火大模型已迭代至4.0 Turbo版本,綜合指標已達到GPT-4 Turbo水平,并在數學能力和代碼能力上超越GPT-4。
華為云大數據與AI領域總裁尤鵬則分享了對未來基礎模型發展趨勢的看法。他認為,未來基礎模型可能會收斂到少數幾家,而大部分企業將專注于行業模型的開發和行業落地。同時,他提出了三個觀點:一是并非每個企業都需要大規模建設AI算力,云的方式可以更快速、高效地解決AI訓練、增訓和推理問題;二是選擇業界主流基礎模型應用于自己的場景是較為經濟的選擇;三是大模型與小模型將并存發展,未來大模型系統將是一個混合工程的平臺,通過大模型調度小模型,實現資源的優化配置。