近日,北京智源人工智能研究院正式發布了《十大人工智能技術及應用趨勢》報告,詳細闡述了當前人工智能領域的最新技術動態和未來發展方向。該報告涵蓋了包括“具身智能”、世界模型、合成數據等在內的多項前沿技術趨勢,旨在剖析科技演進的軌跡。
智源研究院院長王仲遠在發布會上指出,當前正處于AI發展的新拐點,大模型的快速發展正加速通用人工智能(AGI)時代的到來。原生統一多模態、具身智能以及AI在科學研究中的應用(AI for Science),將進一步深化人工智能對世界的感知、理解與推理,連接數字世界與物理世界,推動科學研究取得創新突破。智源研究院作為專注于AI領域的新型研發機構,希望通過這份報告為AI技術的發展指明方向。
智源研究院副院長兼總工程師林詠華在會上表示,雖然人們普遍期待AI能夠超越人類智力,實現通用人工智能,并從數字世界走向物理世界,但在這一過程中可能會出現多種路徑和方法,目前尚無法確定哪條路徑能夠成功,以及距離真正實現AGI還有多遠。
報告中的十大AI技術趨勢之一是AI for Science(AI4S)驅動科學研究范式變革。據統計,2024年,科研人員使用AI的比例顯著增加,接近半數的科研人員認為AI將對其工作領域產生積極影響。AI對科學研究方法和流程的變革效應已經顯現,特別是在生物醫學、氣象、材料發現等領域。
報告還指出,2025年將是“具身智能元年”。具身智能將從本體擴展到具身腦,國內近100家具身初創公司或將迎來洗牌,技術路線上端到端模型將繼續迭代,商業變現方面也將看到更多工業場景下的具身智能應用。
在圓桌對話環節,螞蟻集團大模型對齊負責人溫祖杰表示,多模態技術的發展不僅限于視頻生成,還包括圖文多模態、OCR多模態等能力。螞蟻集團的“探一探”產品通過視覺能力和多模態能力實現了多輪對話式的互動交流,為用戶提供了更加符合真實體驗的產品感知。
報告中的另一趨勢是統一的多模態大模型將實現更高效的AI。當前的語言大模型和拼接式的多模態大模型在對人類思維過程的模擬上存在局限性,而原生多模態技術路線則為多模態發展提供了新的可能。訓練階段即對齊視覺、音頻、3D等模態的數據,構建原生多模態大模型成為重要方向。
報告還提到了強化學習(RL)與大型語言模型(LLMs)的結合,將推動模型泛化從預訓練向后訓練、推理遷移。世界模型的加速發布有望成為多模態大模型的下一階段,其注重“因果”推理作用,賦予AI更高級別的認知和邏輯推理能力。
在數據方面,高質量數據成為大模型進一步擴展的障礙,合成數據已成為基礎模型廠商補充數據的首選。合成數據可以降低人工治理和標注的成本,提升數據的多樣性,有助于模型處理長文本和復雜問題的能力。
報告還強調了推理優化迭代加速對于AI應用落地的重要性。隨著大模型硬件載體從云端向手機、PC等端側硬件滲透,資源受限的設備上,大模型的落地應用面臨較大挑戰。算法加速和硬件優化技術的持續迭代成為AI應用落地的必要條件。
智源研究院行業研究組負責人倪賢豪表示,從Chatbot到Copilot,再到Agent與Agentic AI,行業對于AI應用形態的理解越發深入。2025年,更通用、更自主的智能體將重塑產品應用形態,成為大模型產品落地的重要應用形態。
最后,報告指出,AI安全治理體系的持續完善也是未來發展的重要方向。大模型的復雜性和涌現結果不可預測性對傳統工程的安全防護機制帶來了挑戰,如何引入新的技術監管方法、平衡行業發展和風險管控成為各方需要探討的議題。