在上海浦東張江科學會堂,一場聚焦于人工智能前沿技術的盛會——智譜開放平臺產(chǎn)業(yè)生態(tài)大會圓滿舉行。會上,智譜公司揭曉了一項重大科研成果:新一代視覺語言模型GLM-4.1V-Thinking正式面世,并向全球開發(fā)者開源。
此次大會不僅見證了GLM-4.1V-Thinking的發(fā)布,還傳來了一則融資喜訊。智譜公司宣布成功獲得浦東創(chuàng)投集團與張江集團聯(lián)合投資的10億元人民幣戰(zhàn)略資金,首筆資金交割已順利完成。同時,三方攜手啟動了共建人工智能新型基礎設施的合作項目,標志著智譜在人工智能領域邁出了堅實的一步。
GLM-4.1V-Thinking,作為智譜公司傾力打造的視覺語言大模型,具備處理圖像、視頻、文檔等多模態(tài)輸入的能力,專為應對復雜認知任務而生。該模型在GLM-4V架構(gòu)的基礎上,創(chuàng)新性引入了“思維鏈推理機制”,結(jié)合“課程采樣強化學習策略”,顯著提升了跨模態(tài)因果推理的準確性和穩(wěn)定性。
尤為GLM-4.1V-Thinking的輕量版——GLM-4.1V-9B-Thinking,在保持模型體積小巧的同時,展現(xiàn)出了驚人的性能。其參數(shù)規(guī)模控制在10B級別,卻在28項權(quán)威評測中取得了23項10B級模型的最佳成績,其中18項甚至超越了參數(shù)量高達72B的Qwen-2.5-VL模型。這一成就,無疑證明了小體積模型在極限性能方面的巨大潛力。
GLM-4.1V-9B-Thinking在多個應用場景中均表現(xiàn)出色,彰顯了其高度的通用性和穩(wěn)健性。在圖文理解方面,它能夠精準識別并綜合分析圖像與文本信息;在數(shù)學與科學推理領域,它支持復雜題解、多步演繹與公式理解;在視頻理解方面,它具備時序分析與事件邏輯建模能力;在GUI與網(wǎng)頁智能體任務中,它能理解界面結(jié)構(gòu),輔助自動化操作;在視覺錨定與實體定位方面,它實現(xiàn)了語言與圖像區(qū)域的精準對齊,提升了人機交互的可控性。
目前,GLM-4.1V-9B-Thinking已在Hugging Face與魔搭社區(qū)同步開源,包括GLM-4.1V-9B-Base基座模型和具備深度思考與推理能力的GLM-4.1V-9B-Thinking模型。這一舉措旨在幫助更多研究者探索視覺語言模型的能力邊界,推動人工智能技術的創(chuàng)新與發(fā)展。