在人工智能領域,一款名為GLM-4.1V-9B-Thinking的模型正以驚人的表現吸引著業界的目光。該模型憑借其僅9B的參數規模,在HuggingFace平臺上榮登趨勢榜榜首,實現了以小搏大的壯舉。
GLM-4.1V-Thinking是一款多模態通用推理大模型,它不僅能夠處理圖像、視頻和文檔等多種類型的數據輸入,還專為解決復雜認知任務而設計。這款模型在GLM-4V架構的基礎上進行了創新,引入了“思維鏈推理機制”,這一機制顯著增強了模型的因果推理能力。同時,通過采用“課程采樣強化學習策略”,GLM-4.1V-Thinking在跨模態任務中的表現更加穩定。
值得注意的是,盡管GLM-4.1V-9B-Thinking的參數規模控制在10B級別以內,但其性能卻毫不遜色。在包括MMStar、MMMU-Pro、ChartQAPro和OSWorld在內的28項權威評測中,該模型取得了23項10B級模型的最佳成績。尤為在其中的18項評測中,GLM-4.1V-9B-Thinking的表現甚至與參數量高達72B的Qwen-2.5-VL持平或超越,這充分展示了其作為小體積模型的卓越性能潛力。
對于對GLM-4.1V-9B-Thinking感興趣的開發者和研究人員來說,可以通過以下鏈接獲取更多信息:在Github上,該模型的倉庫地址為https://github.com/THUDM/GLM-4.1V-Thinking;而在Hugging Face平臺上,可以通過https://huggingface.co/THUDM/GLM-4.1V-9B-Thinking訪問該模型的頁面。