在科技日新月異的今天,小紅書再次展示了其在人工智能領域的雄心壯志。這家以內容分享聞名的平臺,近期連續推出了三款自研模型,其中最新亮相的多模態大模型dots.vlm1尤為引人注目。
dots.vlm1基于小紅書人文智能實驗室(Humane Intelligence Lab,簡稱hi lab)自主研發的視覺編碼器構建,其能力覆蓋了從視覺理解到文本生成的多個領域。在實測中,dots.vlm1不僅成功“看穿”了色盲圖,還解決了數獨問題,甚至能夠解答高考數學題,并模仿李白的詩風創作詩歌,其視覺理解和推理能力已接近行業領先的Gemini 2.5 Pro閉源模型。
在當前的AI圈,各大巨頭紛紛推出自己的開源模型,競爭異常激烈。OpenAI發布了Claude的4.1版本,谷歌則推出了用于生成游戲世界的Genie 3,引發了廣泛討論。而在國產模型方面,HuggingFace平臺上排名前十的開源模型中,國內模型占據了多數席位,顯示了國產AI技術的崛起。
然而,仔細觀察這些排名靠前的開源模型,不難發現一個現象:它們大多是文本模型,缺乏多模態能力。而小紅書的dots.vlm1,正是在這一背景下脫穎而出的多模態大模型,為VLM(視覺語言模型)領域帶來了新的活力。
小紅書hi lab由內部大模型技術與應用產品團隊升級而來,其研發重點放在了多元智能形態上,旨在通過融合人際智能、空間智能、音樂智能等多種智能形態,拓展人機交互的可能性。dots.vlm1正是這一理念的產物,它基于12億參數的NaViT視覺編碼器和DeepSeek V3大語言模型構建,在視覺理解和推理任務上表現出色,同時在純文本任務中也保持了競爭力。
在視覺評測集上,dots.vlm1的整體表現已接近Gemini 2.5 Pro與Seed-VL1.5 Thinking等領先模型,顯示出強大的圖文理解與推理能力。在文本推理任務上,dots.vlm1的表現也相當出色,盡管在數學和代碼能力上已具備通用性,但在更多樣化的推理任務上仍有提升空間。
dots.vlm1的實測表現令人驚艷。在空間理解方面,它能夠準確定義復雜圖表中物體的空間關系;在數獨問題上,dots.vlm1能夠完美解題,其推理過程甚至出現了類似DeepSeek的“啊哈時刻”,顯示了模型真正的思考和推理能力。dots.vlm1還能解決紅綠色盲數字問題、進行數學計算、回答冷門問題以及進行行測等任務,展現了其廣泛的應用潛力。
除了強大的功能外,dots.vlm1的技術架構也值得一提。它由三個核心組件構成:全自研的NaViT視覺編碼器、輕量級的MLP適配器以及DeepSeek V3 MoE大語言模型。這一架構通過三階段流程進行訓練,包括視覺編碼器預訓練、VLM預訓練和VLM后訓練,確保了模型的性能和泛化能力。
NaViT視覺編碼器是dots.vlm1的一大亮點。它完全從零開始訓練,原生支持動態分辨率和高分辨率輸入,為模型提供了強大的視覺感知能力。在訓練過程中,NaViT編碼器采用了雙重監督策略,包括下一Token預測和下一Patch生成,進一步增強了模型的空間與語義感知能力。
對于為何小紅書要自研多模態大模型,答案或許在于多模態AI的重要性。多模態AI模擬了人類利用多種感官綜合感知世界的方式,能夠形成更全面、細致的理解。在自動駕駛、具身智能等領域,VLM作為機器人的眼睛甚至大腦,發揮著至關重要的作用。因此,小紅書自研多模態大模型不僅是為了提升平臺的內容理解和推薦能力,更是為了在未來的人機交互中占據先機。
小紅書在AI領域的投入遠不止于此。除了dots.vlm1外,hi lab還推出了dots.llm1和dots.ocr等模型,形成了dots模型家族。這些模型不僅在技術上有所突破,更體現了小紅書對于多元智能的追求和探索。未來,隨著技術的不斷進步和應用場景的不斷拓展,我們有理由相信小紅書將在AI領域取得更多令人矚目的成就。