北大推出多模態DeepSeek升級版，賦能機器人控制新紀元！-魔扣目錄

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告：魔扣目錄網為廣大站長提供免費收錄網站服務，提交前請做好本站友鏈：【網站目錄：http://www.ylptlb.cn 】，免友鏈快審服務（50元/站），

網站：52011
待審：79
小程序：12
文章：1184964
會員：801

北大推出多模態DeepSeek升級版，賦能機器人控制新紀元！

發布時間：2025-02-13 20:00:22 作者：網友整理

在人工智能領域，一項新的突破正引起廣泛關注。北京大學與香港科技大學的研究團隊攜手，基于他們自研的全模態框架Align-Anything，成功將原本專注于純文本模態的Deepseek R1系列模型拓展至圖文模態，推出了名為Align-DS-V的多模態版本。

這一創新不僅標志著Deepseek R1系列模型在功能上的重大飛躍，更在部分視覺理解評測集上的表現超越了GPT-4，為人工智能的多模態理解與應用開辟了新的道路。

此次合作中，北京大學的指導老師楊耀東教授發揮了關鍵作用。作為北京大學人工智能研究院的助理教授，他同時也是北京具身智能初創公司靈初智能與北大聯合成立的具身靈巧操作聯合實驗室的首席科學家。在楊教授的帶領下，研究團隊僅在一周之內就完成了Deepseek R1向圖文模態的擴展，并取得了令人矚目的成果。

團隊在探索過程中還意外發現了模態穿透對模型文本模態推理能力的提升效果。經過多模態訓練后，模型在文本模態任務上的表現有了顯著提升，特別是在科學任務、復雜推理以及數學代碼處理等方面。

Align-DS-V的多模態強推理能力被視為VLA模型（視覺語言動作模型）大腦端的核心。這一能力不僅提升了模型的理解和推理水平，還為VLA模型的小腦端控制器微調提供了可能，從而實現更高的成功率、泛化性和魯棒性。目前，Align-Anything框架以及DeepSeek-R1的多模態版本Align-DS-V均已開源，供全球研究者共同探索與進步。

Align-Anything框架的設計初衷是實現全模態大模型與人類意圖和價值觀的對齊。它支持從文本、圖片、視頻、音頻四大基本模態衍生出的任意模態模型的對齊微調，并驗證了框架對齊算法的正確性。該框架具有高度的模塊化、擴展性和易用性，為研究者提供了極大的便利。