(ChinaZ.com)10月12日 消息:最近,卡內基梅隆大學、Google研究以及喬治亞理工學院聯合推出了一項名為MAGVIT-v2的視頻標記工具,它成功地將圖像和視頻輸入轉化為大型語言模型(LLM)可識別的標記。
項目地址:https://magvit.cs.cmu.edu/
MAGVIT-v2的獨特算法讓開發者可以實現令人驚嘆的應用。從全景視頻到智能去除、圖像轉動動畫,再到自動翻轉等等。MAGVIT不僅為創作者提供無限靈感,還為視頻編輯帶來前所未有的便捷性。
通過MAGVIT-v2的應用,LLM在視覺生成任務中的表現已明顯超越了傳統的擴散模型。視頻標記化是將視覺內容(如圖像或視頻)轉化為大型語言模型能夠理解和處理的標記的過程。MAGVIT-v2的問世,毫無疑問為大型語言模型在視覺任務方面提供了嶄新的機遇。
在視覺生成任務方面,這一新型標記工具已經展現出極大的潛力,可以明顯改善模型的表現??偟膩砜矗琈AGVIT-v2的發布,預示著視覺生成領域的一次重大突破。