快手上海交大聯手發布Orthus模型，開創多模態生成理解新紀元-魔扣目錄

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告：魔扣目錄網為廣大站長提供免費收錄網站服務，提交前請做好本站友鏈：【網站目錄：http://www.ylptlb.cn 】，免友鏈快審服務（50元/站），

網站：52011
待審：79
小程序：12
文章：1184964
會員：801

快手上海交大聯手發布Orthus模型，開創多模態生成理解新紀元

發布時間：2025-07-23 23:33:59 作者：網友整理

國際機器學習大會（ICML）近期落幕，快手攜手上海交通大學推出了一款名為Orthus的多模態生成理解模型，該模型已正式對外開源。這款創新之作基于自回歸Transformer架構，實現了文本與圖像間的無縫轉換，展現了卓越的生成能力。

Orthus的核心優勢在于其高效的計算性能和強大的學習能力。研究顯示，即便在有限的計算資源下，該模型在多項圖像理解指標上仍超越了現有的混合理解生成模型，例如Chameleon和Show-o。尤其在文生圖生成的Geneval指標上，Orthus的表現尤為突出，甚至超過了專為該任務設計的擴散模型SDXL。

Orthus不僅在處理文本與圖像交互關系上表現出色，還在圖像編輯和網頁生成等領域展現出巨大潛力。其架構設計精妙，以自回歸Transformer為主干網絡，配備專門用于生成文本和圖像的模態生成頭。這一設計巧妙地分離了圖像細節建模與文本特征表達，使模型能夠專注于構建文本與圖像之間的復雜聯系。

該模型由多個關鍵組件構成，包括文本分詞器、視覺自編碼器以及針對兩種模態的嵌入模塊。這些組件共同協作，將文本和圖像特征融合到一個統一的表示空間中，使主干網絡在處理模態間依賴關系時更加高效。在推理階段，模型會根據特定標記，以自回歸方式生成下一個文本token或圖像特征，展現出高度的靈活性。

Orthus的創新設計不僅解決了端到端擴散建模與自回歸機制之間的沖突，還有效減少了圖像離散化帶來的信息損失。這一成果被視為是何愷明在圖像生成領域MAR工作的多模態拓展，具有重要的學術和應用價值。

分享到：

標簽：快手新紀元交大上海開創