近日,智象未來團隊正式推出全新自回歸圖像編輯框架 VAREdit,作為全球首個純自回歸的圖像編輯模型,這也是該領(lǐng)域的又一重大突破。該框架不僅能夠精準執(zhí)行用戶指令,避免過度修改,還將編輯速度提升至0.7秒級,為實時交互與高效創(chuàng)作開辟新路徑。
長期以來,擴散模型在圖像編輯中雖能生成高質(zhì)量畫面,但存在局部修改牽動整體結(jié)構(gòu)、編輯不夠精準,以及多步迭代效率低等瓶頸。針對這一問題,VAREdit首次將視覺自回歸(VAR)架構(gòu)引入圖像編輯任務(wù)。它將編輯定義為“下一尺度預(yù)測”,逐層生成多尺度殘差特征,實現(xiàn)局部精準修改與整體結(jié)構(gòu)保持的統(tǒng)一。同時,團隊創(chuàng)新設(shè)計了尺度對齊參考(SAR)模塊,有效解決尺度匹配難題,進一步提升編輯質(zhì)量與效率。
在權(quán)威基準 EMU-Edit 與 PIE-Bench 測試中,VAREdit在CLIP與GPT等指標全面領(lǐng)先。其中,VAREdit-8.4B在GPT-Balance指標上較ICEdit和UltraEdit分別提升41.5%和30.8%;輕量版VAREdit-2.2B可在0.7秒內(nèi)完成512×512圖像高保真編輯,實現(xiàn)數(shù)倍提速。
目前,VAREdit已在 GitHub 和 Hugging Face 平臺全面開源。智象未來團隊表示,未來將持續(xù)探索視頻編輯、多模態(tài)生成等應(yīng)用場景,推動AI圖像編輯邁入高效、可控、實時的新紀元。