昆侖萬(wàn)維近期在AI領(lǐng)域邁出了重要一步,正式推出了多模態(tài)統(tǒng)一預(yù)訓(xùn)練模型Skywork UniPic,并決定將其開源。這一模型集成了圖像理解、文本到圖像生成及圖像編輯三大核心功能,通過(guò)大規(guī)模高質(zhì)量數(shù)據(jù)的端到端預(yù)訓(xùn)練,展現(xiàn)出了強(qiáng)大的通用性和遷移能力。
Skywork UniPic采用了創(chuàng)新的MAR編碼器和SigLIP2主干網(wǎng)絡(luò),打破了傳統(tǒng)多模態(tài)模型在語(yǔ)義信息保留上的局限。這一設(shè)計(jì)使得模型能夠在不同任務(wù)間實(shí)現(xiàn)深度協(xié)同,用戶只需簡(jiǎn)單的提示詞,即可完成復(fù)雜的圖像理解、生成及風(fēng)格轉(zhuǎn)換等操作,比如根據(jù)特定場(chǎng)景生成圖片或?qū)σ延袌D像進(jìn)行風(fēng)格化編輯。
在性能表現(xiàn)上,Skywork UniPic以1.5B的參數(shù)規(guī)模,達(dá)到了接近大型統(tǒng)一模型的效果。在指令遵循、復(fù)雜指令生成圖像及圖像編輯等基準(zhǔn)測(cè)試中,該模型均取得了行業(yè)領(lǐng)先的成績(jī)。尤為它在消費(fèi)級(jí)顯卡上就能流暢運(yùn)行,大大降低了技術(shù)應(yīng)用的門檻。
Skywork UniPic的成功,離不開其精煉的數(shù)據(jù)構(gòu)建體系、專用的Reward Model優(yōu)化以及漸進(jìn)式多任務(wù)訓(xùn)練策略。通過(guò)高效能語(yǔ)料庫(kù)和分層分辨率訓(xùn)練機(jī)制,該模型在性能和訓(xùn)練效率之間取得了良好的平衡,避免了傳統(tǒng)方法中常見(jiàn)的性能權(quán)衡問(wèn)題。
昆侖萬(wàn)維此次開源Skywork UniPic,是其推動(dòng)AI技術(shù)普惠的又一重要舉措。此前,該公司已經(jīng)開源了多個(gè)領(lǐng)域的大模型,而Skywork UniPic的加入,將進(jìn)一步推動(dòng)AI成為易于獲取的創(chuàng)意工具。用戶現(xiàn)在可以通過(guò)指定鏈接,獲取模型的權(quán)重、技術(shù)報(bào)告以及代碼倉(cāng)庫(kù)等核心資源。
對(duì)于想要深入了解Skywork UniPic的用戶,以下提供了相關(guān)資源的鏈接:
模型權(quán)重獲取地址:https://huggingface.co/Skywork/Skywork-UniPic-1.5B
技術(shù)報(bào)告下載地址:https://github.com/SkyworkAI/UniPic/blob/main/UNIPIC.pdf
代碼倉(cāng)庫(kù)訪問(wèn)地址:https://github.com/SkyworkAI/UniPic