昆侖萬維集團在其SkyWork AI技術發布周活動步入尾聲之際,震撼宣布了一項開源創新——「Skywork UniPic2.0」模型的問世。這一多模態人工智能領域的最新力作,預示著技術邊界的又一次飛躍。
Skywork UniPic2.0,作為一款集理解、生成與編輯于一體的多模態模型,其核心競爭力在于高效訓練和推理框架的構建。該模型巧妙融合了生成與編輯模塊的輕量化設計,以及多模態理解模型的聯合訓練策略,旨在打造“高效、高質、統一”的智能化體驗。
模型的核心架構由三大模塊支撐:生圖編輯、統一模型能力,以及生圖編輯后的訓練流程。基于SD3.5-Medium架構的Skywork UniPic2.0,實現了從文本輸入向文本與圖像雙重輸入的跨越,將單純的生圖能力拓展至兼具生成與編輯的雙重功能。通過凍結生圖編輯模塊,結合多模態模型Qwen2.5-VL-7B與Pre-Train連接器,模型進一步整合了理解、生成與編輯的一體化能力。經由連接器與編輯模塊的聯合微調,最終成就了這一全面而強大的模型。
昆侖萬維集團的此番開源,不僅向開發者與研究人員敞開了全面合作的大門,提供了包括模型權重、推理代碼及強化策略在內的豐富資源。尤為Skywork UniPic2.0的生成模塊基于2B參數的SD3.5-Medium架構訓練,其在生圖和編輯方面的性能指標,甚至超越了參數規模更大的同類模型。模型還融入了強化學習策略,借助Flow-GRPO首創的漸進式雙任務強化策略,顯著提升了模型對復雜指令的解析能力,以及圖像生成與編輯的一致性。
對于有志于探索多模態人工智能領域的開發者與研究人員而言,Skywork UniPic2.0無疑是一座寶貴的資源寶庫。項目主頁、技術報告、GitHub地址以及HuggingFace平臺上的相關資源,均已全面開放,誠邀各界人士共襄盛舉。
項目詳細信息,請訪問:
項目主頁:https://unipic-v2.github.io/
技術報告:https://github.com/SkyworkAI/UniPic/blob/main/UniPic-2/assets/pdf/UNIPIC2.pdf
GitHub地址:https://github.com/SkyworkAI/UniPic/tree/main/UniPic-2
HuggingFace Gradio體驗:https://huggingface.co/spaces/Skywork/UniPic2-metaquery
HuggingFace模型資源:https://huggingface.co/Skywork/UniPic2-SD3.5M-Kontext-2B;https://huggingface.co/Skywork/UniPic2-metaquery-9B