(ChinaZ.com)3月5日 消息:Stability AI 最近發(fā)布了他們最強(qiáng)的圖片生成模型 Stable Diffusion3(SD3) 的技術(shù)報(bào)告,披露了 SD3的更多細(xì)節(jié)。據(jù) Stability AI 所說,SD3在排版質(zhì)量、美學(xué)質(zhì)量和提示詞理解上超過了目前所有的開源模型和商業(yè)模型,是目前最強(qiáng)的圖片生成模型。
技術(shù)報(bào)告要點(diǎn)如下:
根據(jù)人類偏好評(píng)估,SD3在排版質(zhì)量和對(duì)提示的理解程度上,均優(yōu)于目前最先進(jìn)的文本生成圖像系統(tǒng),例如 DALL·E3、Midjourney v6和 Ideogram v1。
報(bào)告提出了新的多模態(tài)擴(kuò)散 Transformer (Multimodal Diffusion Transformer, 簡(jiǎn)稱 MMDiT) 架構(gòu),其使用獨(dú)立的權(quán)重集分別表示圖像和語(yǔ)言。與 SD3的先前版本相比,該架構(gòu)改善了系統(tǒng)對(duì)文本的理解能力和拼寫能力。
SD38B 大小的模型可以在 GTX409024G 顯存上運(yùn)行。此外,SD3將發(fā)布多個(gè)參數(shù)規(guī)模不等的模型方便在消費(fèi)級(jí)硬件上運(yùn)行,參數(shù)規(guī)模從800M 到8B。
SD3架構(gòu)以 Diffusion Transformer (簡(jiǎn)稱"DiT",參見 Peebles & Xie,2023)為基礎(chǔ)。鑒于文本嵌入和圖像嵌入在概念上存在較大差異,他們?yōu)檫@兩種模態(tài)使用了獨(dú)立的權(quán)重集。通過這種方法,信息得以在圖像 Token 和文本 Token 之間流動(dòng),從而提高了模型生成結(jié)果的整體理解力和排版質(zhì)量。
SD3采用了矯正流 (Rectified Flow, 簡(jiǎn)稱 RF) 的公式,在訓(xùn)練過程中,數(shù)據(jù)和噪聲被連接在一條線性軌跡上。這導(dǎo)致了更直的推理路徑,從而可以使用更少的步驟進(jìn)行采樣。
他們還進(jìn)行了擴(kuò)展矯正流 Transformer 模型的研究,使用重新加權(quán)的 RF 公式和 MMDiT 主干網(wǎng)絡(luò),訓(xùn)練了一系列模型,其規(guī)模從15個(gè) Transformer 塊 (4.5億參數(shù)) 到38個(gè)塊 (80億參數(shù)) 不等。
SD3還引入了靈活的文本編碼器,通過在推理階段移除內(nèi)存密集型的 T5文本編碼器(參數(shù)量高達(dá)47億),SD3的內(nèi)存占用可以大幅降低,而性能損失卻很小。
總的來說,Stability AI 的這一技術(shù)報(bào)告揭示了 SD3的強(qiáng)大功能和細(xì)節(jié),顯示出其在圖片生成領(lǐng)域的領(lǐng)先地位。
詳細(xì)內(nèi)容點(diǎn)此查看:https://stability.ai/news/stable-diffusion-3-research-paper