作者 | 徐杰承

“當使用過它之后，我對Midjourney已經再也提不起一點興趣了。”這句“虎狼之詞”出自一位AI target=_blank class=infotextkey>OpenAI新圖像生成平臺的內測用戶之口。顯然，OpenAI已經再一次做好了掀桌子的準備，而這次他們所瞄準的，正是AI圖像生成領域。

根據YouTube博主MattVidPro透露，他的一位粉絲在不久前獲得了OpenAI新圖像生成平臺的內測資格，并向他悄悄透露了大量利用新平臺生成的作品。MattVidPro也將這些內容制作成了一期視頻節目，而他開場詞的第一句話是，“今天，讓我們一睹AI生成圖的未來！”

圖源：Youtube

1、兩大優勢完勝Mj

MattVidPro在視頻中表示，據這位粉絲透露，OpenAI正在秘密測試一個全新的圖像生成平臺，該平臺很可能是此前OpenAI所發布的文生圖工具Dell-E 2的升級版。并且這次測試非常隱蔽——用戶需要在一個僅能容納400人的OpenAI獨家測試服務器中訪問該平臺。

在進行了一段時間的嘗試后，這位粉絲發現，新平臺不僅能夠創建具有頭發、燈光、廣告副本等細節特征的逼真圖像，而且在生成連貫細節和遵循提示詞方面具有極強的能力。在許多任務的執行效果上甚至可以吊打如今AI生成圖領域名氣最盛的Midjourney。

首先是連貫細節方面，了解AI圖像生成模型的人可能會知道，當前絕大多數模型都無法準確處理生成圖中的文字內容。Midjourney也同樣擁有這項缺陷。一個來自互聯網的例子是：“生成紅色鉛筆，上面印有‘welcome’的文字。”Midjourney雖然完成了紅色鉛筆的生成，但文字呈現方面可以說一塌糊涂。

圖源：網絡

但顯然，OpenAI已經找到了解決這一問題的方法，在MattVidPro所展示的圖片中，新平臺在處理相似任務時的表現可以說非常炸裂。無論是生成寫有博主ID的海報，還是生成《GTA5》的游戲盒子全都不在話下，并且圖像中的主體文字內容完全沒有出錯。

圖源：Youtube

除此之外，在面對較為復雜的提示詞時，相比于Midjourney，OpenAI新平臺所生成的圖像內容顯然更接近提示詞的描述。這里一個典型的例子是根據以下提示生成圖像：“在一場自行車比賽中，一名粉色小丑正在與一只熊貓擊掌。自行車是由奶酪制成的，地面非常泥濘。他們在一個多霧的森林里騎車，熊貓很生氣。”

在Midjourney所給出的四張作品中，一只熊貓沒有騎車，而其余三只的座駕都是沒有出現奶酪元素的摩托而非自行車，并且四張圖片中均沒有出現小丑角色，熊貓的表情看起來也與生氣毫不沾邊。

圖源：Youtube

而OpenAI平臺在相同任務上的表現則無需多言，所生成作品包含了提示中的幾乎全部細節。

圖源：Youtube

看完以上案例，有人可能會說OpenAI新平臺生成的圖像似乎在真實度和畫面細節方面并不出彩，甚至有些依靠“Q版”圖耍小聰明的嫌疑。但這其實只是由于在提示中未規定畫面風格的緣故。在生成寫實圖像方面，新平臺的能力也完全不亞于目前的主流文生圖工具。

圖源：Youtube

在以上的兩個案例中，我們不難看出，無論是油畫風格圖像“公牛”的畫面質感和筆觸細節，亦或是寫實風格圖像“水中少女”的光效、少女面部的水漬呈現等，兩幅圖像的逼真度和細節處理也均達到了業內頂尖水準。

2、或采用全新生成模型

除了圖像以外，關于OpenAI正在測試的這個新圖像生成平臺，網上幾乎沒有出現其余的任何消息。但根據OpenAI于3月所發表的論文，不少專業人士推測，該平臺很可能利用了全新的“一致性模型”而非目前業內主流的“擴散模型”。

圖源：OpenAI

在這篇名為《Consistency Models》的論文中，OpenAI提到，一致性模型在訓練速度上覆蓋了擴散模型，能夠“一步生成”，能夠比擴散模型更快實現簡單任務，且所用計算量要少10-2000倍。此外，一致性模型也允許“多步采樣”，以計算換取樣本質量。因此即使沒有迭代過程，一致性模型也可以產生高質量結果，并能快速適用于實時任務。

圖源：OpenAI

與擴散模型相同，一致性模型也支持零樣本數據編輯。例如在修補、著色或超分辨率任務中，一致性模型可以從預先訓練的擴散模型中提取數據，也可以單獨進行訓練。根據OpenAI的說法，一致性模型能在所有非對抗性單步生成任務中勝過擴散模型。

圖源：OpenAI

并且以上所提到的兩種訓練方式都將“對抗訓練”從中刪除了。這是由于對抗訓練過程較為復雜，雖然這更易于產生強大的神經網絡，但對抗訓練的方式也會導致模型預測的準確率下降。部分業內人士認為，這便是OpenAI新平臺能夠在處理連貫任務和遵循提示方面表現得更好的主要原因。

除此之外，一個沒有太多依據的猜測是，在Dall-E 2發布的幾個月前，OpenAI發表了幾篇關于擴散模型的論文。如果從時間維度推測，新平臺則很可能利用了全新的一致性模型。當然，以上這些也只是目前業內的普遍猜測，在OpenAI官方發聲之前，估計我們也很難了解到更多關于該平臺的技術細節。

3、還沒有完全準備好

而對于OpenAI為何要如此隱蔽的對該平臺進行測試，根據博主MattVidPro的說法以及幾個相關的圖片案例來看，目前該平臺似乎仍未完成全部的開發工作，一些細節方面的問題依然有待進一步完善。

首先便是一直以來都困擾著生成模型的“畫手”問題，雖然在大部分情況下表現還算不錯，但新平臺偶爾也會在生成人物手部細節時犯錯誤。例如在這張“打噴嚏的粉發少女”中，我們可以清晰地看到人物的手指被描繪成了六根。

圖源：Youtube

除此之外，根據粉絲的透露，目前該平臺還沒有設置任何安全限制，能夠生成包含血腥暴力、色情等敏感元素的圖像，甚至有時一些敏感圖像會在沒有提示的情況下彈出。視頻中，MattVidPro分享了一張相對委婉的生成圖像，并表示一些“有點出格的作品”并不方便公開展示。

圖源：Youtube

對于向來以追求極致而著稱的OpenAI來說，顯然目前該平臺的部分能力以及安全性還沒有達到他們最終所希望的水平。這也就可以解釋為什么OpenAI會選擇進行相對隱蔽的測試行為且沒有進行對外的公開發聲了。

4、贏者通吃：OpenAI的下一步

對于OpenAI的下一步計劃，不少網友也在Youtube上留下了自己的觀點。部分人認為，由于GPT4目前已具有了多模態信息處理能力，OpenAI很可能會基于新平臺在下一版ChatGPT中集成強大的AI生成圖功能。

另一部分人則認為，OpenAI也可能會基于新平臺開發全新的AI生成圖產品（或是Dall E-3），與Midjourney、Stable Diffusion等產品競爭并瓜分剩余市場，以進一步提升公司的盈利能力。畢竟目前ChatGPT的用戶增長速率已達到了一個階段性的瓶頸。

總之，雖然就目前看來，OpenAI的這個全新AI生成圖平臺仍需要進行一些微調以及安全功能的引入，但平臺所流露出的信息已經在業內引起了一些積極的反響，并收獲了比現階段主流文生圖產品更高的評價。有專家預測該平臺或將在今年年底正式對用戶開放。

圖源：Youtube

不難看出，如今的科技巨頭們在人工智能方面的追求已不再滿足于單純的語言模型，而是將攫取的枝杈伸展到了更廣闊的領域。無論是OpenAI正在測試的全新AI生成圖平臺，亦或是Meta剛剛開源的文生音樂模型Audiocraft，都表明著人工智能的未來將在更豐富的模態上開花結果。

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

吊打Midjourney！OpenAI秘密內測新平臺1、兩大優勢完勝Mj2、或采用全新生成模型3、還沒有完全準備好4、贏者通吃：OpenAI的下一步

1、兩大優勢完勝Mj

2、或采用全新生成模型

3、還沒有完全準備好

4、贏者通吃：OpenAI的下一步

數獨大挑戰2018-06-03

答題星2018-06-03

全階人生考試2018-06-03

運動步數有氧達人2018-06-03

每日養生app2018-06-03

體育訓練成績評定2018-06-03