日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

明敏 豐色 發自 凹非寺

量子位 | 公眾號 QbitAI

就說Sora有多火吧。

生成的視頻上線一個、瘋傳一個。

作者小哥新上傳的效果,點贊很快破萬。

失敗案例都讓人看得上癮。

將近10萬人點贊。

學術圈更炸開鍋了,各路大佬紛紛開麥。

紐約大學助理教授謝賽寧(ResNeXt的一作)直言,Sora將改寫整個視頻生成領域。

英偉達高級研究科學家Jim Fan高呼,這就是視頻生成的GPT-3時刻??!

尤其在技術報告發布后,討論變得更加有趣。因為其中諸多細節不是十分明確,所以大佬們也只能猜測。

包括“Sora是一個數據驅動的物理引擎”、“Sora建立在DiT模型之上、參數可能僅30億”等等。

所以,Sora為啥能如此驚艷?它對視頻生成領域的意義是?這不,很快就有了一些可能的答案。

視頻生成的GPT-3時刻

總的來說,Sora是一個在不同時長、分辨率和寬高比的視頻及圖像上訓練而成的擴散模型,同時采用了Transformer架構,也就是一種“擴散型Transformer”。

關于技術細節,官方報告簡單提了以下6點

一是視覺數據的“創新轉化”

與大語言模型中的token不同,Sora采用的是“Patches(補片)”來統一不同的視覺數據表現形式。

如下圖所示,在具體操作中,模型先將視頻壓縮到低維潛空間中,然后將它們表示分解為時空補片,從而將視頻轉換為補片。(啊這,說了又仿佛什么都沒說)

二是訓練了一個視頻壓縮網絡

它可以降低視覺數據維度,輸入視頻,輸出時空上壓縮的潛表示。

Sora就在這上面完成訓練。相應地,OpenAI也訓練了一個專門的解碼器。

三是時空補片技術(Spacetime latent patches)。

給定一個壓縮的輸入視頻,模型提取一系列時空補片,充當Transformer的token。正是這個基于補片的表示讓Sora能夠對不同分辨率、持續時間和長寬比的視頻和圖像進行訓練。

在推理時,模型則通過在適當大小的網格中排列隨機初始化的補片來控制生成視頻的大小。

四是擴展Transformer也適用于視頻生成的發現。

OpenAI在這項研究中發現,擴散型Transformer同樣能在視頻模型領域中完成高效擴展。

下圖展示出隨著訓練資源的增加,樣本質量明顯提升(固定種子和輸入條件)。

五是視頻多樣化上的一些揭秘。

和其他模型相比,Sora能夠hold住各種尺寸的視頻,包括不同分辨率、時長、寬高比等等。

也在構圖和布局上優化了更多,如下圖所‍示,很多業內同類型模型都會盲目裁剪輸出視頻為正方形,造成主題元素只能部分展示,但Sora可以捕捉完整的場景:

報告指出,這都要歸功于OpenAI直接在視頻數據的原始尺寸上進行了訓練。

最后,是語言理解方面上的功夫。

在此,OpenAI采用了DALL·E 3中引入的一種重新標注技術,將其應用于視頻。

除了使用描述性強的視頻說明進行訓練,OpenAI也用GPT來將用戶簡短的提示轉換為更長的詳細說明,然后發送給Sora。

這一系列使得Sora的文字理解能力也相當給力。

關于技術的介紹報告只提了這么多,剩下的大篇幅都是圍繞Sora的一系列效果展示,包括文轉視頻、視頻轉視頻,以及圖片生成。

可以看到,諸如其中的“patch”到底是怎么設計的等核心問題,文中并沒有詳細講解。

有網友吐槽,OpenAI果然還是這么地“Close”(狗頭)。

正是如此,各路大佬和網友們的猜測也是五花八門。

謝賽寧分析

1、Sora應該是建立在DiT這個擴散Transformer之上的。

簡而言之,DiT是一個帶有Transformer主干的擴散模型,它= [VAE 編碼器 + ViT + DDPM + VAE 解碼器]。

謝賽寧猜測,在這上面,Sora應該沒有整太多花哨的額外東西。

2、關于視頻壓縮網絡,Sora可能采用的就是VAE架構,區別就是經過原始視頻數據訓練。

而由于VAE是一個Con.NET,所以DiT從技術上來說是一個混合模型。

3、Sora可能有大約30億個參數

謝賽寧認為這個推測不算不合理,因Sora可能還真并不需要人們想象中的那么多GPU來訓練,如果真是如此,Sora的后期迭代也將會非??臁?/p>

英偉達AI科學家Jim Fan則認為

Sora應該是一個數據驅動的物理引擎。

Sora是對現實或幻想世界的模擬,它通過一些去噪、梯度下降去學習復雜渲染、“直覺”物理、長鏡頭推理和語義基礎等。

比如這個效果中,提示詞是兩艘海盜船在一杯咖啡里航行廝殺的逼真特寫視頻。

Jim Fan分析,Sora首先要提供兩個3D資產:不同裝飾的海盜船;必須在潛在空間中解決text-to-3D的隱式問題;并且要兩艘船避開彼此的路線,兼顧咖啡液體的流體力學、保持真實感、帶來仿佛光追般的效果。

有一些觀點認為,Sora只是在2D層面上控制像素。Jim Fan明確反對這種說法。他覺得這就像說GPT-4不懂編碼,只是對字符串進行采樣。

不過他也表示,Sora還無法取代游戲引擎開發者,因為它對于物理的理解還遠遠不夠,仍然存在非常嚴重的“幻覺”。

所以他提出Sora是視頻生成的GPT-3時刻

回到2020年,GPT-3不是一個很完美的模型,但是它有力證明了上下文學習的重要性。所以不要糾結于GPT-3的缺陷,多想想后面的GPT-4。

除此之外,還有膽大的網友甚至懷疑Sora用上了虛幻引擎5來創建部分訓練數據。

他甚至挨個舉例分析了好幾個視頻中的效果以此佐證猜想:

不過反駁他的人也不少,理由包括“人走路的鏡頭明顯還是奇怪,不可能是引擎的效果”、“YouTube上有數十億小時的各種視頻,ue5的用處不大吧”……

如此種種,暫且不論。

最后,有網友表示,盡管不對OpenAI放出更多細節抱有期待,但還是很想知道Sora在視頻編碼、解碼,時間插值的額外模塊等方面是不是有創新。

OpenAI估值達800億美元

在Sora引發全球關注的同時,OpenAI的估值也再次拉高,成為全球第三高估值的科技初創公司。

隨著最新一要約收購完成,OpenAI的估值正式達到800億美元,僅次于字節跳動和SpaceX。

這筆交易由風投公司Thrive Capital牽頭,外部投資者可以從一些員工手中購買股份,去年年初時OpenAI就完成過類似交易,使其當時的估值達到290億美元。

而在Sora發布后,GPT-4 Turbo也大幅降低速率限制,提高TPM(每分鐘最大token數量),較上一次實現2倍提升。

總裁Brockman還親自帶貨宣傳。

但與此同時,OpenAI申請注冊“GPT”商標失敗了。

理由是“GPT”太通用。

One More Thing

值得一提的是,有眼尖的網友發現,昨天Stability AI也發布了SVD 1.1。

但似乎在Sora發布不久后火速刪博。

有人銳評,這不是翻版汪峰么?不應該刪,應該返蹭個熱度。

這還玩個p啊。

還有人感慨,Sora一來,立馬就明白張楠為啥要聚焦剪映了。

以及賣課大軍也聞風而動,把商機拿捏死死的。

參考鏈接:

[1]https://openai.com/research/video-generation-models-as-world-simulators

[2]https://Twitter.com/DrJimFan/status/1758210245799920123

[3]https://x.com/sainingxie/status/1758433676105310543?s=20

[4]https://twitter.com/charliebholtz/status/1758200919181967679

[5]https://www.reuters.com/technology/openai-valued-80-billion-after-deal-nyt-reports-2024-02-16/

— 

分享到:
標簽:Sora
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定