日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長(zhǎng)提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請(qǐng)做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會(huì)員:747

生成長(zhǎng)達(dá)一分鐘的視頻,更加自由尺寸的視頻,支持向前以及向后擴(kuò)展視頻,多個(gè)視頻的連接,涌現(xiàn)出真實(shí)物理世界模擬的能力

AI target=_blank class=infotextkey>OpenAI的Sora模型是最近兩天最火熱的模型。它生成的視頻無論是清晰度、連貫性和時(shí)間上都有非常好的結(jié)果。在Sora之前,業(yè)界已經(jīng)有了很多視頻生成工具和平臺(tái)。但為什么Sora可以引起如此大的關(guān)注?Sora生成的視頻與此前其它平臺(tái)生成的視頻到底有哪些區(qū)別?有很多童鞋似乎對(duì)這些問題依然有疑問,本文將以通俗的語言解釋Sora的獨(dú)特之處。

OpenAI Sora視頻生成能力與其它平臺(tái)和工具的對(duì)比表

在這里,我們先用一張表格來展示OpenAI Sora與其它視頻生成工具(如Runway Gen2、Pika等)的區(qū)別。然后我們針對(duì)OpenAI Sora的特別之處進(jìn)行詳細(xì)解釋。

從這個(gè)表單可以看出,不論是基本的視頻生成能力(時(shí)長(zhǎng)、長(zhǎng)寬比),還是更強(qiáng)的視頻連續(xù)性、真實(shí)世界模擬等,OpenAI Sora都有無可比擬的優(yōu)勢(shì)。其中,視頻清晰度,OpenAI Sora默認(rèn)是1080P,而且其它平臺(tái)大多數(shù)默認(rèn)的清晰度也都是1080P以下,只是在經(jīng)過upscale等操作之后可以達(dá)到更清晰的水平。

上述視頻生成能力項(xiàng)中,視頻連接、數(shù)字世界模擬、影響世界狀態(tài)(世界交互)、運(yùn)動(dòng)相機(jī)模擬等都是此前視頻平臺(tái)或者工具中較少提及的,下面我們也將詳細(xì)解釋。另外值得一提的是,OpenAI Sora模型還可以直接生成圖片,也就是說,它是一個(gè)以視頻生成為核心的多能力模型。

OpenAI的Sora視頻生成的能力概覽

首先,在詳細(xì)描述Sora視頻生成與Runway Gen2等平臺(tái)的差異之前。我們先總結(jié)一下Sora視頻生成的一些能力。

OpenAI Sora可以生成長(zhǎng)達(dá)一分鐘的視頻

在OpenAI發(fā)布Sora之前,業(yè)界基于大模型生成視頻的主要平臺(tái)有Pika、Runway Gen2等,但是這兩個(gè)平臺(tái)視頻生成默認(rèn)都是幾秒中,即便通過視頻擴(kuò)展等手段,最多也只能生成十幾秒的視頻。而OpenAI的Sora可以生成最多1分鐘的視頻。并且視頻生成的結(jié)果非常連貫和清晰。

OpenAI Sora可以生成更加自由尺寸的視頻

根據(jù)OpenAI的Sora技術(shù)報(bào)告,Sora模型可以采樣寬屏1920x1080視頻、豎屏1080x1920視頻以及介于兩者之間的所有尺寸視頻。這意味著它可以生成更加自由的視頻尺寸。而此前的視頻平臺(tái),如Runway Gen2,文本生成視頻的方式只能選擇16:9, 9:16, 1:1, 4:3, 3:4, 以及 21:9的長(zhǎng)寬比。至于清晰度,則默認(rèn)1408?×?768px。

上圖是生成海歸游泳的視頻,不同尺寸的視頻里面海歸都是正中間位置,不會(huì)出現(xiàn)主要目標(biāo)被剪裁的情況。

OpenAI Sora可以支持向前以及向后擴(kuò)展視頻

這是OpenAI Sora另一個(gè)與此前視頻生成平臺(tái)有巨大差異的地方。基于已有視頻繼續(xù)擴(kuò)展在Runway Gen2、Pika等平臺(tái)都有。但是現(xiàn)有平臺(tái)的視頻擴(kuò)展通常是在當(dāng)前視頻的基礎(chǔ)上繼續(xù)向前生成幾秒的視頻。但是,OpenAI Sora可以在視頻的基礎(chǔ)上向前或者向后擴(kuò)展。例如給定一個(gè)視頻,OpenAI Sora可以為該視頻創(chuàng)造不同的開頭,最后都是以該視頻結(jié)尾,過程非常連續(xù)。因此,Sora甚至可以在一個(gè)視頻上同時(shí)向前和向后擴(kuò)展,以產(chǎn)生一個(gè)無限連續(xù)的循環(huán)視頻。

OpenAI Sora支持多個(gè)視頻的連接

這是另一個(gè)Sora與眾不同的地方。給定兩個(gè)視頻,OpenAI Sora可以將這兩個(gè)視頻揉在一起,生成一個(gè)新的毫無違和感的視頻。例如,給一個(gè)無人機(jī)穿越古羅馬建筑的視頻,再給一個(gè)蝴蝶在海底珊瑚飛行的視頻,Sora可以生成一個(gè)新的視頻,讓無人機(jī)變成蝴蝶,古羅馬建筑變成珊瑚風(fēng)格。

上圖是兩個(gè)例子,左右兩邊是原來的2個(gè)視頻,中間是基于這原有的2個(gè)視頻連接后生成的新的視頻。第一個(gè)就是剛才的蝴蝶與無人機(jī)的案例。第二個(gè)是圣誕節(jié)雪景和真實(shí)拍照的建筑視頻的融合。

OpenAI Sora涌現(xiàn)出真實(shí)物理世界模擬的能力

OpenAI Sora可以生成更加真實(shí)的物理世界的視頻。例如東京街頭逛街的時(shí)尚女模、登山運(yùn)動(dòng)員等。但是,與其它平臺(tái)的真實(shí)物理世界視頻生成不同的是,OpenAI Sora可以以運(yùn)動(dòng)相機(jī)拍攝的方式來展示視頻,包括運(yùn)動(dòng)相機(jī)的轉(zhuǎn)換、旋轉(zhuǎn)等。而這里最大的特點(diǎn)是運(yùn)動(dòng)相機(jī)拍攝的結(jié)果通常要與物理世界的三位空間一致,因此非常困難。但是Sora可以生成非常逼真的運(yùn)動(dòng)相機(jī)拍攝的視頻結(jié)果。

此外,視頻生成系統(tǒng)面臨的一個(gè)重大挑戰(zhàn)是在對(duì)長(zhǎng)視頻進(jìn)行采樣時(shí)保持時(shí)間一致性。OpenAI Sora經(jīng)常(但并非總是)能夠有效地對(duì)短距離和長(zhǎng)距離依賴關(guān)系進(jìn)行建模。例如,即使人、動(dòng)物和物體被遮擋或離開畫面,Sora模型也能保持它們的存在,在后續(xù)的視頻中依然出現(xiàn)原有的人物或者動(dòng)物。同樣,它還能在單個(gè)樣本中生成同一人物的多個(gè)鏡頭,并在整個(gè)視頻中保持其外觀。

同時(shí),Sora有時(shí)可以模擬一些影響世界狀態(tài)的簡(jiǎn)單動(dòng)作。例如,畫家可以在畫布上留下新的筆觸,并隨著時(shí)間的推移而持續(xù),或者一個(gè)人可以吃一個(gè)漢堡,并留下咬痕。

OpenAI Sora可以模擬人工過程

除了真實(shí)的物理世界外,OpenAI Sora還可以模擬人類創(chuàng)造的一些世界或者過程。Sora模型可以通過理解語言提示來模擬和渲染視頻游戲世界(如Minecraft)的高級(jí)能力。它不僅能夠以高保真度同時(shí)渲染游戲環(huán)境和動(dòng)態(tài),還能控制游戲中的玩家角色,執(zhí)行基本策略。這種能力表明Sora不僅具備強(qiáng)大的語言理解和任務(wù)推斷能力,還能處理復(fù)雜的視覺和控制任務(wù),尤其在視頻游戲仿真領(lǐng)域表現(xiàn)出色。

Sora模型的能力表明,繼續(xù)擴(kuò)大視頻模型的規(guī)模是朝向開發(fā)能夠高度仿真物理和數(shù)字世界及其中的對(duì)象、動(dòng)物和人的高能力模擬器的有希望的路徑。這種擴(kuò)展不僅增強(qiáng)了模型處理復(fù)雜場(chǎng)景的能力,還提升了其對(duì)世界各種元素的理解和模擬能力,從而為創(chuàng)建更加智能和逼真的AI系統(tǒng)鋪平了道路。

OpenAI Sora的技術(shù)獨(dú)特之處

盡管此次OpenAI一如既往地沒有詳細(xì)披露Sora模型的技術(shù)細(xì)節(jié)。但是也有一定的篇幅介紹了相關(guān)的技術(shù)。這里我們針對(duì)其中核心的幾點(diǎn)來說明。

OpenAI Sora是一種結(jié)合了Diffusion模型和Transformer模型的技術(shù)。通過將視頻壓縮網(wǎng)絡(luò)將原始視頻壓縮到一個(gè)低維的潛在空間,并將這些表示分解為時(shí)空補(bǔ)丁,類似于Transformer的tokens,這樣的表示使得模型能夠有效地訓(xùn)練在不同分辨率、持續(xù)時(shí)間和寬高比的視頻和圖像上。

OpenAI Sora與Diffusion模型和Transformers模型的比較

共同點(diǎn):Sora模型利用了Diffusion模型的生成能力和Transformers模型的自注意力機(jī)制。它通過預(yù)測(cè)干凈補(bǔ)丁的方式生成視覺內(nèi)容,同時(shí)利用Transformers模型處理時(shí)空補(bǔ)丁的能力。 差異:

與Diffusion模型:Sora不僅僅是一個(gè)簡(jiǎn)單的Diffusion模型,它通過引入Transformers模型的自注意力機(jī)制和視頻壓縮技術(shù),增強(qiáng)了處理不同分辨率和格式視頻的能力。

與Transformers模型:Sora超越了傳統(tǒng)Transformers模型的應(yīng)用范圍,通過將視覺數(shù)據(jù)轉(zhuǎn)換為補(bǔ)丁并利用Diffusion過程生成視覺內(nèi)容,它結(jié)合了兩種模型的優(yōu)勢(shì),實(shí)現(xiàn)了視頻和圖像的高效生成。

同時(shí),OpenAI也強(qiáng)調(diào)了,這個(gè)模型在大量的數(shù)據(jù)上訓(xùn)練后就能提高視頻生成的效果。下圖展示了訓(xùn)練過程中模型水平的提升:

換個(gè)角度說,OpenAI Sora也是某種程度上大力出奇跡的一個(gè)成果。

OpenAI Sora模型的缺點(diǎn)

除了上面描述的優(yōu)點(diǎn)外,OpenAI Sora視頻生成也有一些缺點(diǎn)。在模擬復(fù)雜場(chǎng)景的物理現(xiàn)象、理解特定因果關(guān)系、處理空間細(xì)節(jié)、以及準(zhǔn)確描述隨時(shí)間變化的事件方面OpenAI Sora都存在 問題。主要總結(jié)如下:

物理交互的不準(zhǔn)確模擬:

Sora模型在模擬基本物理交互,如玻璃破碎等方面,不夠精確。這可能是因?yàn)槟P驮谟?xùn)練數(shù)據(jù)中缺乏足夠的這類物理事件的示例,或者模型無法充分學(xué)習(xí)和理解這些復(fù)雜物理過程的底層原理。

對(duì)象狀態(tài)變化的不正確:

在模擬如吃食物這類涉及對(duì)象狀態(tài)顯著變化的交互時(shí),Sora可能無法始終正確反映出變化。這表明模型可能在理解和預(yù)測(cè)對(duì)象狀態(tài)變化的動(dòng)態(tài)過程方面存在局限。

常見的模型失敗模式

長(zhǎng)時(shí)視頻樣本的不連貫性:在生成長(zhǎng)時(shí)間的視頻樣本時(shí),Sora可能會(huì)產(chǎn)生不連貫的情節(jié)或細(xì)節(jié),這可能是由于模型難以在長(zhǎng)時(shí)間跨度內(nèi)保持上下文的一致性。 對(duì)象的突然出現(xiàn):視頻中可能會(huì)出現(xiàn)對(duì)象的無緣無故出現(xiàn),這表明模型在空間和時(shí)間連續(xù)性的理解上還有待提高。

這些失敗的案例包括人在跑步機(jī)上朝著反方向跑步、長(zhǎng)視頻中突然出現(xiàn)之前不曾出現(xiàn)的物體、籃球在籃筐跳動(dòng)的時(shí)候出現(xiàn)火苗等。這些都意味著在真實(shí)世界交互的模擬都有重大問題。

分享到:
標(biāo)簽:Sora
用戶無頭像

網(wǎng)友整理

注冊(cè)時(shí)間:

網(wǎng)站:5 個(gè)   小程序:0 個(gè)  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會(huì)員

趕快注冊(cè)賬號(hào),推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫(kù),初中,高中,大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績(jī)?cè)u(píng)定2018-06-03

通用課目體育訓(xùn)練成績(jī)?cè)u(píng)定