顛覆性王炸！一句話生成一分鐘視頻，網友：整個行業都要消亡了-魔扣目錄

作者丨肖瀟

編輯丨王俊黎雨桐許婷婷

AI target=_blank class=infotextkey>OpenAI在AI生成視頻領域扔出一枚“王炸”。

當地時間2月15日，OpenAI發布了第一個文生視頻大模型Sora。這一模型可以根據用戶輸入的提示詞生成長達一分鐘的高清視頻，雖然還沒公開使用，但已經引發了熱議。

OpenAI重磅發布，文字直接生成視頻！網友：我要失業了

在官方分享的演示視頻中，Sora可以直接輸出有多個角色、多種場景和運鏡的畫面。比如一段提示詞為：鏡頭穿過熙熙攘攘的東京街道，跟隨幾個人享受雪天并逛街。在Sora生成的視頻中，鏡頭從天空的雪花中俯沖，跟著一對牽手的情侶，走過日本風格的街道。

再例如一端提示詞的描述是：在東京街頭，一位時髦的女士穿梭在充滿溫暖霓虹燈光和動感城市標志的街道上。

在Sora生成的視頻里，女士身著黑色皮衣、紅色裙子在霓虹街頭行走，不僅主體連貫穩定，還有多鏡頭，包括從大街景慢慢切入到對女士的臉部表情的特寫，以及潮濕的街道地面反射霓虹燈的光影效果。

電影預告片講述了30歲宇航員戴著紅色羊毛針織摩托車頭盔的冒險經歷，藍天、鹽漠，電影風格，35毫米膠片拍攝，色彩鮮艷。

豎屏超近景視角下，這只蜥蜴細節拉滿：

“穿過東京郊區的火車窗外的倒影”。

“賽博朋克背景下機器人的生活故事”。

OpenAI首席執行官奧特曼（Sam Altman）周四在X網站上讓該平臺用戶把自己想給Sora的文字描述提交給他。然后，他分享了Sora根據這些描述生成的視頻。

“我們想向你們展示Sora能做什么，”他在X上寫道，“不用擔心你的要求太細，或是難度太大！”

有人提出想要“一段海上自行車比賽的視頻，讓各種動物作為運動員騎自行車，采用無人機拍攝視角”。奧特曼在回復中發布了一段由Sora生成的視頻，視頻中有企鵝、海豚和其他水生生物騎自行車。

另一段視頻顯示，一位身穿圍裙、面帶微笑的白發女士邀請觀眾進入她的廚房。有人向奧特曼要一段“由一名祖母輩的網紅主持的自制團子烹飪課程，背景是一個質樸的托斯卡納鄉村廚房，并配有電影級的燈光”，之后Sora生成了這段AI視頻。

網友直呼game over，工作要丟了：

甚至有人已經開始“悼念”一整個行業：

還有網友表示，電影業要徹底顛覆了。

OpenAI詳解技術突破點

AI視頻的運用可以追溯到2022年。初創公司Runway被認為是這一技術領域的“鼻祖”，熱門科幻電影《瞬息全宇宙》就用到了其視頻編輯技術。從那時起，AI視頻技術開始快速迭代，以Runway、Pika、Meta（Emu Video）為代表的公司進入競爭賽道。不過，這些AI視頻大多只能維持幾秒鐘的長度，存在場景不逼真、元素閃現、運動不連貫等“一眼AI”的問題。

而在OpenAI目前公開的48個演示視頻里，無論是貓踩醒被窩里的主人，模仿手機拍攝的尼日利亞街道，還是中國的春節舞龍活動......幾乎看不出AI生成的痕跡。

OpenAI解釋，Sora不僅能滿足提示詞的要求，還理解各種物體在物理世界的存在方式。實現的最關鍵的一處技術突破是，“畫面主體即使暫時離開鏡頭，也能保持不變。”因此生成視頻的逼真度和連貫性有了肉眼可見的進步。

一位硅谷AI公司的從業者告訴21記者，根據她的使用體驗，Sora在演示視頻中展現的能力遠遠超Pika和Runway，“Pika只能生成3-15秒的視頻，Sora能直接生成一分鐘的視頻。從畫面效果和時長來看，Sora肯定是一個重要突破。”

業內普遍認為，Sora能力的提升，主要來自高質量的數據集，以及準確的語言理解能力。OpenAI 沒有透露訓練視頻的大小、來源，只聲稱訓練的是公開有版權的視頻。前述從業者認為，Sora無疑有巨大的數據量，因此能夠支持多大的調用量，視頻加載和渲染有多少延遲，都將是后續挑戰。“真正投入使用會是什么樣？能不能達到官方演示的效果？”還是一個未知數。

‍

Sora還難以呈現復雜的物理變化規律

OpenAI已經公開承認了一些Sora存在的缺陷：它可能難以呈現復雜的物理變化規律，無法理解因果關系，混淆空間細節。

例如在演示視頻中，“五只灰狼幼崽在一條偏僻的碎石路上互相嬉戲、追逐”，狼的數量會變化，一些憑空出現或消失。