<span id="r1dp9"></span>
<span id="r1dp9"><video id="r1dp9"><ruby id="r1dp9"></ruby></video></span><ruby id="r1dp9"><video id="r1dp9"><del id="r1dp9"></del></video></ruby>
<strike id="r1dp9"></strike>
<ruby id="r1dp9"></ruby>
<th id="r1dp9"><video id="r1dp9"></video></th><strike id="r1dp9"></strike><strike id="r1dp9"><dl id="r1dp9"><ruby id="r1dp9"></ruby></dl></strike>
<span id="r1dp9"></span>
<strike id="r1dp9"><dl id="r1dp9"><ruby id="r1dp9"></ruby></dl></strike>
您當前的位置:首頁 > 電腦百科 > 人工智能

通俗易懂地解釋OpenAI Sora視頻生成的特點有哪些?它與此前的Runway Gen2、Pika有什么區別?以及缺點是什么?

時間:2024-02-23 09:57:13  來源:DataLearnerAI  作者:

生成長達一分鐘的視頻,更加自由尺寸的視頻,支持向前以及向后擴展視頻,多個視頻的連接,涌現出真實物理世界模擬的能力

AI target=_blank class=infotextkey>OpenAI的Sora模型是最近兩天最火熱的模型。它生成的視頻無論是清晰度、連貫性和時間上都有非常好的結果。在Sora之前,業界已經有了很多視頻生成工具和平臺。但為什么Sora可以引起如此大的關注?Sora生成的視頻與此前其它平臺生成的視頻到底有哪些區別?有很多童鞋似乎對這些問題依然有疑問,本文將以通俗的語言解釋Sora的獨特之處。

OpenAI Sora視頻生成能力與其它平臺和工具的對比表

在這里,我們先用一張表格來展示OpenAI Sora與其它視頻生成工具(如Runway Gen2、Pika等)的區別。然后我們針對OpenAI Sora的特別之處進行詳細解釋。

從這個表單可以看出,不論是基本的視頻生成能力(時長、長寬比),還是更強的視頻連續性、真實世界模擬等,OpenAI Sora都有無可比擬的優勢。其中,視頻清晰度,OpenAI Sora默認是1080P,而且其它平臺大多數默認的清晰度也都是1080P以下,只是在經過upscale等操作之后可以達到更清晰的水平。

上述視頻生成能力項中,視頻連接、數字世界模擬、影響世界狀態(世界交互)、運動相機模擬等都是此前視頻平臺或者工具中較少提及的,下面我們也將詳細解釋。另外值得一提的是,OpenAI Sora模型還可以直接生成圖片,也就是說,它是一個以視頻生成為核心的多能力模型。

OpenAI的Sora視頻生成的能力概覽

首先,在詳細描述Sora視頻生成與Runway Gen2等平臺的差異之前。我們先總結一下Sora視頻生成的一些能力。

OpenAI Sora可以生成長達一分鐘的視頻

在OpenAI發布Sora之前,業界基于大模型生成視頻的主要平臺有Pika、Runway Gen2等,但是這兩個平臺視頻生成默認都是幾秒中,即便通過視頻擴展等手段,最多也只能生成十幾秒的視頻。而OpenAI的Sora可以生成最多1分鐘的視頻。并且視頻生成的結果非常連貫和清晰。

OpenAI Sora可以生成更加自由尺寸的視頻

根據OpenAI的Sora技術報告,Sora模型可以采樣寬屏1920x1080視頻、豎屏1080x1920視頻以及介于兩者之間的所有尺寸視頻。這意味著它可以生成更加自由的視頻尺寸。而此前的視頻平臺,如Runway Gen2,文本生成視頻的方式只能選擇16:9, 9:16, 1:1, 4:3, 3:4, 以及 21:9的長寬比。至于清晰度,則默認1408?×?768px。

上圖是生成海歸游泳的視頻,不同尺寸的視頻里面海歸都是正中間位置,不會出現主要目標被剪裁的情況。

OpenAI Sora可以支持向前以及向后擴展視頻

這是OpenAI Sora另一個與此前視頻生成平臺有巨大差異的地方?;谝延幸曨l繼續擴展在Runway Gen2、Pika等平臺都有。但是現有平臺的視頻擴展通常是在當前視頻的基礎上繼續向前生成幾秒的視頻。但是,OpenAI Sora可以在視頻的基礎上向前或者向后擴展。例如給定一個視頻,OpenAI Sora可以為該視頻創造不同的開頭,最后都是以該視頻結尾,過程非常連續。因此,Sora甚至可以在一個視頻上同時向前和向后擴展,以產生一個無限連續的循環視頻。

OpenAI Sora支持多個視頻的連接

這是另一個Sora與眾不同的地方。給定兩個視頻,OpenAI Sora可以將這兩個視頻揉在一起,生成一個新的毫無違和感的視頻。例如,給一個無人機穿越古羅馬建筑的視頻,再給一個蝴蝶在海底珊瑚飛行的視頻,Sora可以生成一個新的視頻,讓無人機變成蝴蝶,古羅馬建筑變成珊瑚風格。

上圖是兩個例子,左右兩邊是原來的2個視頻,中間是基于這原有的2個視頻連接后生成的新的視頻。第一個就是剛才的蝴蝶與無人機的案例。第二個是圣誕節雪景和真實拍照的建筑視頻的融合。

OpenAI Sora涌現出真實物理世界模擬的能力

OpenAI Sora可以生成更加真實的物理世界的視頻。例如東京街頭逛街的時尚女模、登山運動員等。但是,與其它平臺的真實物理世界視頻生成不同的是,OpenAI Sora可以以運動相機拍攝的方式來展示視頻,包括運動相機的轉換、旋轉等。而這里最大的特點是運動相機拍攝的結果通常要與物理世界的三位空間一致,因此非常困難。但是Sora可以生成非常逼真的運動相機拍攝的視頻結果。

此外,視頻生成系統面臨的一個重大挑戰是在對長視頻進行采樣時保持時間一致性。OpenAI Sora經常(但并非總是)能夠有效地對短距離和長距離依賴關系進行建模。例如,即使人、動物和物體被遮擋或離開畫面,Sora模型也能保持它們的存在,在后續的視頻中依然出現原有的人物或者動物。同樣,它還能在單個樣本中生成同一人物的多個鏡頭,并在整個視頻中保持其外觀。

同時,Sora有時可以模擬一些影響世界狀態的簡單動作。例如,畫家可以在畫布上留下新的筆觸,并隨著時間的推移而持續,或者一個人可以吃一個漢堡,并留下咬痕。

OpenAI Sora可以模擬人工過程

除了真實的物理世界外,OpenAI Sora還可以模擬人類創造的一些世界或者過程。Sora模型可以通過理解語言提示來模擬和渲染視頻游戲世界(如Minecraft)的高級能力。它不僅能夠以高保真度同時渲染游戲環境和動態,還能控制游戲中的玩家角色,執行基本策略。這種能力表明Sora不僅具備強大的語言理解和任務推斷能力,還能處理復雜的視覺和控制任務,尤其在視頻游戲仿真領域表現出色。

Sora模型的能力表明,繼續擴大視頻模型的規模是朝向開發能夠高度仿真物理和數字世界及其中的對象、動物和人的高能力模擬器的有希望的路徑。這種擴展不僅增強了模型處理復雜場景的能力,還提升了其對世界各種元素的理解和模擬能力,從而為創建更加智能和逼真的AI系統鋪平了道路。

OpenAI Sora的技術獨特之處

盡管此次OpenAI一如既往地沒有詳細披露Sora模型的技術細節。但是也有一定的篇幅介紹了相關的技術。這里我們針對其中核心的幾點來說明。

OpenAI Sora是一種結合了Diffusion模型和Transformer模型的技術。通過將視頻壓縮網絡將原始視頻壓縮到一個低維的潛在空間,并將這些表示分解為時空補丁,類似于Transformer的tokens,這樣的表示使得模型能夠有效地訓練在不同分辨率、持續時間和寬高比的視頻和圖像上。

OpenAI Sora與Diffusion模型和Transformers模型的比較

共同點:Sora模型利用了Diffusion模型的生成能力和Transformers模型的自注意力機制。它通過預測干凈補丁的方式生成視覺內容,同時利用Transformers模型處理時空補丁的能力。 差異:

與Diffusion模型:Sora不僅僅是一個簡單的Diffusion模型,它通過引入Transformers模型的自注意力機制和視頻壓縮技術,增強了處理不同分辨率和格式視頻的能力。

與Transformers模型:Sora超越了傳統Transformers模型的應用范圍,通過將視覺數據轉換為補丁并利用Diffusion過程生成視覺內容,它結合了兩種模型的優勢,實現了視頻和圖像的高效生成。

同時,OpenAI也強調了,這個模型在大量的數據上訓練后就能提高視頻生成的效果。下圖展示了訓練過程中模型水平的提升:

換個角度說,OpenAI Sora也是某種程度上大力出奇跡的一個成果。

OpenAI Sora模型的缺點

除了上面描述的優點外,OpenAI Sora視頻生成也有一些缺點。在模擬復雜場景的物理現象、理解特定因果關系、處理空間細節、以及準確描述隨時間變化的事件方面OpenAI Sora都存在 問題。主要總結如下:

物理交互的不準確模擬:

Sora模型在模擬基本物理交互,如玻璃破碎等方面,不夠精確。這可能是因為模型在訓練數據中缺乏足夠的這類物理事件的示例,或者模型無法充分學習和理解這些復雜物理過程的底層原理。

對象狀態變化的不正確:

在模擬如吃食物這類涉及對象狀態顯著變化的交互時,Sora可能無法始終正確反映出變化。這表明模型可能在理解和預測對象狀態變化的動態過程方面存在局限。

常見的模型失敗模式

長時視頻樣本的不連貫性:在生成長時間的視頻樣本時,Sora可能會產生不連貫的情節或細節,這可能是由于模型難以在長時間跨度內保持上下文的一致性。 對象的突然出現:視頻中可能會出現對象的無緣無故出現,這表明模型在空間和時間連續性的理解上還有待提高。

這些失敗的案例包括人在跑步機上朝著反方向跑步、長視頻中突然出現之前不曾出現的物體、籃球在籃筐跳動的時候出現火苗等。這些都意味著在真實世界交互的模擬都有重大問題。



Tags:Sora   點擊:()  評論:()
聲明:本站部分內容及圖片來自互聯網,轉載是出于傳遞更多信息之目的,內容觀點僅代表作者本人,不構成投資建議。投資者據此操作,風險自擔。如有任何標注錯誤或版權侵犯請與我們聯系,我們將及時更正、刪除。
▌相關推薦
Sora開啟文生視頻新紀元 影視游戲產業加速變局求突破
本報記者 李豪悅文生視頻模型Sora掀起的人工智能浪潮,正席卷全球多個產業鏈,影視游戲產業首先受到影響。3月26日,Sora母公司OpenAI與合作的部分藝術家發布了利用Sora制作的首部...【詳細內容】
2024-03-28  Search: Sora  點擊:(15)  評論:(0)  加入收藏
Sora超逼真視頻引恐慌!Nature刊文警示AI視頻模型,或在2024年顛覆科學和社會
新智元報道編輯:LRS【新智元導讀】王炸Sora發布后,想要分辨AI視頻和真實視頻變得更難了,各行各業都面臨新的挑戰與危機。&zwj;技術的發展總是伴隨著被濫用的風險,從ChatGPT到最...【詳細內容】
2024-03-27  Search: Sora  點擊:(19)  評論:(0)  加入收藏
8款AI視頻生成產品實測,誰將成為中國Sora?
  &copy;自象限原創  作者丨羅輯、蘇奕  來源丨自象限  2024年開年,科技圈沒有什么比Sora的出現更讓人興奮?! ∪缤珻hatGPT在2023年初帶來的LLM創業潮,Sora的發布也...【詳細內容】
2024-03-27  Search: Sora  點擊:(16)  評論:(0)  加入收藏
Sora到底怎么樣?第一批試用者這樣說!
每經編輯:畢陸名OpenAI推出文生視頻大模型Sora已有一個多月,現在第一波試用反饋來了!圖片來源:OpenAI官網截圖當地時間3月25日,OpenAI在官網介紹了該公司與藝術家和電影制片人的...【詳細內容】
2024-03-26  Search: Sora  點擊:(15)  評論:(0)  加入收藏
開發者再分享 OpenAI Sora 生成的短視頻:樹葉大象、彩虹瀑布等
IT之家 3 月 19 日消息,OpenAI 今年 2 月推出 Sora 模型之后,迅速成為 AI 圈內頭條,能夠基于用戶的一句話,生成最長 1 分鐘的視頻,效果接近實拍。OpenAI 目前并未向公眾發布 Sora...【詳細內容】
2024-03-19  Search: Sora  點擊:(12)  評論:(0)  加入收藏
別等OpenAI了,全球首個類Sora搶先開源!所有訓練細節/模型權重全公開,成本僅1萬美元
【導讀】OpenAI Sora還沒用上,國產Sora剛剛正式宣布全面開源!「Open-Sora 1.0」所有的訓練細節模型權重全面開源,1萬美元64塊GPU復現,訓練成本直降46%。圖片來源:由無界AI生成不...【詳細內容】
2024-03-18  Search: Sora  點擊:(18)  評論:(0)  加入收藏
Sora驚艷出世,AI能否給人類帶來新的“視界”?
2月16日,OpenAI公司公布了其首個文生視頻大模型Sora,同時展示了多個由Sora生成的最長時間達一分鐘的視頻,引起科技圈震動。鋼鐵俠馬斯克對其發出“人類愿賭服輸”的感嘆,360董事...【詳細內容】
2024-03-03  Search: Sora  點擊:(23)  評論:(0)  加入收藏
Sora殺入Tiktok,短視頻營銷革命要來了嗎?
文 | 增長工場,作者 | 相青,編輯 | 徐偉“我們都知道它會來,但沒想到這么快?!弊匀ツ闍IGC爆火,很多人就開始期待文生視頻模型,也的確有一些文生視頻模型和公司跑出來,比如國外AI...【詳細內容】
2024-02-29  Search: Sora  點擊:(28)  評論:(0)  加入收藏
Sora來襲AI換臉門檻降低 網絡安全公司何以應對新風險?
&ensp;&ensp;&ensp;&ensp;本報記者 丁蓉&ensp;&ensp;&ensp;&ensp;近期,中國香港警方披露了一起AI(人工智能)“多人換臉”詐騙案,涉案金額高達2億港元。一家跨國公司香港分部的職...【詳細內容】
2024-02-29  Search: Sora  點擊:(38)  評論:(0)  加入收藏
Sora火了,通用人工智能要來了?
2024年開年,Sora的橫空出世,給AI界投下一枚重磅炸彈。這個由美國人工智能公司OpenAI發布的文生視頻模型,只需要一段提示文本,就能生成具有多個角色和特定動作類型,且主題和背景基...【詳細內容】
2024-02-27  Search: Sora  點擊:(32)  評論:(0)  加入收藏
▌簡易百科推薦
多方熱議人工智能產業新機遇
編者按&emsp;&emsp;從前沿科技展會到高層對話平臺,從上海、重慶到博鰲,從線上到線下&hellip;&hellip;一場場高規格、大規模的盛會中,人工智能正在成為各界熱議的高頻詞。賦能千...【詳細內容】
2024-04-08    中國家電網  Tags:人工智能   點擊:(2)  評論:(0)  加入收藏
?人形機器人時代來了嗎
日前,由中國人形機器人(11.080, -0.05, -0.45%)百人會主辦的人形機器人大賽在北京經濟技術開發區開賽。工作人員向參觀者展示一款人形機器人。參觀者與一款陪護型人形機器人...【詳細內容】
2024-04-08    中國青年報  Tags:?人形機器人   點擊:(2)  評論:(0)  加入收藏
AI重塑社交:騰訊與字節跳動的新賽場
文|新火種 一號編輯|美美最近,騰訊和字節跳動這兩大互聯網巨頭幾乎同步推出了各自的AI社交產品,盡管騰訊和字節跳動在前段時間剛剛“破冰”,但這一舉措不僅意味著這兩大巨頭之...【詳細內容】
2024-04-07    藍鯨財經  Tags:AI   點擊:(6)  評論:(0)  加入收藏
第一批用 Kimi 做內容的網紅已經殺瘋了
作者:王東東 文章來自:斗戰圣佛小組技術信仰派 VS 市場信仰派 朱嘯虎和月之暗面老板楊植麟在前幾天有一場不算 battle 的 battle。battle 的爭論點是:大模型有沒有戲。技術派...【詳細內容】
2024-04-04    斗戰圣佛小組  Tags:Kimi   點擊:(4)  評論:(0)  加入收藏
昆侖萬維發布面向人工智能時代的六條人才宣言
過去的一年多,是人工智能取得非凡進步的一年。在這充滿突破性技術飛躍和備受爭議的一年里,我們見證了人工智能的快速發展和廣泛的影響,人工智能已經迅速地融入了我們的生活,深刻...【詳細內容】
2024-04-03    砍柴網  Tags:昆侖萬維   點擊:(7)  評論:(0)  加入收藏
AI干掉聲優?音頻大模型追逐“圖靈時刻”
七十年前,“人工智能之父”圖靈提出,如果人無法判斷屏幕的另一側究竟是人還是機器,就證明機器具備了人一樣的智能。這一經典的圖靈測試如同北斗星一般,指引著AI行業的工作者們不...【詳細內容】
2024-04-03    第一財經網  Tags:AI   點擊:(5)  評論:(0)  加入收藏
生成式人工智能有哪些新趨勢?
相較于去年,當下我們所能體驗的人工智能技術的范圍已經大幅提升。從搜索引擎、電商平臺再到社媒平臺,只要是以搜索結果為導向的內容,都會出現它的身影。但其實,人工智能的應用場...【詳細內容】
2024-04-03  品談教師幫    Tags:人工智能   點擊:(6)  評論:(0)  加入收藏
AI世界的新難題:互聯網的信息不夠用了!
高質量數據的緊缺正成為AI發展的重要障礙。4月1日,據媒體報道,隨著OpenAI、Google等企業不斷深入發展AI技術,科技巨頭們遇到了一個新問題:現有的互聯網信息量可能不足以支撐他們...【詳細內容】
2024-04-02  硬AI    Tags:AI   點擊:(6)  評論:(0)  加入收藏
今天起,ChatGPT無需注冊就能用了!
 來源:量子位    金磊 克雷西 發自 凹非寺  就在剛剛,OpenAI狠狠地open了一把:從今天起,ChatGPT打開即用,無需再注冊帳號和登錄了!  像這樣,直接登錄網站,然后就可以開啟對...【詳細內容】
2024-04-02    量子位   Tags:ChatGPT   點擊:(7)  評論:(0)  加入收藏
AI時代,面對死亡有了第二種選擇?
今年春節期間,羅佩璽瞞著媽媽用AI技術“復活”了外婆,她將媽媽現在的模樣和外婆留下的老照片合成在一起。時隔60多年,媽媽和外婆終于又“見面”了,這是她送給媽媽的生日禮物。收...【詳細內容】
2024-04-02    中國青年報  Tags:AI時代   點擊:(7)  評論:(0)  加入收藏
站內最新
站內熱門
相關頭條
站內頭條
日无码在线观看