-
Sora
(OpenAI發佈的人工智能文生視頻大模型)
鎖定
Sora,美國人工智能研究公司OpenAI發佈的人工智能文生視頻大模型(但OpenAI並未單純將其視為視頻模型,而是作為“世界模擬器”
[10]
),於2024年2月15日(美國當地時間)正式對外發布
[1]
[3]
。
Sora可以根據用户的文本提示創建最長60秒的逼真視頻,該模型瞭解這些物體在物理世界中的存在方式,可以深度模擬真實物理世界,能生成具有多個角色、包含特定運動的複雜場景。繼承了DALL-E 3的畫質和遵循指令能力,能理解用户在提示中提出的要求
[1-2]
[4]
。
- 外文名
- Sora
- 所屬公司
- OpenAI
- 發佈時間
- 2024年2月
- 類 別
- 文生視頻大模型
- 模型類別
- 擴散模型
- 使用架構
- Transformer架構
Sora行業背景
- OpenAI在大模型領域的成功
2022年底,OpenAI正式推出ChatGPT,這款由人工智能技術驅動的自然語言處理工具能夠通過學習和理解人類的語言來進行對話
[26]
。ChatGPT是OpenAI邁出的第一步,這款讓所有人都能體會到人工智能潛力的現象級產品,展現出了文字對於過去人工智能的理解力和邏輯能力的超越。隨後,OpenAI的開發重點逐步過渡到圖像的生成,Dall-E模型在生成圖像方面也獲得了重大突破
[25]
。
- 視覺算法的進步
視覺算法近年來的突破在泛化性、可提示性、生成質量和穩定性等方面均取得了進展,這預示着技術拐點的臨近以及爆款應用的湧現。特別是在3D資產生成和視頻生成領域,由於擴散算法的成熟,這些領域受益匪淺。然而,與圖像生成相比,3D資產和視頻生成在數據和算法方面面臨的難點更多
[21]
。
儘管如此,考慮到大型語言模型(LLM)對人工智能各領域的加速作用以及已經出現的優秀開源模型,2024年該行業有望實現更大的發展。在2023年末至2024年初,Pika、HeyGen等人工智能生成的視頻應用逐漸受到關注,這驗證了多模態技術的持續進步與成熟
[21]
。但與此同時,民主倡導者和人工智能研究人員警告説,這些工具已經被用來欺騙和欺騙民眾
[22]
。
Sora名字由來
Sora發展歷程
Sora正式發佈
美國當地時間2024年2月15日
[3]
,OpenAI正式發佈文生視頻模型Sora
[1]
,併發布了48個文生視頻案例和技術報告
[36]
,正式入局視頻生成領域
[5]
。Sora能夠根據提示詞生成60s的連貫視頻,“碾壓”了行業目前大概只有平均“4s”的視頻生成長度
[34]
。
2024年2月21日,博主寶玉xp分享稱,OpenAI的Tiktok賬號發佈了不少Sora生成的視頻,還配上了背景音樂。
[60]
3月,Sora核心團隊三位負責人露面接受了專訪。他們在採訪中透露,Sora還處於反饋獲取階段,還不是一個產品,短期內不會向公眾開放。
[59]
3月26日,每經AI快訊,OpenAI介紹該公司與藝術家和電影製片人的早期合作情況,展示Sora如何幫助人們把想法轉變為現實。
[61]
4月4日消息,OpenAI 近日在其 YouTube 官方頻道發佈視頻,介紹了由 August Kamp 參與制作,完全由文本轉視頻 AI 模型 Sora 生成的首支音樂短片《Worldweight》。
[62]
Sora功能特色
Sora優點
- 功能綜述
Sora可以快速製作最長一分鐘、準確反映用户提示、可一鏡到底的視頻
[2]
(其他AI視頻工具還在突破幾秒內的連貫性
[23]
),視頻可以呈現“具有多個角色、特定類型的動作、以及主題和背景的準確細節的複雜場景”
[1]
。
- 靜態圖生成視頻
- 視頻擴展與缺失幀填充
- 連接視頻
- 其他能力
能力 | 描述 |
---|---|
圖像生成 | |
3D一致 | |
遠距離連貫性 物體持久性 | |
互動性 | |
模擬數字世界 | |
多機位 |
Sora缺點
OpenAI表示,Sora存在不成熟之處,可能難以理解因果關係,多位人工智能領域人士表示,該問題可能因其概率模式的邏輯存有“硬傷”。加大訓練量、增加訓練數據與物理邏輯可改善該問題,但無法根治。想要真正突破最底層邏輯上的問題,因果關係是一條必經之路
[41]
。
Sora技術特點
Sora多幀預測生成
Sora是一種擴散模型,具備從噪聲中生成完整視頻的能力,它生成的視頻一開始看起來像靜態噪音,通過多個步驟逐漸去除噪聲後,視頻也從最初的隨機像素轉化為清晰的圖像場景
[22]
,其能夠一次生成多幀預測,確保畫面主體在暫時離開視野時仍保持一致
[3-4]
。
Sora特殊架構
Sora採用與GPT模型相似的Transformer架構,OpenAI用Transformer結構替代Diffusion模型中常用的U-Net結構,提升了原來Diffusion模型在深度和寬度上的可擴展性,為視頻模型增加輸出時長奠定基礎
[40]
。Transformer架構能夠處理長序列數據,並通過自注意力機制捕捉數據中的依賴關係,從而提高模型的生成能力
[3-4]
。但為了解決Transformer架構在長文本和高分辨率圖像處理上的問題,擴散模型採用更可擴展的狀態空間模型(SSM)主幹替代了傳統的注意力機制,從而減少了算力需求,並能夠生成高分辨率圖像
[10]
。
Sora重述提示詞
Sora借鑑DALL-E 3的“重述提示詞技術”,為視覺訓練數據生成高度描述性的標註,這使得模型能夠更忠實地遵循用户的文本指令,生成符合用户需求的視頻內容,同時也提高了模型的靈活性和可控性
[3-4]
。
Sora數據表示
OpenAI將視頻和圖像表示為Patch,類似於GPT中的token,這種統一的數據表示方式使得Sora能夠在更廣泛的視覺數據上進行訓練,涵蓋不同的持續時間、分辨率和縱橫比,有助於模型學習到更豐富的視覺特徵,提高生成視頻的質量和多樣性
[3-4]
。
Sora原生規模訓練
Sora採用“原生規模訓練”,過往的圖像和視頻生成通常會將視頻調整為標準大小,但這樣會失去視頻的原始長寬比和細節,而原生規模的訓練方法可以帶來更好的效果。Sora可以對各種尺寸和縱橫比的視頻進行採樣,允許直接為不同尺寸的設備創建內容,並快速原型化較低分辨率的內容。與將視頻裁剪為正方形的模型相比,Sora可以生成更完整、更美觀的視頻
[3]
。
Sora模型研發
Sora主要人員
姓名 | 簡介 | 照片 |
---|---|---|
Tim Brooks (蒂姆·布魯克斯) | OpenAI研究員,在加州大學伯克利分校讀博士,Sora項目的共同領導者,參與過DALL-E 3相關研究。 | |
William (Bill) Peebles (比爾·皮布爾斯) | ||
OpenAI研究員,“00後”,密西根大學計算機系本科畢業,參與過DALL-E 3相關研究,常在社交媒體解答網友的疑問。 | ||
OpenAI研究員,麻省理工學院物理學博士,致力於研究多模態模型,參與過DALL-E 3相關研究。 | ||
OpenAI研究員,畢業於加州大學伯克利分校。 | ||
曾從事新聞行業,在今日美國、WIRED等媒體有過任職,曾在蘋果任職
[43]
。 |
此外,Troy Luhman、Clarence Wing Yin Ng等人也參與了Sora相關研究
[3]
[35]
。而Sora團隊也正在持續擴張,David Schnurr發佈招聘廣告尋找有大型視頻基礎設施經驗的人員
[43]
。
Sora研發軼事
- 技術基礎
Sora團隊共同領導者William (Bill) Peebles和謝賽寧合著的論文《Scalable diffusion models with transformers》被認為是Sora背後的重要技術基礎之一(但謝賽寧否認參與Sora研發團隊,僅稱其合著論文起到一些作用
[46]
),不過這項研究在發表的時候並不順利。Sora發佈時,圖靈獎獲得者、Meta首席科學家Yann LeCun表示該研究論文因為“缺乏創新”,先被CVPR 2023拒絕,後來被ICCV 2023接收
[43]
[45]
。
- 研發時間
Sora專業測試
安全性
OpenAI已將Sora交由Team Red(網絡安全演習中扮演敵人或競爭對手角色的羣體)測試Sora,評估潛在的危害或風險
[2]
。此外,OpenAI正在開發幫助檢測誤導性信息的工具,比如檢測分類器可以判斷視頻是何時由Sora生成的,其文本分類器可檢查並拒絕違反使用政策的文本輸入提示,例如極端暴力、性內容、仇恨圖像、名人肖像等
[7]
。
創意性
Sora社會影響
Sora價值意義
Sora對於需要製作視頻的藝術家、電影製片人或學生來説,都帶來了無限可能。該模型可以深度模擬真實物理世界,標誌着人工智能在理解真實世界場景並與之互動的能力方面實現飛躍
[2]
,也被認為是實現通用人工智能(AGI)的重要里程碑,通過不斷深入研究和發展Sora等先進模型,有望在未來實現更加智能、高效和多樣化的視頻生成與處理技術
[4]
。Sora的推出讓AIGC(生成式人工智能)再度成為行業焦點,能否徹底“顛覆”行業也成為輿論議論的中心。
[58]
Sora產業格局
- 估值上漲
Sora發佈後,OpenAI的估值迅速上漲(有望超過800億美元,2023年ChatGPT發佈不久時其估值約為290億美元),且文生視頻大模型將會大幅推動人工智能基礎設施的需求,英偉達、OpenAI、軟銀等巨頭公司都被曝正在進行AI芯片的製造佈局,英偉達也因大模型訓練需要GPU算力支持而股價大漲
[38]
。與此同時,受Sora發佈的影響,美國圖片供應商Shutterstock的股價大跌
[39]
。
在中國,龍年開市第一天,Sora相關概念全線“爆發”,會暢通訊、當虹科技、萬興科技、易點天下、因賽集團、東方國信、數碼視訊、華揚聯眾、國脈文化等股票均大幅上漲,多家公司迴應稱,將根據自身業務特點,在文生視頻技術落地、Sora應用等方面尋找突破入口
[49]
。
- 生產變革
浙商證券預測,Sora及同類產品將參與到改變信息生產和分發兩大環節的進程中,PGC(專業生產內容)將廣泛採用AI工具輔助生產,UGC(用户生成內容)將藉助AI工具逐步替代PGC。此間,AI生成視頻工具的商業化將提速
[41]
。
Sora可生成一段長達60秒的視頻,遠超市面同類AI產品視頻生成時長,60秒的視頻時長,已經超過抖音等短視頻平台的平均視頻時長,Sora的誕生也為以後短視頻平台的內容生產提供了更大的可能性。
[47]
Sora職業取代
截至2024年2月,已有一些視覺藝術家、設計師和電影製作人以及OpenAI員工獲得了Sora訪問權限,他們也已開始在社交平台不斷曬出使用Sora生成的新作品,為人們展示AI生成視頻的創意可能。許多網友稱“不少人要丟工作了”,甚至有人開始“悼念”一整個素材行業
[4]
[6]
。
Sora各界評價
類別 | 專家 | 評價 |
---|---|---|
科技界 | 英偉達科學家 DrJimFan | |
趣丸集團副總裁 莊明浩 | ||
信息科學教授特德·安德伍德 | ||
普林斯頓大學計算機科學教授 Arvind Narayanan | ||
360集團創始人、董事長 | ||
影視界 | 電影導演兼視覺效果專家 | |
專業攝影師 | ||
中國電影文學學會副秘書長 杜紅軍 | ||
社會界 | 副研究員唐林垚 | |
前記者、現斯坦福大學研究員 巴西勒·西蒙 | ||
Sora主要競品
公司 | 產品 | 技術路線 | 發佈時間 |
---|---|---|---|
PYoCo | 擴散模型 | 2023.05 | |
擴散模型 | 2023.06 | ||
Pika 1.0 | 擴散模型 | 2023.11 | |
擴散模型 | 2023.11 | ||
擴散模型 | 2023.11 | ||
谷歌 | Video Poet | Transformer | 2023.12 |
擴散模型 | 2024.01 |
相較於其他模型,Sora的優勢主要是三方面:
- 第一:可以生成長達60秒鐘的視頻,包括多個角色、特定類型動作和主題背景;
- 第二:可以在單個生成的視頻中創建多個鏡頭,模擬複雜的攝像機運鏡,同時準確地保持角色和視覺風格;
Sora社會爭議
Sora虛假信息
Sora的發佈引發了關於虛假信息傳播的爭議。其強大的圖像視頻生成能力達到了以假亂真的程度,這不僅改變了人們“眼見為實”的傳統觀念,還可能帶來一系列社會問題,如視頻證據真實性和有效性的驗證難題。在Sora問世前已有多起利用AI偽造視頻進行詐騙的案例,顯示了AI生成視頻可能被濫用於非法目的的風險。Sora的普及可能會進一步降低製作高質量虛假視頻的門檻,加劇虛假信息的傳播。儘管互聯網平台已有針對特定類型虛假信息的檢測機制,但對於複雜難辨的信息仍需加強深度分析和及時阻斷。隨着AI生成內容的激增,網絡上的合成內容將大量存在,這要求不僅在技術上持續改進,還需建立更全面的治理體系來有效應對虛假信息的挑戰
[52]
。
Sora版權問題
Sora可能引發侵權爭議。一方面,Sora生成的視頻版權是否受到保護尚不明確,這可能導致使用這些視頻的主體面臨侵權索賠和版權保護追溯的風險。另一方面,Sora在訓練過程中使用了相關素材,即使只是用這些素材進行訓練,也可能存在潛在的侵權風險
[53]
。
Sora門檻問題
一直以來,技術做的事情就是“允許個體作用於世界”,技術媒介、人工智能的出現,是幾何級降低“個體作用於世界”的門檻,幾何級提升它的可能性。Sora讓視頻創作隨手可得、人人可行,極大實現了內容和創作主體的多樣化,這其實是技術媒介時代平權主義趨勢的表徵,可以想象其普及之後媒介平台上的豐富性
[57]
。
不過,與其説這是打開了傳統影視業的閘門,不如説這是抬高了影視業的水準,使後者變為更小眾、更精英化的行業。想想看,什麼是平權主義且大眾化的Sora沒有的?首先是極高的原創性,然後是短視頻不具備的故事深度與情感共鳴,從歷史感、故事深度和人物塑造中,建立與受眾深層的情感連接,這是Sora為影視行業畫出的新界限
[57]
。
- 參考資料
-
- 1. OpenAI推出AI系統將文本轉換為逼真的視頻 .財聯社[引用日期2024-02-16]
- 2. OpenAI 王炸:新 Sora 模型一句話生成 1 分鐘視頻,效果接近實拍 .IT之家[引用日期2024-02-16]
- 3. Sora .OpenAI[引用日期2024-02-16]
- 4. 效果炸裂!OpenAI首個視頻生成模型發佈,網友:整個行業RIP .量子位(百家號)[引用日期2024-02-16]
- 5. 春節大禮包!OpenAI首個視頻生成模型發佈,60秒高清大作 .機器之心Pro(百家號)[引用日期2024-02-16]
- 6. OpenAI首個視頻生成模型發佈 一句話生成1分鐘高清視頻 .快科技[引用日期2024-02-16]
- 7. OpenAI推新款大模型Sora,可根據文本生成60秒視頻 .澎湃新聞[引用日期2024-02-16]
- 8. 效果炸裂!OpenAI發佈首個視頻生成模型Sora:輸文字出視頻 .金融界(百家號)[引用日期2024-02-16]
- 9. 抖音CEO離任,奔赴AIGC視頻新風口 .量子位(百家號)[引用日期2024-02-16]
- 10. 加入文生視頻戰局!OpenAI將Sora視作“世界模擬器” .第一財經[引用日期2024-02-16]
- 11. Li Jing .OpenReview[引用日期2024-02-16]
- 12. Li Jing .Li Jing[引用日期2024-02-16]
- 13. Tim Brooks .OpenReview[引用日期2024-02-16]
- 14. timothybrooks .timothybrooks[引用日期2024-02-16]
- 15. William Peebles .OpenReview[引用日期2024-02-16]
- 16. William Peebles .William Peebles[引用日期2024-02-16]
- 17. Connor Holmes .OpenReview[引用日期2024-02-16]
- 18. Connor Holmes .Google 學術[引用日期2024-02-16]
- 19. DALL·E 3必應開測!馬騎宇航員難題攻破,一張畫指定50個物體 .量子位(百家號)[引用日期2024-02-16]
- 20. DALL-E發明者受訪:我對其兩年來產生的影響感到驚訝 .機器之心[引用日期2024-02-16]
- 21. 奧特曼再放大招!OpenAI公佈首個文生視頻模型Sora,質量如何? .財聯社(百家號)[引用日期2024-02-16]
- 22. 深夜發佈“王炸”模型Sora:OpenAI首個文生視頻模型將顛覆現實? .華龍網[引用日期2024-02-16]
- 23. OpenAI發佈地表最強文生視頻模型 .騰訊新聞[引用日期2024-02-16]
- 24. 48個文生視頻+技術報告,揭秘OpenAI最強視頻GPT .智東西(百家號)[引用日期2024-02-16]
- 25. 效果驚人!OpenAI發佈首個文生視頻模型:能看到狗與雪花互動 .騰訊新聞《潛望》[引用日期2024-02-16]
- 26. ChatGPT是什麼 ChatGPT是聊天機器人嗎 .太平洋電腦網[引用日期2024-02-16]
- 27. 十大數字創新技術出爐 中國“九章”榜上有名 .人民網[引用日期2024-02-16]
- 28. 給出 3 個詞,AI 直接作畫!OpenAI 發佈 DALL・E 2.0,掌握多種畫風,分辨率提高 4 倍 .IT之家[引用日期2024-02-16]
- 29. 最強聊天機器人ChatGPT面世,AI又來搶飯碗了? .每日經濟新聞(百家號)[引用日期2024-02-16]
- 30. ChatGPT 更聰明瞭!OpenAI 推出 GPT .IT之家[引用日期2024-02-16]
- 31. OpenAI 升級 DALL .IT之家[引用日期2024-02-16]
- 32. 周鴻禕:Sora意味着AGI實現將從10年縮短到1年 .界面新聞.2024-02-16
- 33. 馬斯克説人類願賭服輸!OpenAI首個文生視頻模型炸街,哪些行業又將顛覆 .澎湃新聞[引用日期2024-02-16]
- 34. OpenAI王炸模型刷屏!馬斯克稱人類應認賭服輸,它有何厲害之處 .騰訊新聞[引用日期2024-02-17]
- 35. Sora背後團隊:應屆博士帶隊,00後入列,還專門招了藝術生 .量子位(微信公眾號)[引用日期2024-02-18]
- 36. 48個文生視頻+技術報告,揭秘OpenAI最強視頻GPT .智東西(百家號)[引用日期2024-02-18]
- 37. 馬斯克説人類願賭服輸!OpenAI首個文生視頻模型炸街,哪些行業又將顛覆 .澎湃新聞[引用日期2024-02-18]
- 38. Sora助推OpenAI估值飆升!多家巨頭謀劃佈局AI基礎設施 .第一財經(百家號)[引用日期2024-02-18]
- 39. OpenAI視頻生成模型橫空出世,Shutterstock市值暴跌,馬斯克迴應 .新浪財經(百家號)[引用日期2024-02-18]
- 40. 新V觀海外:OpenAI Sora模型背後的架構創新 .經濟觀察報(百家號)[引用日期2024-02-18]
- 41. Sora刷屏視頻出現多處失誤 模擬真實世界仍需闖關 .第一財經(騰訊新聞)[引用日期2024-02-19]
- 42. “公眾將不知道該相信什麼”——人工智能視頻生成器Sora引發濫用質疑 .參考消息[引用日期2024-02-19]
- 43. Sora團隊成立不足1年:15人規模包括00後,基礎論文因“缺乏創新”被拒 .澎湃新聞(百家號)[引用日期2024-02-20]
- 44. OpenAI Sora 可以一次性生成多機位視頻,正在接受測試 .IT之家[引用日期2024-02-20]
- 45. 揭秘Sora技術路線:核心成員來自伯克利,基礎論文曾被CVPR拒稿 .機器之心Pro(百家號)[引用日期2024-02-20]
- 46. Sora為何未在中國出現?謝賽寧反問“我們準備好了嗎?” .澎湃新聞(百家號)[引用日期2024-02-20]
- 47. Sora爆火96小時,國內大模型火速上線,誰能打贏“翻身仗”? .上觀.2024-02-20[引用日期2024-02-20]
- 48. 影視人集體焦慮:Sora將顛覆電影拍攝的現有方式 .澎湃新聞(百家號)[引用日期2024-02-20]
- 49. Sora大熱 上市公司火速回應 .第一財經(百家號)[引用日期2024-02-20]
- 50. 關於Sora,我有十個小白問題 .澎湃新聞(果殼)[引用日期2024-02-20]
- 51. 關於 Sora,已知的和未知的 .晚點LatePost(百家號)[引用日期2024-02-20]
- 52. Sora震撼來襲,AI動畫以假亂真了嗎?專家:仍存硬傷 .南方網[引用日期2024-02-20]
- 53. “文生視頻”技術突破,侵權風險引發擔憂,Sora讓好萊塢緊張了! .環球網(百家號)[引用日期2024-02-20]
- 54. Sora如何降維打擊其他文生視頻大模型?記者實測對比 .新京報(百家號)[引用日期2024-02-20]
- 55. Sora理解物理世界嗎?肖仰華、傅盛説法也不一 .澎湃新聞.2024-02-21[引用日期2024-02-22]
- 56. OpenAI teases an amazing new generative video model called Sora .MIT Technology Review.[引用日期2024-02-22]
- 57. Sora一面在降低門檻,一面在抬高門檻 .光明網[引用日期2024-02-26]
- 58. Sora顛覆遊戲開發?中國遊戲廠商AI競賽開啓:超六成主流廠商已佈局 .百家號.2024-02-28
- 59. Sora團隊:還不是一個產品,短期不會向公眾開放|界面新聞 · 快訊 .界面新聞.2024-03-13[引用日期2024-03-13]
- 60. 太真實了!OpenAI在TikTok發佈大量Sora生成視頻 .遊民星空 GamerSky.com[引用日期2024-03-27]
- 61. OpenAI官方公佈Sora初期合作試用反饋 .每經網[引用日期2024-03-27]
- 62. OpenAI 展示 Sora AI 生成的首支音樂短片《Worldweight》 .騰訊網[引用日期2024-04-05]
- 收起