應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點(diǎn)新聞
企業(yè)注冊(cè)個(gè)人注冊(cè)登錄

OpenAI首個(gè)AI文生視頻模型“Sora”正式發(fā)布

2024-02-18 09:45 通信世界網(wǎng)
關(guān)鍵詞:AI文生視頻模型Sora

導(dǎo)讀:美國(guó)人工智能研究公司OpenAI推出了一款文生視頻模型“Sora”

  近日,美國(guó)人工智能研究公司OpenAI推出了一款文生視頻模型“Sora”。通過(guò)簡(jiǎn)短或詳細(xì)的提示詞描述,或一張靜態(tài)圖片,“Sora”就能生成類似電影的逼真場(chǎng)景,涵蓋多個(gè)角色、不同類型動(dòng)作和背景細(xì)節(jié)等,最高能生成1分鐘左右的1080P高清視頻。

  OpenAI的官網(wǎng)介紹稱,如果給定一段簡(jiǎn)短或詳細(xì)的描述或一張靜態(tài)圖片,“Sora”就能生成類似電影的1080P場(chǎng)景,包含多個(gè)角色、不同類型的動(dòng)作和背景細(xì)節(jié)。使用這款模型可以用文本生成長(zhǎng)達(dá)一分鐘的視頻。開發(fā)這一模型旨在教會(huì)人工智能理解和模擬運(yùn)動(dòng)中的物理世界,并訓(xùn)練其幫助人們解決需要現(xiàn)實(shí)世界互動(dòng)的問題。“Sora是能夠理解和模擬現(xiàn)實(shí)世界的模型的基礎(chǔ),我們相信這一功能將成為實(shí)現(xiàn)通用人工智能(AGI)的重要里程碑。”

  OpenAI表示,當(dāng)前的模型存在弱點(diǎn),可能難以準(zhǔn)確地模擬復(fù)雜場(chǎng)景的物理表現(xiàn),可能混淆提示的空間細(xì)節(jié),可能難以精確描述隨著時(shí)間推移發(fā)生的事件,如遵循特定的相機(jī)軌跡等。也可能無(wú)法理解因果關(guān)系的具體實(shí)例,并舉例稱,視頻很可能會(huì)出現(xiàn)“一個(gè)人咬了一口餅干,但餅干上沒有咬痕?!?/p>

  “Sora”不僅能模擬真實(shí)世界,而且能學(xué)習(xí)攝影師和導(dǎo)演的表達(dá)手法,并在AI視頻中展現(xiàn)出來(lái)。“我們探索視頻數(shù)據(jù)生成模型的大規(guī)模訓(xùn)練。具體來(lái)說(shuō),我們?cè)诳勺兂掷m(xù)時(shí)間、分辨率和寬高比的視頻和圖像上聯(lián)合訓(xùn)練文本條件擴(kuò)散模型。我們利用對(duì)視頻和圖像潛在代碼的時(shí)空補(bǔ)丁進(jìn)行操作的Transformer架構(gòu)。我們最大的模型Sora能夠生成一分鐘的高保真視頻。我們的結(jié)果表明,擴(kuò)展視頻生成模型是構(gòu)建物理世界通用模擬器的一條有前途的途徑?!監(jiān)penAI表示。整體來(lái)看,“Sora”生成的視頻噪音比較少,原始的訓(xùn)練數(shù)據(jù)比較“干凈”,而且基于ChatGPT、DALL·E文生圖技術(shù)能力,“Sora”視頻生成技術(shù)更加高超。

  “Sora”已經(jīng)成為了目前最強(qiáng)的AI視頻生成類模型。