今天凌晨,OpenAI官網(wǎng)發(fā)布了視頻生成模型Sora。根據(jù)OpenAI公布的信息,Sora可以通過文字自動生成60秒的視頻,并且?guī)в袕碗s的運鏡。從演示視頻來看,Sora生成的內(nèi)容的確讓人感到真假難分,效果十分驚人。
Sora是一種擴散模型,它能夠通過從一開始看似靜態(tài)噪聲的視頻出發(fā),經(jīng)過多步驟的噪聲去除過程,逐漸生成視頻。Sora不僅能夠一次性生成完整的視頻,還能延長已生成的視頻。通過讓模型能夠預見多幀內(nèi)容,團隊成功克服了確保視頻中的主體即便暫時消失也能保持一致性的難題。與GPT模型類似,Sora采用了Transformer架構,從而實現(xiàn)了卓越的性能擴展。
Sora的強大之處在于其能夠根據(jù)文本描述,生成長達60秒的視頻,其中包含精細復雜的場景、生動的角色表情以及復雜的鏡頭運動。
例如,基于一段描述時尚女性在東京光影交錯的街道上漫步的文本,Sora能夠創(chuàng)造出一段充滿動感和情緒的視頻。街道上的燈光和反射效果,以及人物的裝扮和表情,都被生動地展現(xiàn)出來。
還有更加夢幻的場景,如描述羊毛猛犸象在雪地中前行的文本,Sora能以其強大的視覺效果,呈現(xiàn)出寧靜而壯觀的自然景象,動物的細節(jié)、背景的雪山和樹木,以及光影效果都被精細地捕捉和再現(xiàn)。
目前,Sora已對網(wǎng)絡安全的紅隊成員開放,以評估其可能存在的風險或潛在傷害。同時,OpenAI也邀請了視覺藝術家、設計師和電影制作人使用Sora,收集他們的反饋,以使模型更好地服務于創(chuàng)意行業(yè)。
Sora能夠創(chuàng)造出包含多個角色、特定動作類型以及與主題和背景相符的詳細場景。這款模型不僅能理解用戶的指令,還能洞察這些元素在現(xiàn)實世界中的表現(xiàn)。
Sora對語言有著深刻的理解,能夠精準地捕捉到用戶的需求,并創(chuàng)造出充滿生命力、情感豐富的角色。此外,Sora還能在同一視頻中創(chuàng)造出多個畫面,同時保持角色和視覺風格的一致性。
當然,Sora還不是完美的。比如在模擬復雜場景的物理效應,以及理解某些特定因果關系時,它可能會遇到難題。舉個例子,視頻中的人物可能會咬一口餅干,但餅干上可能看不到明顯的咬痕。
在處理空間細節(jié),比如分辨左右時,Sora也可能會出現(xiàn)混淆;在精確描述一段時間內(nèi)發(fā)生的事件,如特定的攝影機移動軌跡時,也可能顯得力不從心。(文:寶玉xp)
用戶只需給出提示詞就能自動生成視頻。不過目前OpenAI還沒正式發(fā)布Sora,只有演示視頻。
關于我們 丨 聯(lián)系我們 丨 廣告合作 丨 誠聘英才 丨 網(wǎng)站地圖
Copyright © 2018 武漢門戶網(wǎng) www.b2b-team.com鄂ICP備16007396號-6