比較貼切的表述是,豆包的視頻模型這次的升級,已然將國內(nèi)AI視頻的美學(xué)境界拔高了一個檔次,讓AI視頻也開始變得更加實用了。
作者|斗斗
出品|產(chǎn)業(yè)家
國內(nèi)的文生視頻領(lǐng)域,也是吃上“細糠”了。
最近,火山引擎宣布豆包大模型正式發(fā)布視頻生成模型。至此,兩大短視頻平臺在文生視頻領(lǐng)域的較量正式開啟。
產(chǎn)業(yè)家也是在第一時間提前感受了一把。先來幾個demo,給你們一個小小的震撼。
很明顯,這生成效果并不亞于Sora。
要知道,Sora在初期的宣傳和報道中被賦予了很高的期望。然而,至今為止,Sora尚未真正面向普通人群應(yīng)用,可以說是實實在在的期貨。
為了更加客觀的展示豆包文生視頻模型的真實能力,產(chǎn)業(yè)家申請到即夢AI內(nèi)測版的豆包視頻生成-Seaweed模型測試機會,將其與國內(nèi)幾家主流文生視頻模型,進行了同一提示詞下的生成效果對比,意外看到了豆包文生視頻模型的一些新亮點。
一、復(fù)雜指令下,足夠聽話
眾所周知,拍攝電影時,導(dǎo)演會指導(dǎo)演員進行多個鏡頭的拍攝,然后剪輯成連貫的故事。如果一場戲的角色比較多,導(dǎo)演則需要統(tǒng)籌演員的站位、進場時間以及他們之間的對話、動作等。
只有這樣,拍攝出來的畫面,才會更加流暢。然而,對于當(dāng)下的文生視頻模型而言,大部分只能完成簡單指令單一動作。比如只能生成單一的鏡頭,無法切換,人物動作也較為單一。
這樣生成出來的效果,其實和照片差不多。但是在豆包視頻生成模型的平臺上,有了新的突破。
提示詞:一群朋友在餐廳里聚餐,然后其中一人突然提出一個驚喜的計劃。
豆包-Seaweed生成的視頻中,涉及諸多人物的動作處理??梢园l(fā)現(xiàn)每個人物的動作表達、面部表情都較為和諧,雖然一些細節(jié)有待優(yōu)化,但整體上已經(jīng)十分優(yōu)異??梢詫崿F(xiàn)多主體多動作的畫面生成。
海螺AI在整體畫面構(gòu)圖、和光的運用方面一如既往的出色。不過畫面中的人物幾乎都出現(xiàn)了或多或少的畸變。
可靈AI生成視頻,總體來看人的動作較為簡單,畫面也缺乏一些真實性。
能看到,通義萬相人物動作較為簡單,真實性、自然流暢性相對較弱。
總體來看,豆包視頻生成模型還是十分“聽話”的,可以遵從復(fù)雜的復(fù)雜prompt,解鎖時序性多拍動作指令與多個主體間的交互能力,指哪兒打哪兒,打開想象力的大門。
二、推拉搖移跟
畫面依舊穩(wěn)定、一致
豆包文生視頻模型,還有一個比較特殊的點,即它生成的視頻畫面整體的故事性很強。
提示詞:男子從明亮的室外走進昏暗的室內(nèi),鏡頭切換要自然,光線變化要平滑。
可以發(fā)現(xiàn),在提示詞描述的文本之外,其對于周圍環(huán)境以及畫面的細節(jié)銜接和過渡很自然。這本身對應(yīng)的是模型強力的泛化能力。
例如從下面這組提示詞生成的畫面來看,豆包生成的視頻相對更有畫面感、更連貫。
提示詞:一名女子奔跑在陰暗潮濕的街道上
畫面中地面的石板路,路邊的房屋,以及奔跑的女人,在運動邏輯、燈光、流暢度上,都表現(xiàn)的十分優(yōu)異。
可靈生成畫面中的女子的肢體發(fā)生了不規(guī)則的扭曲。
通義萬相生成的視頻,整體很不錯,但在像地面這種細節(jié)的效果處理上,還需要進一步強化。
海螺AI有著通義萬相一樣的問題,仔細發(fā)現(xiàn)人物在奔跑時,路面的生成效果并不穩(wěn)定,且人物和畫面之間的銜接度并不自然。
從幾組生成的視頻不難看出,豆包文生視頻模型,在運用鏡頭語言時,畫面較為穩(wěn)定,可以保證人物、氛圍、環(huán)境的一致性,以及鏡頭的自然切換和運鏡的自然。
比如基于豆包-Seaweed,我們可以身臨其境的感受肌肉男選美現(xiàn)場。
還可以穿越森林,看到遠處壯觀的雪山。
可以發(fā)現(xiàn),無論鏡頭怎么推進和切換,視頻中的畫面風(fēng)格、人物、燈光、服飾等都依舊有著一致性。
另外一個更加炸裂的點,在于豆包視頻生成模型還能實現(xiàn)主體動作和鏡頭的切換。這么說可能有點難懂,簡而言之就是當(dāng)畫面中的人物在運動過程中,可以實現(xiàn)鏡頭自然切換。
正如下方豆包文生視頻模型生成的視頻,先是出現(xiàn)一個跟鏡頭,繼而切換到以人為畫面主體的跟鏡頭。
提示詞:生成一段視頻,要求鏡頭跟隨主角在森林中探險,包括跳躍過溪流和攀爬巖石。
具體來看,生成的視頻中,一個空境交代背景環(huán)境,切換到另一個以人物為畫面主體的推鏡頭。這種鏡頭切換手法,也叫“鏡頭匹配剪輯”。利用了兩個鏡頭中相似的動作或運動方向來平滑地過渡,從而減少視覺上的跳躍感。
這種技巧需要精心的拍攝和編輯,以確保動作的匹配和視覺的連貫性。
但是豆包的視頻生成模型,做到了。
對比可靈AI的生成結(jié)果來看,畫面中并未出現(xiàn)運鏡和鏡頭切換的痕跡。
海螺AI基于這個提示詞的生成效果其實各方面效果著實不錯,但是在場景切換時,可以發(fā)現(xiàn),其第一個鏡頭切換的同時,畫面左方出現(xiàn)了一個分身,走出了畫面,可見場景切換上還需要優(yōu)化。
通義萬相生成的效果,其實較為充分展現(xiàn)了其在語意理解上的優(yōu)勢,尤其是“跳躍過溪流和攀爬巖石”實現(xiàn)了語義一致性,但未實現(xiàn)多個場景、鏡頭上的切換,且人物流暢度和自然度也有可以優(yōu)化的空間。
不得不承認的是,豆包視頻生成模型確實是有兩把刷子。
據(jù)官方介紹,這是因為豆包視頻生成模型基于 DiT 架構(gòu),通過高效的DiT融合計算單元,讓視頻在大動態(tài)與運鏡中自由切換,擁有變焦、環(huán)繞、平搖、縮放、目標跟隨等多鏡頭語言能力。其全新設(shè)計的擴散模型訓(xùn)練方法攻克了多鏡頭切換的一致性難題,在鏡頭切換時可同時保持主體、風(fēng)格、氛圍的一致性。
這是豆包視頻生成模型獨樹一幟的技術(shù)創(chuàng)新。
三、大場景描繪
光影、鏡頭、構(gòu)圖美學(xué)拉滿
在文生視頻領(lǐng)域,大場景的生成,由于涉及的元素過度,往往是最容易出現(xiàn)問題的。而經(jīng)過我們測試,豆包的文生視頻模型,也非常不錯。
從下面豆包、可靈AI、通義萬相以及海螺AI(MiniMax文生視頻平臺)生成效果對比來看。豆包生成的視頻,不僅畫面構(gòu)圖、色調(diào)十分優(yōu)異,甚至把清晨湖面的霧氣也刻畫了出來。
不知道的,還以為是在看《動物世界》。
提示詞:清晨,第一縷陽光穿透薄霧,照亮了寧靜的森林。一只小鹿在溪邊飲水,水波蕩漾,反射出金色的光輝。
可靈AI在色調(diào)和構(gòu)圖上也可圈可點,但細看鹿的動作連貫性和真實性,就顯得有些不足。
通義萬相整體觀感也不錯,語義理解能力較強,例如“反射出金色的光輝”這細節(jié),通義萬相刻畫的最好,但有點缺乏真實性,更像是動畫。
海螺AI的畫面,在寫實能力上較強。但由于角度和構(gòu)圖的問題,整體來看,主體的靈活性較差,對文本的理解力不足,此外也缺乏一些美感。
其實,豆包視頻生成模型,經(jīng)過剪映、即夢AI等業(yè)務(wù)場景打磨和持續(xù)迭代,在專業(yè)級光影布局和色彩調(diào)和積累了大量的數(shù)據(jù)和技術(shù)經(jīng)驗,畫面視覺呈現(xiàn)上面,可謂是實現(xiàn)了延續(xù),使得豆包處理這種大場景時,既能刻畫細節(jié),又極具美感和真實感。
圖示:各家視頻生成效果表現(xiàn)匯總
四、各種風(fēng)格、尺寸,都Hold的住
根據(jù)介紹能看到,豆包視頻生成模型采用的是Transformer深度學(xué)習(xí)模型的架構(gòu),并且進行了優(yōu)化。這種架構(gòu),可以使模型更加強大,泛化能力也會更強。從風(fēng)格來看,其可以生成3D動畫、2D動畫、國畫、黑白、厚涂等多種不同的藝術(shù)風(fēng)格的視頻。
此外,生成的視頻可以適應(yīng)不同設(shè)備的屏幕尺寸,包含1:1,3:4,4:3,16:9,9:16,21:9五個比例。無論是電影大屏幕、電視、電腦還是手機,都能觀看。
這些視頻目前可以被用于電商營銷(如產(chǎn)品展示視頻)、動畫教育(如教學(xué)動畫)、城市文旅(如旅游宣傳視頻)、微劇本(如短視頻故事)等多種商業(yè)用途。
除了商業(yè)用途,豆包還能幫助專業(yè)的視頻創(chuàng)作者和藝術(shù)家們在創(chuàng)作過程中節(jié)省時間,提供靈感,或者完成一些復(fù)雜的視頻制作任務(wù)。
寫在最后?
最后對豆包的文生視頻進行一個總結(jié)。
首先它是一個語義大師。它不僅聽得懂你的指令,還能理解背后的深層含義,讓視頻里的每個動作都恰到好處。
還是一個鏡頭切換高手。在切換鏡頭時,它能保證故事的流暢和一致性,就像一個無縫連接的敘事大師。
更是一個動態(tài)捕捉專家。無論是快速的動作還是炫酷的鏡頭移動,它都能捕捉得生動活潑,讓你仿佛置身于真實世界。
也可以是一個視覺藝術(shù)家:它創(chuàng)造的視頻不僅清晰逼真,還具有專業(yè)的色彩和光影,支持多種風(fēng)格和尺寸,讓你的視覺體驗豐富多彩。
比較貼切的表述是,豆包的視頻模型這次的升級,已然將國內(nèi)AI視頻的美學(xué)境界拔高了一個檔次,讓AI視頻也開始變得更加實用了。
在文章的最后,想要強調(diào)的一點是,文中所提到的生成的視頻都是基于豆包視頻生成模型S 2.0的非會員版本。目前,具備更強多主體互動、多鏡頭切換一致性能力的豆包視頻生成模型-PixelDance,正在緊鑼密鼓的內(nèi)測上線中,或許能給大家?guī)砀囿@喜。
豆包,多少是有點不露鋒芒,悶聲干大事了。
本文來自投稿,不代表增長黑客立場,如若轉(zhuǎn)載,請注明出處:http://m.gptmaths.com/cgo/coo/124457.html