提到國(guó)外的生成式 AI 大模型,文本生成領(lǐng)域有 ChatGPT,圖像生成領(lǐng)域有 Midjourney 和 Stable Diffusion,那么視頻生成領(lǐng)域有什么?
(資料圖片僅供參考)
很多人第一個(gè)會(huì)想到 Runway 公司的 Gen-1。
Gen-1 是 Runway 在今年 2 月推出的一款(也是該公司的第一款)由文本生成視頻的 AI 大模型。不過(guò)就在幾天前,它的迭代版本 Gen-2 也正式發(fā)布了。
在此之前,Gen-2 從 3 月下旬開(kāi)始已經(jīng)進(jìn)行了一段時(shí)間的小范圍測(cè)試。雖然當(dāng)時(shí) Runway 的發(fā)言人 Kelsey Rondenet 說(shuō)過(guò) Gen-2 會(huì)在未來(lái)幾周對(duì)所有人開(kāi)放,不過(guò)直到 6 月,這個(gè)承諾才算真的兌現(xiàn)了。
所以千呼萬(wàn)喚始出來(lái)的 Gen-2,到底進(jìn)化到哪一步了?
真正的從零開(kāi)始生成視頻
在發(fā)布 Gen-1 的時(shí)候,Runway 專門(mén)開(kāi)辟了一個(gè)網(wǎng)頁(yè)來(lái)給大家講解 Gen-1 能怎么用,大致來(lái)講主要包括了下面 5 個(gè)功能:
- 輸入一張圖片提示,來(lái)讓原視頻變成你想要的風(fēng)格;
- 上傳視頻 + 一段提示詞,生成你想要的視頻(比如讓一只拉布拉多變成斑點(diǎn)狗);
- 輸入圖片或提示詞,來(lái)讓一段只做了 3D 建模的視頻草稿變完整;
- 上傳一段隨意拍攝的視頻,自動(dòng)生成一段有故事感的片段(比如隨意擺放的書(shū)最后成了一片高樓大廈);
- 在原視頻的基礎(chǔ)上,更自由地定制你想要的視頻風(fēng)格(哪怕變出一只現(xiàn)實(shí)里并不存在的奇行種)。
發(fā)現(xiàn)沒(méi)有,使用 Gen-1 的前提是必須先有一個(gè)現(xiàn)成的視頻。說(shuō)白了,Gen-1 的作用其實(shí)就相當(dāng)于給原視頻加了一個(gè)更高級(jí)的濾鏡。而到了 Gen-2,可以說(shuō)才真正實(shí)現(xiàn)了從零開(kāi)始生成視頻的夢(mèng)想。
從介紹來(lái)看,Gen-2 比 Gen-1 多了 3 個(gè)厲害的功能:
- 文本到視頻:只用輸入一段提示詞,就能生成一段視頻;
- 文本和圖片到視頻:輸入一張圖片 + 一段提示詞,就能讓圖片動(dòng)起來(lái);
- 圖片到視頻:只用輸入一張圖片,就能自動(dòng)生成一段視頻(比如讓圖片里的云飄起來(lái),水流起來(lái),人走動(dòng)起來(lái))。
此圖為輸入 "The late afternoon sun peeking through the window of a New York City loft" 的提示詞生成如果說(shuō) Gen-1 充其量只能當(dāng)做一個(gè)修改視頻的工具,那么 Gen-2 幾乎已經(jīng)能作為一個(gè)視頻生產(chǎn)工具了——試想一句話生成的一個(gè)個(gè)視頻片段,最后拼到一起就能講一個(gè)完整的故事了……
總之就是只能拿來(lái)玩和能拿來(lái)用的區(qū)別。
雖然目前 Gen-2 生成的視頻依然存在細(xì)節(jié)模糊不清、形態(tài)扭曲等等品質(zhì)問(wèn)題,且生成的視頻長(zhǎng)度最多只有 4 秒,但它可能是現(xiàn)在視頻生成領(lǐng)域最厲害的 AI 大模型工具了。
當(dāng)然,從 Gen-2 開(kāi)始,也標(biāo)志著 Runway 公司正式進(jìn)入了收費(fèi)時(shí)代:不同于 Gen-1 的完全免費(fèi),Gen-2 免費(fèi)版的視頻生成功能有限(試用額度只有 105 秒,約等于 26 個(gè) 4 秒視頻,且分辨率低、有水?。脩粜枰吭赂?15 美元(或 144 美元包年)才能用到它的完整功能。
Runway 有啥來(lái)頭?
Gen-2 背后的 Runway 是一家成立于 2018 年的年輕公司,一直在研究怎么用 AI 來(lái)提升視頻制作效率。
除了 TikTok 和 YouTube 上的普通用戶,Runway 的客戶還包括了不少主流影視工作室,比如扣扣熊主持的《深夜秀》就用到過(guò) Runway 的工具來(lái)輔助編輯圖像。
它最著名的一次應(yīng)用應(yīng)該是去年在中國(guó)觀眾中間非常出圈的電影《瞬息全宇宙》,據(jù)報(bào)道里面讓人印象深刻的面條手,還有石頭對(duì)話等超現(xiàn)實(shí)場(chǎng)景都用到了 Runway 的技術(shù)。
不過(guò)很多人可能會(huì)忽略的是,早些天被爆出大丑聞的 Stable Diffusion 也和 Runway 關(guān)系密切。準(zhǔn)確來(lái)說(shuō)是一直被外界視作 Stable Diffusion(時(shí)下圖像生成領(lǐng)域最熱門(mén)的大模型之一)背后公司的 Stability AI 爆雷了,媒體列出 Stability AI 的罪狀之一就是,它把 Stable Diffusion 的 10 億代碼成果 " 據(jù)為己有 ",而它充其量只是給 Stable Diffusion 提供了算力(出了錢)。
實(shí)際上真正為 Stable Diffusion 出力的是慕尼黑大學(xué)、海德堡大學(xué),以及 Runway。
Stable Diffusion 最早發(fā)表在 CVPR 2022 年中的一篇論文也就是說(shuō),Runway 是 Stable Diffusion 的研發(fā)者之一。
Runway 在去年還因?yàn)楣傩l(fā)布了 Stable Diffusion v1.5 版本一度被 Stability AI 抓著不放,但那次的輿論最終還是站在了 Runway 這邊。
這也是 Runway 在 " 成名 " 以前為數(shù)不多的 " 八卦 "。
后來(lái)就像大多數(shù)的大模型開(kāi)發(fā)公司一樣,不再參與 Stable Diffusion 項(xiàng)目的 Runway 在發(fā)布 Gen-1 之后,發(fā)展速度就像坐上了火箭,并且在本月初拿到了谷歌的投資,距離 D 輪 1 億美元的融資剛過(guò)去一個(gè)月,累計(jì)融資至少已有 2 億美元,成為大模型領(lǐng)域的明星公司。
說(shuō)個(gè)更直觀的數(shù)字,2021 年 12 月對(duì)沖基金 Coatue 花 3500 萬(wàn)美元投資 Runway 時(shí),其估值為 2 億美元,一年后估值變成 5 億美元,再過(guò)了半年,它的估值就又翻了 3 倍(保守說(shuō)有 15 億美元)。
網(wǎng)友:好萊塢 is dead
Gen-2 的正式發(fā)布讓不少網(wǎng)友感到興奮。
在 Runway 官宣發(fā)布 Gen-2 的推文下,出現(xiàn)了一些普通用戶 " 求教程 " 的聲音:
不過(guò)已經(jīng)有行動(dòng)力強(qiáng)的用戶開(kāi)始試著用 Gen-2 生成自己的視頻了,不少用戶都在 Runway 推文的評(píng)論區(qū)交上了自己的 4 秒鐘 " 作業(yè) "。盡管 Runway 只是在網(wǎng)站列出了 Gen-2 的主要功能,并沒(méi)有教給大家更多 Gen-2 的玩法,但聰明的網(wǎng)友已經(jīng)自己學(xué)著用 Gen-2 生成的視頻剪輯出了一個(gè)有反轉(zhuǎn)的短故事。
比如這個(gè)叫 "Monster of the sea(海怪)" 的48 秒故事:天氣晴朗、風(fēng)平浪靜的一天,一搜帆船開(kāi)始還很悠然地行駛在海上,船上的游客愜意地碰著杯喝著酒,可突然狂風(fēng)大作,船員拿起望遠(yuǎn)鏡往遠(yuǎn)處望,發(fā)現(xiàn)一只巨大的海怪出現(xiàn)在海面,船隨著海浪開(kāi)始顛簸,甚至燃燒了起來(lái),船上的人紛紛跳水棄船逃生。
來(lái)自推特網(wǎng)友 @MHU甚至有直接用 ChatGPT 寫(xiě)了劇本、再用 Gen-2 生成的視頻拼成一個(gè)故事的。
還有用戶拿 Gen-2 生成的素材剪了一個(gè) 1 分鐘的電影預(yù)告片,甚至在最后幽默地加了一個(gè)戛納電影節(jié)的標(biāo)志,如果生成的視頻質(zhì)量再高一點(diǎn),怕不是真能以假亂真。
來(lái)自推特網(wǎng)友 @Toni Seldr不過(guò)視頻質(zhì)量差、生成的視頻時(shí)長(zhǎng)太短等也確實(shí)成了用戶吐槽 Gen-2 的點(diǎn)。
并且在為安卓用戶提供 App 服務(wù)的問(wèn)題上,Gen-2 和 Gen-1 一樣也還是沒(méi)有長(zhǎng)進(jìn)。當(dāng)然,更多用戶還是對(duì) Runway 表現(xiàn)出了寬容。有網(wǎng)友評(píng)價(jià)說(shuō)," 雖然它有太多的不完美,但有一點(diǎn)可以肯定,整個(gè)視聽(tīng)工業(yè)都將迎來(lái)革命性的改變。"還有網(wǎng)友更激進(jìn)地說(shuō)," 好萊塢已死,任何人都可能做出一部世界級(jí)的電影。"真能取代好萊塢嗎?可以理解為什么廣大網(wǎng)友對(duì) Gen-2 的推出如此興奮。Gen-2 對(duì)普通用戶的好處是明擺著的——假以時(shí)日,文本生成視頻技術(shù)一旦成熟,將意味著拍電影不再只是大制片廠的專屬,任何一個(gè)普通人都可以做一部自己的電影。
Runway 并沒(méi)有明確說(shuō)過(guò) Gen-2 面向的人群到底是誰(shuí)。不過(guò)我們可以從它推出 App 以及之前和影視工作室有過(guò)的合作等等動(dòng)作來(lái)看,大致猜到有哪些人會(huì)用到 Gen-2:專業(yè)的制片公司,個(gè)人工作室性質(zhì)的獨(dú)立生產(chǎn)者,以及我們這樣的普通用戶。
雖然 Gen-2 看起來(lái)對(duì)普通用戶很友好,但制片公司們會(huì)用 Gen-2 這樣的工具也是肯定的。
畢竟大模型不同于過(guò)去任何一個(gè)熱過(guò)之后就銷聲匿跡的概念,它將成為未來(lái)又一次深刻改變?nèi)祟惖漠a(chǎn)業(yè)革命,幾乎已經(jīng)是各行各業(yè)的共識(shí)。
事實(shí)上在國(guó)內(nèi),已經(jīng)有影視項(xiàng)目開(kāi)始借助大模型來(lái)完成一些工作。比如在劇本籌備階段,會(huì)把分鏡頭故事板的產(chǎn)出工作交給 Midjourney(據(jù)說(shuō)能省下幾十萬(wàn)元的成本)。
那假設(shè),有一天 Gen-N 成熟到也能生成能直接拿去用的完美鏡頭呢?
或者可以拿大模型在游戲行業(yè)的應(yīng)用做個(gè)類比,Midjourney 等工具的使用顯然已經(jīng)對(duì)游戲公司產(chǎn)生了非?,F(xiàn)實(shí)的影響:先是出于節(jié)省成本的需要砍掉美術(shù)外包團(tuán)隊(duì),接著就是在自己人身上動(dòng)刀,甚至有從業(yè)者提到最多有 8 成的原畫(huà)師會(huì)下崗。
考慮到如今大模型的迭代速度,它的影響真正顯現(xiàn)在影視行業(yè)也會(huì)是遲早的事。
不過(guò)我反而覺(jué)得,Gen-2 大模型可能會(huì)淘汰那些影視行業(yè)流水線上的 " 工人 ",但卻淘汰不了真正的藝術(shù)家。
之前聽(tīng)到過(guò)一個(gè)說(shuō)法,AI 大模型生成的內(nèi)容里,可能有 80% 都會(huì)是對(duì)人類過(guò)去經(jīng)驗(yàn)無(wú)聊的重復(fù),但也可能有 20% 閃光的東西。就比如在中式美學(xué)和賽博朋克如何進(jìn)行融合的問(wèn)題上,普通創(chuàng)作者可能需要極長(zhǎng)時(shí)間進(jìn)行思考,AI 卻可能生成一個(gè)讓人意想不到的結(jié)果,給人帶來(lái)驚喜。
這 20% 是 AI 存在的意義,剩下的就需要真正有創(chuàng)造力的人去補(bǔ)足。
還有從業(yè)者提到過(guò)一個(gè)觀點(diǎn),AI 大模型運(yùn)用到影視行業(yè)的生產(chǎn),不意味著非專業(yè)人士也能輕松上手——如果想借助 AI 的力量創(chuàng)作劇本,還需要針對(duì)劇本公式和故事結(jié)構(gòu)等相關(guān)知識(shí)進(jìn)行充電。不具備基礎(chǔ)知識(shí)的小白即便有了 AI 這個(gè)超級(jí)助理也無(wú)濟(jì)于事。
所以回到 AI 是不是能取代好萊塢的問(wèn)題,事實(shí)上好萊塢可能是最早對(duì)新技術(shù)的 " 入侵 " 有所感知的,就像在今年 5 月初,數(shù)以千計(jì)的好萊塢編劇工會(huì)(WGA)成員曾進(jìn)行罷工示威,訴求之一便是抵制在劇本寫(xiě)作中廣泛使用 AI 的現(xiàn)象。
如果有一天 Gen-N 真的來(lái)了,好萊塢導(dǎo)演們可能第一個(gè)不答應(yīng)。
標(biāo)簽: