GitHub的Lvmin Zhang聯(lián)合斯坦福大學的Maneesh Agrawala發(fā)布了一項名為FramePack的突破性新技術。這項技術通過在視頻擴散模型中使用固定長度的時域上下文,實現(xiàn)了更高效、更高質量的視頻生成。
FramePack作為一種神經網絡架構,采用多級優(yōu)化策略完成本地AI視頻生成。它底層基于定制版的騰訊混元模型,但現(xiàn)有的預訓練模型都可以通過FramePack進行微調、適配。這一技術的最大亮點在于,它顯著降低了對顯存的需求。基于FramePack構建的130億參數(shù)模型,僅需一塊6GB顯存的顯卡,就能生成60秒鐘的視頻。
傳統(tǒng)的視頻擴散模型在生成視頻時,需要處理此前生成的帶有噪音的幀,并預測下一個噪音更少的幀。而每生成一幀所需要輸入的幀數(shù)量(即時域上下文長度)會隨著視頻的體積而增加,這對顯存有著很高的要求。然而,F(xiàn)ramePack會根據(jù)輸入幀的重要性,對所有輸入幀進行壓縮,改變?yōu)楣潭ǖ纳舷挛拈L度,從而顯著降低了顯存需求。同時,它的計算消耗與圖片擴散模型類似,每一幀畫面生成之后都會實時顯示,方便即時預覽。
此外,F(xiàn)ramePack還能有效緩解“漂移”現(xiàn)象,即視頻長度增加時質量下降的問題。這意味著,在不顯著犧牲質量的同時,可以生成更長的視頻。該技術數(shù)據(jù)格式支持FP16、BF16,顯卡硬件支持RTX 50、RTX 40、RTX 30系列顯卡(除RTX 3050 4GB外),操作系統(tǒng)則支持Windows和Linux。性能方面,RTX 4090經過teacache優(yōu)化后,每秒可以生成大約0.6幀。這一技術的推出,無疑為視頻生成領域帶來了新的突破和發(fā)展機遇。