1. 解讀OpenAI Sora文生視頻技術(shù)原理

        共 6993字,需瀏覽 14分鐘

         ·

        2024-04-11 00:55

        O penAI Sora文生視頻(圖像看作單幀視頻)一放出就炸翻整個AI 圈,也是ChatGPT掀起GenAI熱潮時隔一年后,OpenAI再次史詩級的更新。OpenAI 隨后公布的技術(shù)綜述[文獻1],難掩其勃勃雄心:視頻生成模型作為世界模擬器。

         

        筆者春節(jié)前原計劃整理一下對Google Lumiere 文生視頻的認知,多個因素遺憾推遲。對比看兩者大的技術(shù)方向均選擇了擴散模型,卻也有許多關(guān)鍵細節(jié)不同。恰好可以借著 OpenAI 技術(shù)綜述來提綱挈領(lǐng),一起梳理一下,為什么筆者覺得這是又一史詩級的更新。

         

        一、Spacetime Latent Patches 潛變量時空碎片, 建構(gòu)視覺語言系統(tǒng)

         

        在“ ChatGPT是第一個真正意義的人工通用智能 ”中,筆者總結(jié)過大語言模型借助Embedding將人類的語言 “編碼”成自己的語言,然后通過注意力Attention從中提取各種豐富的知識和結(jié)構(gòu),加權(quán)積累與關(guān)聯(lián)生成自己的語言,然后“編碼”回人類的語言。

                 
        與ChatGPT首先引入Token Embedding 思路一致,針對視覺數(shù)據(jù)的建模方法則作為構(gòu)建Sora最重要的第一步。
        碎片Patch已經(jīng)被證明是一個有效的視覺數(shù)據(jù)表征模型,且高度可擴展表征不同類型的視頻和圖像。將視頻壓縮到一個低維的潛變量空間,然后將其拆解為時空碎片Spacetime Latent Patches。筆者覺得時空碎片是時空建模的關(guān)鍵,統(tǒng)一了時空分割的"語言"。

         

        有了時空碎片這一統(tǒng)一的語言,Sora 自然解鎖了多種技能:1. 自然語言理解,采用DALLE3 生成視頻文本描述,用GPT豐富文本prompts ,作為合成數(shù)據(jù)訓練Sora,  架起了GPT 與 Sora語言空間的更精確關(guān)聯(lián),等于在Token與Patch 之間統(tǒng)一了“文字”;2. 圖像視頻作為prompts,用戶提供的圖像或視頻可以自然的編碼為時空碎片Patch,用于各種圖像和視頻編輯任務 -- 靜態(tài)圖動畫、擴展生成視頻、視頻連接或編輯等。    

         

         

        97dcbbcf046e4e95ada3ca3da8025460.webp

         

         

        二、擴散模型與Diffusion Transformer,組合成強大的信息提取器

         

        OpenAI 講Sora 是一個Diffusion Transformer,這來自伯克利學者的工作Diffusion Transformer (DiT):"采用Transformer的可擴展擴散模型 Scalable diffusion models with transformers"[文獻2],整體架構(gòu)如下:

         

        43e87e13fd60ca3791ab82c677477245.webp

         

        Diffusion Transformer (DiT)架構(gòu)。左:我們訓練調(diào)節(jié)的潛DiT模型。輸入潛變量被分解成幾個patch并由幾個DiT塊處理。右:DiT塊的細節(jié)。我們對標準Transformer的變體進行了實驗,這些變體通過自適應層歸一化、交叉注意力和額外的輸入token做調(diào)節(jié)。自適應層歸一化效果最好。

             

        擴散模型的工作原理是通過連續(xù)添加高斯噪聲來破壞訓練數(shù)據(jù),然后通過逆轉(zhuǎn)這個加噪過程來學習恢復數(shù)據(jù)。訓練后可以使用擴散模型來生成數(shù)據(jù),只需通過學習到的去噪過程來傳遞隨機采樣的噪聲。擴散模型是一種潛變量模型,逐漸向數(shù)據(jù)添加噪聲,以獲得近似的后驗q(x1:T|x0),其中x1,...,xT是與x0具有相同維度的潛變量。

         

        b6e33370a70e5f67f9aa42a7e8e62ace.webp

         

        圖像漸進地轉(zhuǎn)化為純高斯噪聲。訓練擴散模型的目標是學習逆過程,即訓練pθ(xt ? 1|xt)。通過沿著這個過程鏈向后遍歷,可以生成新的數(shù)據(jù)。         
         

        8facad706cc675220aa9cf4839e77fcd.webp

         

         

        從信息熵的角度可以這樣理解:結(jié)構(gòu)化信息信息熵低,多輪加高斯噪音,提高其信息熵,逐步掩蓋原來的結(jié)構(gòu)信息。本就無序的非結(jié)構(gòu)化部分,信息熵很高,添加少量高斯噪音,甚至不用添加高斯噪音,已然很無序。

         

        在此視角下,學習到的內(nèi)容其實是原來結(jié)構(gòu)化信息(如圖像)的“底片”。類似化學上的酸堿中和,本來很酸的地方,得放更多的堿,現(xiàn)在我們學到了放堿的分布和節(jié)奏,反過來,剔除堿的分布,酸的分布就被還原了。

             

        a3abfdd5156647f222c4232535182f65.webp

         

        基礎(chǔ)的擴散模型,過程中不降維、無壓縮,還原度比較高。學習過程中的概率分布作為潛變量參數(shù)化,訓練獲取其近似分布,用KL散度計算概率分布之間的距離[文獻3]。Diffusion Transformer (DiT) 因為引入Transformer 做多層多頭注意力和歸一化,因而引入了降維和壓縮,diffusion方式下的底片信息提取過程,原理與 LLM的重整化 無異。

         

        三、DiT應用于潛變量時空碎片,學習獲得海量視頻中時空碎片的動態(tài)關(guān)聯(lián)

         

        與“LLM在其高維語言空間中通過Transformer提取人類語言中無數(shù)的結(jié)構(gòu)與關(guān)聯(lián)信息”類似,Sora是個基于擴散模型的Transformer,被用于從高維的時空碎片張成的空間中,觀察并提取豐富的時空碎片之間的關(guān)聯(lián)與演化的動態(tài)過程。如果把前者對應人類讀書,后者就是人類的視覺觀察。

         

        遺憾的是OpenAI的技術(shù)綜述沒有提供技術(shù)細節(jié),不過筆者覺得大家可以參照Google Lumiere的技術(shù)原理來大膽推演一下。視頻其實是記錄了時空信息的載體: 時空碎片patch可以看作是三維空間的點集(x,y,z)的運動(t)或者說其實是個四維時空模型(x,y,z,t)。Sora和Lumiere之類的生成模型的第一步都是如何從中提取出相應的關(guān)鍵信息。

             

        27c1c7880085ecab791cf4a7a6be007a.webp

         

        Lumiere STUNet架構(gòu)。將預訓練的T2I U-Net架構(gòu)(Ho et al., 2022a)“膨脹”到一個時空UNet(STUNet),在空間和時間上對視頻進行上下采樣。(a)STUNet激活圖的示例;顏色表示不同時序模塊產(chǎn)生的特征:(b)基于卷積的塊,由預訓練的T2I層和因子化時空卷積組成,以及(c)在最粗的U-Net級別上基于注意力的塊,其中預訓練的T2I層和時間注意力。由于視頻表征在最粗的級別上被壓縮,我們使用有限的計算開銷堆疊幾個時間注意力層。

         

        谷歌Lumiere: A Space-Time Diffusion Model for Video Generation [文獻4]也選擇了擴散模型,堆疊了歸一化與注意力層,類似Sora的DiT,但細節(jié)如時長、分辨率、長寬比等的處理方式不同。細節(jié)決定成敗,OpenAI 稱Sora摒棄了“其他文生視頻調(diào)整視頻大小、裁剪或修剪到標準大小的通常做法”,以可變時長、原始分辨率與長寬比訓練視頻生成獲得重要優(yōu)勢,如采樣靈活性,改進的創(chuàng)作與成幀。

         

        8e6ab794d6c91248b6fc570c4963434a.webp

         

        四、Sora 或Lumiere 視頻學習與生成的技術(shù)背后蘊含的原理分析

         

        讀完Sora的技術(shù)綜述, 筆者第一感覺 Sora其實是在時空潛變量碎片上學習到了可視層面或者表面意義上的SSM(State Space Model), 從而在視頻生成上展現(xiàn)出強大的涌現(xiàn)能力:人和景物在三維空間移動一致性;長程時間相關(guān)性與對象持久性,如事物被遮擋后重現(xiàn);事物與周邊世界的互動性;仿真數(shù)字世界等等。OpenAI認為持續(xù)擴大視頻模型的規(guī)模,將可以用來模擬整個物理和數(shù)字世界,畢竟它們純粹是尺度的現(xiàn)象(they are purely phenomena of scale)    

         

        讓我們回顧一下“ Transformer 的后浪來了 ”中筆者總結(jié)過的SSM整體思維模型:

         

         

        b73d82940ff8243a73c51d017beafb4e.webp

         

        1.狀態(tài)空間對事物的表征和刻畫:狀態(tài)空間的高維度,某時刻的信息,即某時刻的事物的能量的概率分布,是眾多維度的聯(lián)合概率分布,各維度都可能具有連續(xù)性和非線性,如何用線性系統(tǒng)近似,并最大努力消除非線性的影響非常關(guān)鍵;不同層次的潛變量空間,對信息的提取,和粗顆粒度逐層抽象,都需要類似重整化群 RG中的反復歸一化,以消除“近似非線性處理”對整體概率為 1 的偏離。         
                 
        關(guān)于重整化群信息提取的原理,請參考筆者梳理的“大模型認知框架”,此處不再贅述。這里Sora采用的 Diffusion Transformer (DiT)架構(gòu)與谷歌Lumiere 采用的Space-Time UNet (STUNet) 都具備注意力與歸一化,神經(jīng)網(wǎng)路架構(gòu)差異看起來主要來自是否采用“調(diào)整視頻大小、裁剪或修剪到標準大小的通常做法”。    

        2. 狀態(tài)空間的動態(tài)性 :即從時間的維度,研究整個狀態(tài)空間的變遷。這個變遷是狀態(tài)空間的大量非時間維度的信息逐層提取,疊加時間這一特殊維度的(狀態(tài)-時間)序列sequence。不管是高維度低層次的細顆粒度的概率分布的時間變化,還是低維度高層次的粗顆粒度概率分布的時間變化,都是非線性時變系統(tǒng),用線性時不變(LTI)的模型都是無法很好刻畫的。           
                 
        Sora的具體做法技術(shù)綜述中沒有透露。
        Lumiere 的處理中可以窺見端倪。這里可以有多種建模的方式,最自然的方式就是 ((x,y,z), t )的方式,將事物整體的演化看成時間序列,但此種方式往往存在數(shù)字視頻采樣頻率不足導致的運動模糊與運動混淆問題。比如高速運轉(zhuǎn)的輪子有時候看起來像在倒轉(zhuǎn)。

        Nyquist-Shannon采樣定理告訴我們,對于模擬信號 ,如果希望同時看到信號的各種特性,采樣頻率應該大于原始模擬信號的最大頻率的兩倍,否則將發(fā)生混疊即相位或頻率模糊。因而Lumiere采用了自監(jiān)督時間超分辨率(TSR)與空間超分辨率(SSR)技術(shù)[文獻5],將事物的運動建模成多維度兩兩組合的模型:(x,y), …,(x,t),(y,t),(z,t)。

        小的時空碎片會在視頻序列的各個維度上重復出現(xiàn),特別是空間和時間維度之間進行交換時,因而可以對其在時間域與空間域的表征做關(guān)聯(lián)分析,慢逆時針有可能是快順時針的假象,也可能就是慢逆時針。即使時域無法分辨,空域可以調(diào)整頻率,看到更模糊或者沒有特別變化的表征。         
                 
        當物體快速移動時,x-t和y-t切片中的Patch看起來是高分辨率x-y切片(傳統(tǒng)幀)的低分辨率版本。在t方向上增加這些x-t和y-t切片的分辨率與增加視頻的時間分辨率是一樣的。因此,空間x-y視頻幀提供了如何在同一視頻中增加x-t和y-t切片的時間分辨率的示例。

        即將t看成第四維度,可以用x-y高分辨率訓練修正x-t, y-t。同理,當物體移動非常緩慢時,x-t和y-t切片中的Patch呈現(xiàn)為x-y幀中Patch的拉伸版本,表明這些時間切片可以為如何提高視頻幀的空間分辨率提供示例。即時間切片,反過來提升空間分辨率。如果SSM 學到了物理規(guī)律(如運動方程),直接輸出高頻幀理論上也應當可行。    

        ba883b0136812c0f497b87e35d9f95e8.webp

         

        “跨維”遞歸的一維圖示。1D對象向右移動。當適當?shù)牟蓸訒r間(T=1),時間切片類似于空間切片(1D“幀”)。然而,當時間采樣率過低(T=2)時,時間切片是空間切片的欠采樣(混疊 aliasing)版本。因此,空間幀提供了消除時間混疊的示例。

         

        3. 狀態(tài)空間時間序列的非馬爾可夫性 :思考attention 的價值,時序數(shù)據(jù)上的 attention 注意到了什么?諸如趨勢, 周期性, 一次性事件等。非時間維度子空間內(nèi)的 attention,注意到的是范疇內(nèi)與范疇間的關(guān)系, 即某個時刻的狀態(tài)空間。狀態(tài)空間的時序,研究的是狀態(tài)空間的動力學,外在驅(qū)動“力”或因素導致的狀態(tài)的“流動”,即狀態(tài)空間t時刻與 t-n時刻之間的關(guān)系,注意到的是其時間依賴規(guī)律,往往不具備馬爾可夫性。         
                 
        對此
        Transformer 的后浪來了 ”以及筆者早前的“ 薛定諤的小板凳與深度學習的后浪 ”中都做了相應的闡釋。非馬爾可夫性其實是世界的常態(tài),事實上時延系統(tǒng)基本都是非馬爾可夫的。時間維度的注意力與狀態(tài)空間選擇性非常關(guān)鍵。         
                 
        OpenAI 對Sora 視頻生成模型的技術(shù)綜述文章取了“視頻生成模型作為世界模擬器video generation models as world simulators”的題目,可見其宏大的愿景。既然模擬世界,就繞不開萬事萬物的長程時間關(guān)聯(lián)或者因果關(guān)系,非馬爾可夫性不可避免會制造棘手的麻煩。

        五、Sora的前景與未來    

        Sora 和 Lumiere 等文生視頻模型其實就是大模型從側(cè)重空間關(guān)聯(lián)轉(zhuǎn)向了加強時間關(guān)聯(lián) 。也就是從筆者上圖中“非時間維度子空間”的信息提取,轉(zhuǎn)向側(cè)重學習和表征“狀態(tài)空間的動態(tài)性”及處理“非馬爾可夫性”。通過海量視頻中對時空碎片的動態(tài)關(guān)聯(lián)的學習,目前看文生視頻大模型可以學到可視層面或者表面意義上的SSM,此種意義上,MAMBA之類的SSM模型應該可以殊途同歸。

        然而僅僅從時空碎片的表象上是獲取不到足夠捕獲其內(nèi)在規(guī)律的信息的,未來人類科學家們可以將他們長期殫精竭慮探索的領(lǐng)域,包括但不局限于物理化學生物等等學科的范疇,可視化為圖像或視頻,交給視頻生成大模型去學習,輔助發(fā)現(xiàn)其中蘊含的潛在規(guī)律。

        Sora 開了一個好頭,或者說史詩級的把視頻生成模型泛化成了物理引擎 。把LLM GPT加視頻生成模型Sora推到實時,就接近或達到人類的感知水平了。今后重要任務是處理好感知到概念體系的認知跨越,也就是處理好生成過程采樣和變分推斷的合理性。

        普林斯頓和DeepMind 科學家已經(jīng)開始用隨機圖來解釋大模型涌現(xiàn)出來的的新能力,與筆者去年9月整理過的:“ 范疇的相變與知識的形成 ”不謀而合。處理好大模型感知到認知的跨越,不僅僅使得AI4Science領(lǐng)域迎來重大突破,Artificial Super Intelligence人工超級智能也將指日可待。

        [文獻1]https://openai.com/research/video-generation-models-as-world-simulators

        [文獻2]Scalable diffusion models with transformers , https://arxiv.org/abs/2212.09748

        [文獻3]https://ml.cs.tsinghua.edu.cn/~fanbao/Application-DPM.pdf

        [文獻4]Lumiere: A Space-Time Diffusion Model for Video Generation https://arxiv.org/pdf/2401.12945.pdf

        [文獻5]Across Scales & Across Dimensions: Temporal Super-Resolution using Deep Internal Learning https://arxiv.org/abs/2003.08872 

        瀏覽 23
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
          
          

            1. 激情五月综合 | 黄片视频A级毛片 | 成人网在线视频 | 天天搞天天操天天日 | 大香蕉国产在线 |