1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        開源的 Sora 復(fù)現(xiàn)方案,成本降低近一半!

        共 2362字,需瀏覽 5分鐘

         ·

        2024-04-11 07:00

        近日,開發(fā) ChatGPT 的 OpenAI 公司又放出王炸 Sora,一個可以根據(jù)文本生成視頻的 AI 模型。

        5ba69387b76556d2949a45867df3a7da.webp

        上圖就是 OpenAI 公布的 Sora 生成的視頻片段,可以毫不夸張地說 Sora 直接將視頻生成技術(shù)推向了新的高度,這也標志著人工智能視頻生成技術(shù)邁入了新的時代。此項技術(shù),可以廣泛應(yīng)用于電影、動畫、游戲、廣告等領(lǐng)域,為內(nèi)容創(chuàng)作者提供更加便捷、高效的創(chuàng)作工具。

        81ac4f900c9aca46c78d30daed3dc201.webp

        雖然 Sora 沒有開源,但我在 GitHub 上發(fā)現(xiàn)了 Colossal-AI 剛開源的完整 Sora 復(fù)現(xiàn)架構(gòu)方案 Open-Sora,它提供了完整的 Sora 復(fù)現(xiàn)架構(gòu)解決方案,包括從數(shù)據(jù)處理到訓(xùn)練、部署的全流程。Open-Sora 不僅可以降低 46% 復(fù)現(xiàn)成本,而且還將模型訓(xùn)練輸入序列長度擴充至 819K patches(模型處理視頻的最小單元)。

        GitHub 地址:https://github.com/hpcaitech/Open-Sora

        既然 Sora 沒有開源,那這個復(fù)現(xiàn)方案從何而來呢?接下來,就讓我們一起來看看已公布的 Sora 技術(shù)原理以及 Open-Sora 到底有沒有真東西!

        Sora 算法復(fù)現(xiàn)方案

        8b1a827fd082d00f1f9995eef1ecdf74.webp

        與 Sora 視頻一起發(fā)布的,還有一份 OpenAI 關(guān)于 Sora 的技術(shù)報告,在這份 Sora 的技術(shù)報告中,介紹了 Sora 是使用了一個視頻壓縮網(wǎng)絡(luò),將不同尺寸的視頻壓縮成一個隱空間(latent space)的時空塊序列(temporal patch),然后使用了 Diffusion Transformer 進行去噪,最后進行解碼生成視頻。

        e001b83584f3ba9b8470541c18abe39a.webp

        根據(jù)上面描述的技術(shù)原理,Open-Sora 將 Sora 可能使用的訓(xùn)練流程歸納為下圖。

        7161218026172f012456a4116969091b.webp

        綜上所述,Open-Sora 作為 Sora 技術(shù)的復(fù)現(xiàn)框架,用 Python 實現(xiàn)了將原視頻轉(zhuǎn)化成通用型大模型能處理的最小單元 patches 的模塊(patches 類似文本的 token),然后在去噪步驟提供了 3 種常見的多模態(tài)模型結(jié)構(gòu)。

        目前 Open-Sora 提供的功能,如下:

        • 完整的 Sora 復(fù)現(xiàn)架構(gòu):包含從數(shù)據(jù)處理到訓(xùn)練推理全流程。
        • 動態(tài)分辨率:訓(xùn)練時可直接訓(xùn)練任意分辨率的視頻,無需進行縮放。
        • 多種模型結(jié)構(gòu):由于 Sora 實際模型結(jié)構(gòu)未知,我們實現(xiàn)了 adaLN-zero、cross attention、in-context conditioning(token concat)等 3 種常見的多模態(tài)模型結(jié)構(gòu)。
        • 多種視頻壓縮方法:用戶可自行選擇使用原始視頻、VQVAE(視頻原生的模型)、SD-VAE(圖像原生的模型)進行訓(xùn)練。
        • 多種并行訓(xùn)練優(yōu)化:支持結(jié)合 Colossal-AI 的 AI 大模型系統(tǒng)優(yōu)化能力,及 Ulysses 和 FastSeq 的混合序列并行。

        眾所周知,模型訓(xùn)練需要的資源是恐怖的,哪怕是 1% 的優(yōu)化都可以節(jié)約極大的訓(xùn)練成本,而 Open-Sora 直接節(jié)省了近一半 46% 的復(fù)現(xiàn)成本,而且在模型訓(xùn)練輸入方面更是將序列擴充至近百萬。到底 Open-Sora 是如何做的性能優(yōu)化,從而實現(xiàn)類 Sora 視頻生成模型的低成本開發(fā)流程呢?跟著小編我們一探究竟。

        性能優(yōu)化

        不同于 LLM 的大模型、大激活,Sora 類訓(xùn)練任務(wù)的特點是模型本體不大(如在 10B 以下),但是由于視頻復(fù)雜性帶來的序列長度特別長。

        在此情況下,PyTorch 數(shù)據(jù)并行已無法運行,而傳統(tǒng)的模型并行、零冗余數(shù)據(jù)并行帶來的收益有限。因此,在支持 AMP(FP16/BF16)、Flash Attention、Gradient checkpointing、ZeRO-DP 等場景優(yōu)化策略的基礎(chǔ)上,Open-Sora 進一步引入兩種不同的序列并行方法實現(xiàn),可以 ZeRO 一起使用實現(xiàn)混合并行:

        5563e5db24b6247a2da676600f824379.webp
        1. 通用性較強的 Ulysses,對小規(guī)?;蜷L序列表現(xiàn)可能更好。a90c006d2a1687cf5a959bbe8be92588.webp
        2. FastSeq 能將 qkv projection 的計算和 all-gather 通信重疊,只需多占用一點內(nèi)存就可更進一步提升訓(xùn)練效率。

        這兩種序列并行方案,都可以輕松與 ZeRO2 共同使用來實現(xiàn)混合并行。

        以在單臺 H800 SXM 8*80GB GPU 上使用 DiT-XL/2 模型的性能測試為例。

        900e49a4ee06dd49b5996f79b81ec362.webp

        在 600K 的序列長度時,Open-Sora 的方案比基線方案有 40% 以上的性能提升和成本降低。

        3c205e3030d3b31ce7cf65fe8f17325f.webp

        在保證更快訓(xùn)練速度的情況下,Open-Sora 還能訓(xùn)練 30% 更長的序列,達到 819K+。

        最后

        在這個視頻流行的時代,AI 生成視頻技術(shù)成為了當下備受矚目的熱門技術(shù)之一,Sora 的出現(xiàn)更是引爆了這個領(lǐng)域。

        今天介紹的 Open-Sora 才剛剛開源,并未提供訓(xùn)練好的類 Sora 模型,還不能直接拿來生成視頻。但它提供了一套經(jīng)過優(yōu)化后的類 Sora 視頻生成模型低成本開發(fā)框架,為視頻生成提供方便易用、成本低廉、質(zhì)量可靠的開源解決方案。更多的技術(shù)細節(jié),篇幅問題這里就不展開了,如果你對 Open-Sora 感興趣,可深入了解下它的源碼(Python)或者參與貢獻代碼,復(fù)現(xiàn) Sora 趕超 Sora!

        GitHub 地址:https://github.com/hpcaitech/Open-Sora

        - END -

        ?? 關(guān)注「HelloGitHub」第一時間收到更新 ??
        瀏覽 38
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            成人天美麻豆久久久久久 | 免费观看成人A片激情视频 | 中国一级淫片 | 五月丁香六月 | 久久免费看黄A级毛片暴力 | 亚洲国产成人精品无码区花野 | 91美女被操 | 免费A级无毛无码无遮挡 | 成人免费网站黄 | 久久99久久99久久99人受 |