1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        從OpenAI VPT,看視頻預訓練

        共 2382字,需瀏覽 5分鐘

         ·

        2023-08-14 07:26


        大數(shù)據(jù)文摘授權轉(zhuǎn)載自李rumor
        視頻預訓練一直是我很期待的方向,畢竟文本的表達是有限的,如果讓大模型建立起對世界的多模態(tài)認知,可能很多常識知識問題、world model就迎刃而解了。另外互聯(lián)網(wǎng)的文本數(shù)據(jù)也逐漸無法跟上Scaling law,下一步必然會走向多模態(tài)。
        然而直到現(xiàn)在好像也沒看到能很好利用視頻數(shù)據(jù)來做Foundation模型的方法,恰好最近又看了OpenAI去年發(fā)布的VPT[1]這篇工作,沒想到隔一年再回看,跟第一次調(diào)研EmbodiedAI時看到的感覺完全不一樣。
        視頻預訓練如何做

        在介紹VPT之前,我們先看一下英偉達同期的工作MineDojo[2]是如何做的。這兩篇工作都是以Minecraft游戲為背景,希望利用視頻數(shù)據(jù)訓練出一個能完成各種任務的agent,輸入是圖像(+文本),輸出agent要執(zhí)行的動作。
        MineDojo采取了傳統(tǒng)RL的思路,先定義任務的reward,再用RL算法一把梭,就學會了。但作者一盤發(fā)現(xiàn),其實有兩類任務:
        1. 程序化任務,比如存活多少天、打敗多少敵人,這種目標模擬器里很好計算結(jié)果,直接作為獎勵即可。

        2. 創(chuàng)造性任務,比如騎著豬跑,這類就很不容易了,沒法一個個用規(guī)則去寫獎勵函數(shù)。

        于是難點就來了,如何找到合適的reward呢?作者靈機一動,利用Youtube上的各種視頻,抽出其中的圖像和字幕,訓練一個類似CLIP的模型MINECLIP。在RL訓練階段,直接用MINECLIP計算當前游戲界面和prompt的相似度,作為獎勵。
        由于RL收斂比較慢,作者也采用了不少方法加速訓練,其中很重要的一點是Self-Imitation Learning,直接把拿到高獎勵的動作序列保存下來去學習,就像SFT一樣去學習,效果提升很明顯(紅色線):
        看了MineDojo利用視頻預訓練改進傳統(tǒng)RL之后,再看OpenAI的VPT就很不一樣,兩者完全是不同的思路,可以說MineDojo是用RL的范式,而VPT是用LLM的范式,即Pretrain+SFT+RL。另外值得注意的一點是,VPT發(fā)表于22年6月,同時文中還注明這個工作已經(jīng)進行了一年之久。也就是說OpenAI從21年中就已經(jīng)開始研究agent、視頻預訓練這些topic了。
        我特意查了一下VPT作者,并沒有人參與InstructGPT,不知道兩個項目是否有交流,但不少VPT的作者在簡介里都說了自己正在參與語言大模型的工作。
        只能說OpenAI把這套范式玩明白了,訓什么都用這個思路。但其中有個難點,就是預訓練的時候視頻數(shù)據(jù)沒有自監(jiān)督信號,因為模型要輸出的是動作,而不是下一個畫面。
        于是他們想了一個簡單粗暴的解決辦法,就是先讓標注人員去玩游戲,記錄他們的游戲畫面和對應的動作(鍵盤、鼠標),再用這批數(shù)據(jù)訓練一個模型(Inverse Dynamics Model),去給所有的視頻數(shù)據(jù)預測出標簽。這樣就可以進行自回歸視頻預訓練了。預訓練的數(shù)據(jù)量是70k小時的視頻,大概5B的token,模型參數(shù)量在0.5B。
        得到視頻預訓練模型之后,對于特定的任務,可以直接利用人工標注數(shù)據(jù)進行精調(diào),同時可以再進行RL,作者發(fā)現(xiàn)Pretrain+SFT+RL三步之后效果奇佳,模型可以完成非常復雜的任務(人類需要20分鐘才能完成)。
        同時,VPT也嘗試了加入字幕、音頻轉(zhuǎn)文字后的數(shù)據(jù)進行多模態(tài)訓練,但由于數(shù)據(jù)太少,只展現(xiàn)了微弱的可控性,不過當下再來看文本可控并不是難點,已經(jīng)有很多成功的工作了。
        看完VPT,再來對比一下MineDojo,可以發(fā)現(xiàn)LLM范式一個明顯的優(yōu)點,即提升了訓練效率和效果天花板,因為純RL要靠自己探索,其實收斂的很慢,而且有些復雜的任務需要很長的鏈路,純RL可能根本探索不到。
        通用視頻預訓練?
        雖然VPT證明了LLM的范式在視頻預訓練同樣可行,但個人認為還有兩個比較關鍵的問題:
        1. 圖像與文本的預訓練數(shù)據(jù)不兼容:目前互聯(lián)網(wǎng)的語料都是圖像或者文字一方占主導,所以后續(xù)大概率是和現(xiàn)在一樣,兩種模態(tài)分別預訓練,再通過少量數(shù)據(jù)融合。

        2. VPT的方法不夠通用:像NLP一樣進行通用領域的視頻預訓練還有很長的路要走。首先VPT在準備訓練語料時,需要定義標簽的動作空間,目前只局限在鼠標和鍵盤,但真實世界中的動作太多了;另外很多領域的監(jiān)督數(shù)據(jù)也不一定好獲取,比如需要真人出鏡的視頻成本會很高。

        VPT這篇工作在去年推出時并沒有引起太大火花,如今想一想,雖然存在上述問題,但在一些垂類場景上已經(jīng)有落地的可能了,比如在excel上做數(shù)據(jù)分析、做PPT、操作photoshop等。
        再一想,OpenAI居然前年就開始做這些事兒了,真可怕。

        參考資料

        [1]Video-Pre-Training: https://cdn.openai.com/vpt/Paper.pdf

        [2]MineDojo: https://minedojo.org/


        點「在看」的人都變好看了哦!
        瀏覽 671
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            香蕉黄色电影 | 久草在线 | 中文无码字幕在线视频 | 91探花花总综合在线播放 | 国产精品人妻人伦a 6 2v久软件 自拍啪啪视频 | 污黄色性爱视频网站观看 | 一级黄色视频免费观看 | 中文字幕一区字幕二区三区四区五区 | 亚洲视频免费在线 | 精品国产乱码久久久久久绯色 |