中国老女人毛片,色婷婷基地,女人被添全过程av少妇寂寞,操逼操,操大逼小说,国产电影在线观看一区二区,女优av电影,日本逼网

大數(shù)據(jù)文摘授權轉(zhuǎn)載自李rumor

視頻預訓練一直是我很期待的方向，畢竟文本的表達是有限的，如果讓大模型建立起對世界的多模態(tài)認知，可能很多常識知識問題、world model就迎刃而解了。另外互聯(lián)網(wǎng)的文本數(shù)據(jù)也逐漸無法跟上Scaling law，下一步必然會走向多模態(tài)。

然而直到現(xiàn)在好像也沒看到能很好利用視頻數(shù)據(jù)來做Foundation模型的方法，恰好最近又看了OpenAI去年發(fā)布的VPT[1]這篇工作，沒想到隔一年再回看，跟第一次調(diào)研EmbodiedAI時看到的感覺完全不一樣。

視頻預訓練如何做

在介紹VPT之前，我們先看一下英偉達同期的工作MineDojo[2]是如何做的。這兩篇工作都是以Minecraft游戲為背景，希望利用視頻數(shù)據(jù)訓練出一個能完成各種任務的agent，輸入是圖像(+文本)，輸出agent要執(zhí)行的動作。

MineDojo采取了傳統(tǒng)RL的思路，先定義任務的reward，再用RL算法一把梭，就學會了。但作者一盤發(fā)現(xiàn)，其實有兩類任務：

程序化任務，比如存活多少天、打敗多少敵人，這種目標模擬器里很好計算結(jié)果，直接作為獎勵即可。
創(chuàng)造性任務，比如騎著豬跑，這類就很不容易了，沒法一個個用規(guī)則去寫獎勵函數(shù)。

于是難點就來了，如何找到合適的reward呢？作者靈機一動，利用Youtube上的各種視頻，抽出其中的圖像和字幕，訓練一個類似CLIP的模型MINECLIP。在RL訓練階段，直接用MINECLIP計算當前游戲界面和prompt的相似度，作為獎勵。

由于RL收斂比較慢，作者也采用了不少方法加速訓練，其中很重要的一點是Self-Imitation Learning，直接把拿到高獎勵的動作序列保存下來去學習，就像SFT一樣去學習，效果提升很明顯（紅色線）：

看了MineDojo利用視頻預訓練改進傳統(tǒng)RL之后，再看OpenAI的VPT就很不一樣，兩者完全是不同的思路，可以說MineDojo是用RL的范式，而VPT是用LLM的范式，即Pretrain+SFT+RL。另外值得注意的一點是，VPT發(fā)表于22年6月，同時文中還注明這個工作已經(jīng)進行了一年之久。也就是說OpenAI從21年中就已經(jīng)開始研究agent、視頻預訓練這些topic了。

我特意查了一下VPT作者，并沒有人參與InstructGPT，不知道兩個項目是否有交流，但不少VPT的作者在簡介里都說了自己正在參與語言大模型的工作。

只能說OpenAI把這套范式玩明白了，訓什么都用這個思路。但其中有個難點，就是預訓練的時候視頻數(shù)據(jù)沒有自監(jiān)督信號，因為模型要輸出的是動作，而不是下一個畫面。

于是他們想了一個簡單粗暴的解決辦法，就是先讓標注人員去玩游戲，記錄他們的游戲畫面和對應的動作（鍵盤、鼠標），再用這批數(shù)據(jù)訓練一個模型（Inverse Dynamics Model），去給所有的視頻數(shù)據(jù)預測出標簽。這樣就可以進行自回歸視頻預訓練了。預訓練的數(shù)據(jù)量是70k小時的視頻，大概5B的token，模型參數(shù)量在0.5B。

得到視頻預訓練模型之后，對于特定的任務，可以直接利用人工標注數(shù)據(jù)進行精調(diào)，同時可以再進行RL，作者發(fā)現(xiàn)Pretrain+SFT+RL三步之后效果奇佳，模型可以完成非常復雜的任務（人類需要20分鐘才能完成）。

同時，VPT也嘗試了加入字幕、音頻轉(zhuǎn)文字后的數(shù)據(jù)進行多模態(tài)訓練，但由于數(shù)據(jù)太少，只展現(xiàn)了微弱的可控性，不過當下再來看文本可控并不是難點，已經(jīng)有很多成功的工作了。

看完VPT，再來對比一下MineDojo，可以發(fā)現(xiàn)LLM范式一個明顯的優(yōu)點，即提升了訓練效率和效果天花板，因為純RL要靠自己探索，其實收斂的很慢，而且有些復雜的任務需要很長的鏈路，純RL可能根本探索不到。

通用視頻預訓練？

雖然VPT證明了LLM的范式在視頻預訓練同樣可行，但個人認為還有兩個比較關鍵的問題：

圖像與文本的預訓練數(shù)據(jù)不兼容：目前互聯(lián)網(wǎng)的語料都是圖像或者文字一方占主導，所以后續(xù)大概率是和現(xiàn)在一樣，兩種模態(tài)分別預訓練，再通過少量數(shù)據(jù)融合。
VPT的方法不夠通用：像NLP一樣進行通用領域的視頻預訓練還有很長的路要走。首先VPT在準備訓練語料時，需要定義標簽的動作空間，目前只局限在鼠標和鍵盤，但真實世界中的動作太多了；另外很多領域的監(jiān)督數(shù)據(jù)也不一定好獲取，比如需要真人出鏡的視頻成本會很高。

VPT這篇工作在去年推出時并沒有引起太大火花，如今想一想，雖然存在上述問題，但在一些垂類場景上已經(jīng)有落地的可能了，比如在excel上做數(shù)據(jù)分析、做PPT、操作photoshop等。

再一想，OpenAI居然前年就開始做這些事兒了，真可怕。

參考資料

[1]Video-Pre-Training: https://cdn.openai.com/vpt/Paper.pdf

[2]MineDojo: https://minedojo.org/

點「在看」的人都變好看了哦！

從OpenAI VPT，看視頻預訓練

參考資料

從OpenAI VPT，看視頻預訓練