從OpenAI VPT,看視頻預訓練
程序化任務,比如存活多少天、打敗多少敵人,這種目標模擬器里很好計算結(jié)果,直接作為獎勵即可。
創(chuàng)造性任務,比如騎著豬跑,這類就很不容易了,沒法一個個用規(guī)則去寫獎勵函數(shù)。
圖像與文本的預訓練數(shù)據(jù)不兼容:目前互聯(lián)網(wǎng)的語料都是圖像或者文字一方占主導,所以后續(xù)大概率是和現(xiàn)在一樣,兩種模態(tài)分別預訓練,再通過少量數(shù)據(jù)融合。
VPT的方法不夠通用:像NLP一樣進行通用領域的視頻預訓練還有很長的路要走。首先VPT在準備訓練語料時,需要定義標簽的動作空間,目前只局限在鼠標和鍵盤,但真實世界中的動作太多了;另外很多領域的監(jiān)督數(shù)據(jù)也不一定好獲取,比如需要真人出鏡的視頻成本會很高。
參考資料
[1]Video-Pre-Training: https://cdn.openai.com/vpt/Paper.pdf
[2]MineDojo: https://minedojo.org/
評論
圖片
表情
