OpenAI CLIP 論文解讀
GiantPandaCV導(dǎo)語:視頻內(nèi)容主要是講解 CLIP 這篇文章的思路,值得一看
點(diǎn)擊小程序卡片觀看視頻
視頻太長不看版:
CLIP 訓(xùn)練階段

模型架構(gòu)分為兩部分,圖像編碼器和文本編碼器,圖像編碼器可以是比如 resnet50,然后文本編碼器可以是 transformer。
訓(xùn)練數(shù)據(jù)是網(wǎng)絡(luò)社交媒體上搜集的圖像文本對。在訓(xùn)練階段,對于一個batch 的數(shù)據(jù),首先通過文本編碼器和圖像編碼器,得到文本和圖像的特征,接著將所有的文本和圖像特征分別計算內(nèi)積,就能得到一個矩陣,然后從圖像的角度看,行方向就是一個分類器,從文本角度看,列方向也是一個分類器。
而由于我們已經(jīng)知道一個batch中的文本和圖像的匹配關(guān)系,所以目標(biāo)函數(shù)就是最大化同一對圖像和文本特征的內(nèi)積,也就是矩陣對角線上的元素,而最小化與不相關(guān)特征的內(nèi)積。文章的作者從社交媒體上搜集了有大約4億對的數(shù)據(jù)。
CLIP 測試階段

在測試階段,可以直接將訓(xùn)練好的CLIP用于其他數(shù)據(jù)集而不需要finetune。和訓(xùn)練階段類似,首先將需要分類的圖像經(jīng)過編碼器得到特征,然后對于目標(biāo)任務(wù)數(shù)據(jù)集的每一個標(biāo)簽,或者你自己定義的標(biāo)簽,都構(gòu)造一段對應(yīng)的文本,如上圖中的 dog 會改造成 "A photo of a dog",以此類推。然后經(jīng)過編碼器得到文本和圖像特征,接著將文本特征與圖像特征做內(nèi)積,內(nèi)積最大對應(yīng)的標(biāo)簽就是圖像的分類結(jié)果。這就完成了目標(biāo)任務(wù)上的 zero-shot 分類。
一些有趣的實(shí)驗(yàn)結(jié)果
在27個數(shù)據(jù)集上與有監(jiān)督resnet50的對比

上圖是在27個數(shù)據(jù)集上的對比實(shí)驗(yàn)結(jié)果,Linear Probe ResNet50 是指首先將 ResNet50 在 imagenet 數(shù)據(jù)集上做預(yù)訓(xùn)練。接著扔掉最后一層全連接并固定網(wǎng)絡(luò)參數(shù),重新添加一層線性分類器,然后在這27個數(shù)據(jù)集上重新訓(xùn)練新增的這層分類器。從實(shí)驗(yàn)結(jié)果上看,Zero-Shot CLIP 在其中16個數(shù)據(jù)集上都超過了 Linear Probe ResNet50,甚至包括了 imagenet。
在 ImageNet 變種數(shù)據(jù)集上與resnet101對比

這個實(shí)驗(yàn)是對于imagenet數(shù)據(jù)集經(jīng)過重新的篩選,制作了幾個變種的版本。然后將 Zero-Shot CLIP 與在 Imagenet 上有監(jiān)督訓(xùn)練的 ResNet101 在這些數(shù)據(jù)集上的分類精度做對比??梢钥吹诫S著變種版本的難度增大,ResNet101分類精度愈來愈差,而CLIP的表現(xiàn)則依然很堅挺。
通過添加標(biāo)簽對CLIP分類效果的影響

這是在一個人臉數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,最上面的 Table 6 是表示數(shù)據(jù)集標(biāo)簽包含7個人類種族、3類罪犯相關(guān)的標(biāo)簽和4類非人類的標(biāo)簽。Table 7 才是重點(diǎn),表示各個年齡段的人臉識別為罪犯或者非人類的圖片比例,可以看到通過給 Default Label Set 添加一個新的 'child' 兒童這個類別,0~19歲低年齡段的人臉的誤識別率都降低了很多,因?yàn)镃LIP分類的時候多了個兒童這個選項。通過這個實(shí)驗(yàn)說明文本編碼器部分的標(biāo)簽文本構(gòu)造對CLIP分類結(jié)果的影響非常大。
總結(jié)
CLIP提供一個如何做 zero-shot 分類的思路,且模型魯棒性強(qiáng)?;?CLIP 可以自由定義自己的分類器,而且與現(xiàn)有的很多工作結(jié)合或許玩出很多花樣,比如 DALL·E 中用到了 CLIP,又比如有人已經(jīng)把 CLIP 和 stylegan 結(jié)合來生成圖片,又或者可以和 GPT-3 結(jié)合等等。想了解更多詳細(xì)內(nèi)容可以閱讀原文章或者觀看視頻。
原論文鏈接:https://arxiv.org/pdf/2103.00020.pdf
