1. ViLT:最簡(jiǎn)單的多模態(tài)Transformer

        共 3165字,需瀏覽 7分鐘

         ·

        2021-05-27 06:51


        之所以用這一篇作為多模態(tài)的開(kāi)篇是因?yàn)檫@篇清楚的歸納了各種多模態(tài)算法,可以當(dāng)成一個(gè)小綜述來(lái)看,然后還提出了一種非常簡(jiǎn)單的多模態(tài)Transformer方法ViLT。

        先闡述一下4種不同類型的Vision-and-Language Pretraining(VLP),然后歸納2種模態(tài)相互作用方式和3種visual embedding方式,最后講一下ViLT的設(shè)計(jì)思路。

        01

        Taxonomy of VLP



        上圖是4種不同類型的VLP模型示意圖。其中每個(gè)矩形的高表示相對(duì)計(jì)算量大小,VE、TE和MI分別是visual embedding、text embedding和modality interaction的簡(jiǎn)寫(xiě)。

        作者提出這4種類型的主要依據(jù)有兩點(diǎn):

        1.在參數(shù)或者計(jì)算上,兩種模態(tài)是否保持平衡。

        2.在網(wǎng)絡(luò)深層中,兩種模態(tài)是否相互作用。

        VSE、VSE++和SCAN屬于(a)類型。對(duì)圖像和文本獨(dú)立使用encoder,圖像的更重,文本的更輕,使用簡(jiǎn)單的點(diǎn)積或者淺層attention層來(lái)表示兩種模態(tài)特征的相似性。

        CLIP屬于(b)類型。每個(gè)模態(tài)單獨(dú)使用重的transformer encoder,使用池化后的圖像特征點(diǎn)積計(jì)算特征相似性。

        ViLBERT、UNTER和Pixel-BERT屬于(c)類型。這些方法使用深層transformer進(jìn)行交互作用,但是由于VE仍然使用重的卷積網(wǎng)絡(luò)進(jìn)行特征抽取,導(dǎo)致計(jì)算量依然很大。

        作者提出的ViLT屬于(d)類型。ViLT是首個(gè)將VE設(shè)計(jì)的如TE一樣輕量的方法,該方法的主要計(jì)算量都集中在模態(tài)交互上。

        Modality Interaction Schema

        模態(tài)交互部分可以分成兩種方式:一種是single-stream(如BERT和UNITER),另一種是dual-stream(如ViLBERT和LXMERT)。其中single-stream是對(duì)圖像和文本concate然后進(jìn)行交互操作,而dual-stream是不對(duì)圖像和文本concate然后進(jìn)行交互操作。ViLT延用single-stream的交互方式,因?yàn)閐ual-stream會(huì)引入額外的計(jì)算量。

        Visual Embedding Schema

        現(xiàn)有的VLP模型的text embedding基本上都使用類BERT結(jié)構(gòu),但是visual embedding存在著差異。在大多數(shù)情況下,visual embedding是現(xiàn)有VLP模型的瓶頸。visual embedding的方法總共有三大類,其中region feature方法通常采用Faster R-CNN二階段檢測(cè)器提取region的特征,grid feature方法直接使用CNN提取grid的特征,patch projection方法將輸入圖片切片投影提取特征。ViLT是首個(gè)使用patch projection來(lái)做visual embedding的方法。

        02

        ViLT

        Model Overview

        作者提出的ViLT可以認(rèn)為是目前最簡(jiǎn)單的多模態(tài)Transformer方法。ViLT使用預(yù)訓(xùn)練的ViT來(lái)初始化交互的transformer,這樣就可以直接利用交互層來(lái)處理視覺(jué)特征,不需要額外增加一個(gè)視覺(jué)encoder。

        文本特征輸入部分,將文本看成一個(gè)詞序列,通過(guò)word embedding matrix轉(zhuǎn)化成word embedding,然后和position embedding進(jìn)行相加,最后和modal-type embedding進(jìn)行concate。

        圖像特征輸入部分,將圖像切塊看成一個(gè)圖像塊序列,通過(guò)linear projection轉(zhuǎn)化成visual embedding,然后和postion embedding進(jìn)行相加,最后和modal-type embedding進(jìn)行concate。

        其中word embedding和visual embedding通過(guò)可學(xué)習(xí)的modal-type embedding標(biāo)志位來(lái)區(qū)分,其中0標(biāo)志位表示word embedding部分,1標(biāo)志位表示visual embedding部分。

        wrod embedding和visual embedding分別都嵌入了一個(gè)額外的可學(xué)習(xí)[class] embedding,方便和下游任務(wù)對(duì)接。

        Pretraining Objectives

        ViLT預(yù)訓(xùn)練的優(yōu)化目標(biāo)有兩個(gè):一個(gè)是image text matching(ITM),另一個(gè)是masked language modeling(MLM)。

        ImageText Matching:隨機(jī)以0.5的概率將文本對(duì)應(yīng)的圖片替換成不同的圖片,然后對(duì)文本標(biāo)志位對(duì)應(yīng)輸出使用一個(gè)線性的ITM head將輸出feature映射成一個(gè)二值logits,用來(lái)判斷圖像文本是否匹配。另外ViLT還設(shè)計(jì)了一個(gè)word patch alignment (WPA)來(lái)計(jì)算teextual subset和visual subset的對(duì)齊分?jǐn)?shù)。

        Masked Language Modeling:MLM的目標(biāo)是通過(guò)文本的上下文信息去預(yù)測(cè)masked的文本tokens。隨機(jī)以0.15的概率mask掉tokens,然后文本輸出接兩層MLP與車mask掉的tokens。

        Whole Word Masking:另外ViLT還使用了whole word masking技巧。whole word masking是將連續(xù)的子詞tokens進(jìn)行mask的技巧,應(yīng)用于BERT和Chinese BERT是有效的。比如將“giraffe”詞tokenized成3個(gè)部分["gi", "##raf", "##fe"],那么可以mask成["gi", "[MASK]", "##fe"],模型使用[“gi”,“##fe”]來(lái)預(yù)測(cè)mask的“##raf”,而不使用圖像信息。

        03

        實(shí)驗(yàn)結(jié)果

        如圖所示,ViLT相比于region feature的方法速度快了60倍,相比于grid feature的方法快了4倍,而且下游任務(wù)表現(xiàn)出相似甚至更好的性能。

        從table2、table3和table4中可以看出,相對(duì)于region和grid的方法,ViLT在下游任務(wù)表現(xiàn)出相似甚至更好的性能。

        可視化

        通過(guò)可視化可以看出,ViLT學(xué)到了word和image patch之間的對(duì)應(yīng)關(guān)系。

        04

        總結(jié)


        BERT和ViT給多模態(tài)Transformer提供了基礎(chǔ),通過(guò)巧妙的proxy task設(shè)計(jì),ViLT成功將BERT和ViT應(yīng)用于多模態(tài)Transformer。總體上來(lái)看基于patch projection的多模態(tài)方法速度優(yōu)勢(shì)非常大,但是整體上性能還是略低于region feature的方法,期待未來(lái)會(huì)有更強(qiáng)的基于patch projection的多模態(tài)方法出現(xiàn)。


        Reference

        [1] ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision



                                                    覺(jué)得有用給個(gè)在看吧 


        瀏覽 66
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評(píng)論
        圖片
        表情
        推薦
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
          
          

            1. 三级特黄60分钟在哪线 | 91操B| 我才16就同学破了处好爽 | 天天爽日日澡AAAA片 | 91精品国产乱码在线观看 |