1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        CVPR 2022 | 字節(jié)跳動論文精選丨附開源鏈接

        共 2441字,需瀏覽 5分鐘

         ·

        2022-05-10 18:10

        本文來源?字節(jié)跳動技術(shù)范兒

        計算機視覺領(lǐng)域的學(xué)術(shù)會議 CVPR 2022 已經(jīng)公布了論文中選結(jié)果。

        作為計算機視覺領(lǐng)域三大頂級學(xué)術(shù)會議之一,CVPR 每年都吸引了各大高校、科研機構(gòu)與科技公司的論文投稿,許多當(dāng)年十分重要且有巨大突破的計算機視覺技術(shù)工作都在 CVPR 上發(fā)布,供全球研究者閱讀研習(xí)。

        我們精選了 16 篇字節(jié)跳動技術(shù)團(tuán)隊發(fā)表在本屆 CVPR 上的論文,分享其中的核心貢獻(xiàn)與突破,學(xué)習(xí)計算機視覺領(lǐng)域的最前沿研究。

        接下來,我們一起來讀論文吧。



        目標(biāo)檢測的重點與全局知識蒸餾

        Focal and Global Knowledge Distillation for Detectors

        這篇工作由字節(jié)跳動商業(yè)化技術(shù)團(tuán)隊與清華大學(xué)合作完成。

        針對學(xué)生與教師注意力的差異,前景與背景的差異,我們提出了重點蒸餾 Focal Distillation:分離前背景,并利用教師的空間與通道注意力作為權(quán)重,指導(dǎo)學(xué)生進(jìn)行知識蒸餾,計算重點蒸餾損失。Focal Distillation 將前景與背景分開進(jìn)行蒸餾,割斷了前背景的聯(lián)系,缺乏了特征的全局信息的蒸餾。為此,我們提出了全局蒸餾 Global Distillation:利用 GcBlock 分別提取學(xué)生與教師的全局信息,并進(jìn)行全局蒸餾損失的計算。


        本文對 anchor-based 與 anchor-free 的單階段與二階段檢測器進(jìn)行了實驗,在 COCO2017 上學(xué)生檢測器均獲得了大幅的 AP 和 AR 提升。例如對 FasterRCNN-R50 使用 FGD 蒸餾,mAP 由 38.4 提升到了 42.0,mAR 由 52.0 提升到了 55.4。

        arXiv: https://arxiv.org/abs/2111.11837
        github: https://github.com/yzd-v/FGD



        基于跳舞視頻的通用虛擬換裝

        Dressing in the Wild by Watching Dance Videos

        這篇工作由字節(jié)跳動智能創(chuàng)作團(tuán)隊和中山大學(xué)共同完成,利用模型自動實現(xiàn)人物的全身&局部換裝。

        論文作者提出了 2D 3D 相結(jié)合的視頻自監(jiān)督訓(xùn)練模型 wFlow,在有挑戰(zhàn)性的寬松服裝與復(fù)雜姿態(tài)上有明顯的效果提升。


        由于缺乏人體潛在的 3D 信息感知能力及相應(yīng)的多樣化姿態(tài)&衣服數(shù)據(jù)集,現(xiàn)有的虛擬換裝工作僅僅能應(yīng)用在貼身衣物或者人體姿態(tài)較為簡單的情況下。

        因此,本文作者提出了一個全新的真實世界視頻數(shù)據(jù)集 Dance50k,并結(jié)合引入 2D 像素流與 3D 頂點流,形成更通用的外觀流預(yù)測模塊(即 wFlow),在解決寬松服裝變形的同時,提升對復(fù)雜人體姿勢的適應(yīng)力。

        通過在本數(shù)據(jù)集上進(jìn)行跨幀自監(jiān)督訓(xùn)練并對復(fù)雜例子進(jìn)行在線環(huán)式優(yōu)化,相較現(xiàn)有的單一像素或者頂點外觀流方法,wFlow 在真實世界圖片上泛化性更高,優(yōu)于其他 SOTA 方法。

        網(wǎng)站: https://awesome-wflow.github.io/
        arXiv: https://arxiv.org/abs/2203.15320



        語言作為查詢的參考視頻目標(biāo)分割框架

        Language as Queries for Referring Video?Object

        這篇工作由字節(jié)跳動商業(yè)化技術(shù)團(tuán)隊與香港大學(xué)合作完成。

        文章提出了在參考視頻目標(biāo)分割(Referring Video Object Segmentation, RVOS)領(lǐng)域進(jìn)行端到端分割的解決方案。

        參考視頻目標(biāo)分割(RVOS)任務(wù)需要在視頻中將文本所指代的參考對象進(jìn)行實例分割,與目前得到廣泛研究的參考圖像分割(RIS)相比,其文本描述不僅可以基于目標(biāo)的外觀特征或者空間關(guān)系,還可以對目標(biāo)所進(jìn)行的動作進(jìn)行描述,這要求模型有著更強的時空建模能力,且保證分割目標(biāo)在所有視頻幀上的一致性;與傳統(tǒng)的視頻目標(biāo)分割(VOS)任務(wù)相比,RVOS 任務(wù)在預(yù)測階段沒有給定分割目標(biāo)的真值,從而增加了對目標(biāo)進(jìn)行正確精細(xì)分割的難度。


        現(xiàn)有的 RVOS 方法往往都依賴于復(fù)雜的多階段框架,以保證分割目標(biāo)的一致性。為了解決以上問題,本文提出了一種基于 Transformer 的端到端 RVOS 框架 —— ReferFormer,其將語言描述作為查詢條件,在視頻中僅僅關(guān)注于參考目標(biāo),并采用動態(tài)卷積對目標(biāo)進(jìn)行分割;除此之外,通過連接不同幀上相對應(yīng)的查詢進(jìn)行實例的整體輸出,可自然地完成目標(biāo)的追蹤,無需任何后處理。該方法在四個 RVOS 數(shù)據(jù)集上(Ref-Youtube-VOS, Ref-DAVIS17, A2D-Sentences, JHMDB-Sentences)均取得了當(dāng)前最優(yōu)的性能。

        arXiv: https://arxiv.org/abs/2201.00487
        code: https://github.com/wjn922/ReferFormer



        GCFSR: 不借助人臉先驗,一種生成細(xì)節(jié)可控的人臉超分方法

        GCFSR: a Generative and Controllable Face Super Resolution Method Without Facial and GAN Priors

        這篇工作由字節(jié)跳動智能創(chuàng)作團(tuán)隊和中國科學(xué)院先進(jìn)技術(shù)研究院共同完成。

        人臉超分辨通常依靠面部先驗來恢復(fù)真實細(xì)節(jié)并保留身份信息。在 GAN piror 的幫助下,最近的進(jìn)展要么設(shè)計復(fù)雜的模塊來修改固定的 GAN prior,要么采用復(fù)雜的訓(xùn)練策略來對生成器進(jìn)行微調(diào)。

        論文作者提出了生成細(xì)節(jié)可控的人臉超分框架?GCFSR,能在無需任何額外的先驗的情況下,重建具有真實身份信息的圖像。

        該框架是一個編碼器-生成器架構(gòu)。為了完成多個放大倍率的人臉超分,我們設(shè)計了兩個模塊:旨在生成逼真的面部細(xì)節(jié)的樣式調(diào)制模塊,以及根據(jù)條件放大倍率對多尺度編碼特征和生成特征進(jìn)行動態(tài)融合的特征調(diào)制模塊,以實現(xiàn)用端到端的方式從頭開始訓(xùn)練。


        對于較小倍率超分(<=8),該框架可以在僅有的 GAN loss 的約束下產(chǎn)生令人驚訝的好結(jié)果。在添加 L1 loss 和 perceptual loss 后,GCFSR 可以在大倍率超分任務(wù)上(16, 32, 64)達(dá)到 SOTA 的結(jié)果。

        網(wǎng)站: https://github.com/hejingwenhejingwen/GCFSR
        arXiv: https://arxiv.org/abs/2203.07319




        局部解耦的圖像生成

        SemanticStyleGAN: Learning Compositional Generative Priors for Controllable Image Synthesis and Editing

        這篇論文來自字節(jié)跳動智能創(chuàng)作團(tuán)隊。

        由于 StyleGAN 的 latent space 是基于圖像尺度來分解的,這使得 StyleGAN 擅長處理全局風(fēng)格,卻不利于局部編輯。這篇論文提出一種新的 GAN 網(wǎng)絡(luò),使得 latent space 在不同的語義局部上解耦。

        為了實現(xiàn)這一目標(biāo),本文從 inductive bias 和監(jiān)督信息兩個方面入手。在第一方面,本文將 StyleGAN 生成器的底層生成模塊分解為不同的局部生成器,每個生成器生成對應(yīng)某個區(qū)域的局部特征圖(feature map)和偽深度圖(pseudo-depth map),這些偽深度圖隨后以類似 z-buffering 的方式組合全局的 semantic mask 和 feature map 來渲染圖像。在監(jiān)督信息方面,本文提出了一種 dual-branch discriminator,同時對圖像及其語義標(biāo)簽同時建模,保證每一個局部生成器能對應(yīng)有意義的局部。


        最終得到的模型能夠?qū)γ總€語義局部構(gòu)建獨立的 latent space,實現(xiàn)局部的風(fēng)格變換。同時可以在保證局部可控的前提下配合 latent space 的編輯方法進(jìn)行圖像編輯。

        網(wǎng)站: https://semanticstylegan.github.io
        arXiv: https://arxiv.org/abs/2112.02236




        基于學(xué)習(xí)結(jié)構(gòu)和紋理表征的三維感知圖像生成

        3D-aware Image Synthesis via Learning Structural and Textural Representations


        這篇工作由字節(jié)跳動智能創(chuàng)作團(tuán)隊和香港中文大學(xué)、浙江大學(xué)共同完成。

        這篇論文主要研究如何讓生成模型感知到三維信息。目前已有的研究主要將生成對抗網(wǎng)絡(luò)中的生成器替換為神經(jīng)輻射場(NeRF),NeRF 可以將三維空間坐標(biāo)當(dāng)作先驗,逐像素地渲染出一張圖片來。但 NeRF 中的隱式函數(shù)有一個非常局部的感受野,使得生成器很難意識到物體的全局結(jié)構(gòu),并且 NeRF 建立在體繪制(volume rendering)的基礎(chǔ)上,增加了生成成本和優(yōu)化難度。

        為了解決這兩個問題,論文作者提出了一個新的三維感知生成器來顯示地學(xué)習(xí)物體的結(jié)構(gòu)表征和紋理表征,名為 VolumeGAN。該生成器首先學(xué)習(xí)一個用來表示物體底層結(jié)構(gòu)的特征體(feature volume),然后將這個特征體轉(zhuǎn)換為特征場(feature field),再通過積分的形式將之轉(zhuǎn)換為特征圖(feature map),最終利用神經(jīng)渲染器合成一張二維圖像。

        在眾多數(shù)據(jù)集上進(jìn)行的大量實驗表明,與以前的方法相比,該方法取得了更好的生成圖像質(zhì)量以及更加準(zhǔn)確的三維可控性。

        arXiv: https://arxiv.org/abs/2112.10759
        code: https://github.com/genforce/volumegan
        demo: https://www.youtube.com/watch?v=p85TVGJBMFc




        舞者追蹤:統(tǒng)一外觀和多樣運動的多物體追蹤

        DanceTrack: Multi-Object Tracking in Uniform

        這篇工作由字節(jié)跳動商業(yè)化技術(shù)團(tuán)隊與香港大學(xué)、卡耐基梅隆大學(xué)合作完成。

        文章提出了一個新的多物體追蹤數(shù)據(jù)集 DanceTrack,數(shù)據(jù)集的顯著特點是:

        (1)統(tǒng)一外觀。舞者的著裝高度相似,外觀幾乎無法區(qū)別。

        (2)多樣運動。舞者的運動模式復(fù)雜,來回穿梭。


        物體跟蹤中可供利用的特征一般包括運動特征和外觀特征。當(dāng)前眾多跟蹤模型強依賴于外觀模型提取物體特征,區(qū)分不同物體實例,在視頻的不同幀間關(guān)聯(lián)物體。然而外觀特征并不總是有效的,如果追蹤物體的外觀基本一致時,現(xiàn)有模型的的表現(xiàn)如何?同時,當(dāng)前主流多物體追蹤數(shù)據(jù)集中物體的運動模式非常簡單,近乎勻速直線運動,如果物體的運動模式非常復(fù)雜,多個物體互相來回穿梭,現(xiàn)有模型的的表現(xiàn)如何?實驗結(jié)果顯示現(xiàn)有模型在 DanceTrack 數(shù)據(jù)集上的性能遠(yuǎn)低于其他數(shù)據(jù)集,揭示了現(xiàn)有方法在統(tǒng)一外觀和多樣運動場景下的局限性。我們期待 DanceTrack 能夠啟發(fā)后續(xù)的多物體追蹤方法。

        arXiv: https://arxiv.org/abs/2111.14690
        github: https://github.com/DanceTrack/DanceTrack




        XMP-Font: 基于自監(jiān)督跨模態(tài)預(yù)訓(xùn)練模型的少樣本字體生成

        XMP-Font: Self-Supervised Cross-Modality Pre-training for Few-Shot Font Generation

        這篇論文來自字節(jié)跳動智能創(chuàng)作團(tuán)隊。

        論文主要研究通過理解漢字書寫基本筆畫之間的復(fù)雜關(guān)系,來保證生成字體的質(zhì)量。


        作者提出了一種基于自監(jiān)督跨模態(tài)預(yù)訓(xùn)練模型的少樣本字體生成算法。

        首先在預(yù)訓(xùn)練階段,預(yù)訓(xùn)練一個基于 BERT 的跨模態(tài)特征提取模型,通過重建損失和筆畫預(yù)測損失,保證在不損失信息的情況下,讓提取到的字體特征充分理解筆畫之間的關(guān)系。之后,通過預(yù)訓(xùn)練好的特征提取器分別提取源域字和參考字的特征,并進(jìn)行解耦重組,最終生成和參考字形相同字體的源域字。

        此外,作者在字體生成階段提出針對漢字的 stroke loss,進(jìn)一步提高了生成質(zhì)量。

        通過實驗的量化指標(biāo)和問卷調(diào)研的結(jié)果表明,這篇論文提出的 XMP-Font 優(yōu)于其他 SOTA 方法。

        arXiv: https://arxiv.org/abs/2204.05084





        多尺度特征融合Transformer

        Shunted Self-Attention via Multi-Scale Token Aggregation

        這是一篇 CVPR Oral Presentation 論文,由字節(jié)跳動智能創(chuàng)作團(tuán)隊與新加坡國立大學(xué)、華南理工大學(xué)合作完成。

        文章提出了一種新的多尺度自注意力機制:在每一層進(jìn)行 correlation 學(xué)習(xí)的時候, 賦予不同 token 不同的感受野,進(jìn)而學(xué)習(xí)到不同尺度 semantics 之間的相關(guān)性。


        這篇論文的多尺度信息是并行存在于同一個 block 的 input token 上的, 而不是通過傳遞不同 block 之間的 token 進(jìn)行融合。因此方法在?COCO 等包含不同大小物體的數(shù)據(jù)集上性能優(yōu)勢尤為明顯,對比 SWIN transformer,在模型內(nèi)存和計算量類似的情況下,可達(dá)到 3-4% mAP 的性能提升。

        arXiv: https://arxiv.org/abs/2111.15193
        GitHub: https://github.com/oliverrensu/shunted-transformer




        TransMix: 幾行代碼幫助Vision Transformer無痛漲點

        TransMix: Attend to Mix for Vision Transformers

        這篇工作由字節(jié)跳動商業(yè)化技術(shù)團(tuán)隊與約翰霍普金斯大學(xué)、牛津大學(xué)合作完成。
        基于 Mixup 的數(shù)據(jù)增強已經(jīng)被證明在訓(xùn)練過程中對模型進(jìn)行泛化是有效的,特別是對于 Vision transformer(ViT),因為它們很容易過擬合。

        然而,以往基于 Mixup 的方法有一個潛在的先驗知識,即目標(biāo)的線性插值比率應(yīng)該與輸入插值中提出的比率保持一致。這可能會導(dǎo)致一種奇怪的現(xiàn)象,有時由于增廣的隨機過程,Mixup 圖像中沒有有效的對象,但標(biāo)簽空間中仍然有響應(yīng)。

        為了彌補輸入空間和標(biāo)簽空間之間的差距,本文提出了 TransMix,它基于 Vision transformer 的Attention Map mix labels。Attention Map 對相應(yīng)輸入圖像的加權(quán)越高,標(biāo)簽的置信度越大。


        TransMix 非常簡單,只需幾行代碼就可以實現(xiàn),且無需向基于 ViT 的模型引入任何額外的參數(shù)和計算量,可以完全無痛地幫助各種基于ViT 的模型性能在多個不同任務(wù)(分類,檢測,分割及魯棒性)和數(shù)據(jù)集上大幅提升。


        arXiv: https://arxiv.org/abs/2111.09833
        Github: https://github.com/Beckschen/TransMix



        基于壓縮域的端到端通用事件表示學(xué)習(xí)

        End-to-End Compressed Video Representation Learning for Generic Event Boundary Detection

        這篇工作由字節(jié)跳動智能創(chuàng)作團(tuán)隊和中國科學(xué)院大學(xué)、中國科學(xué)院軟件研究所共同完成。

        傳統(tǒng)的視頻處理算法需要對視頻進(jìn)行解碼,在解碼后的 RGB 幀上進(jìn)行訓(xùn)練和推理。然而視頻解碼本身需要占用比較可觀的計算資源,并且視頻相鄰幀之間包含了大量的冗余信息。

        另外在視頻編碼格式中的運動向量(Motion Vector)和殘差(Residual)包含了視頻的運動信息,這些信息能夠為更好地理解視頻提供更多幫助。

        基于上述兩點考慮,文章提出了一種在視頻壓縮域(Compressed Domain)上進(jìn)行端到端通用事件檢測(GEBD)的解決方案,希望能夠使用視頻壓縮域上的解碼中間信息來對非關(guān)鍵幀進(jìn)行快速高質(zhì)量的特征提取。

        為此,論文提出了 SCCP(Spatial Channel Compressed Encoder)模塊。對于關(guān)鍵幀,在完全解碼后使用常規(guī)骨干網(wǎng)絡(luò)提取特征;對于非關(guān)鍵幀,通過使用運動向量和殘差以及對應(yīng)的關(guān)鍵幀特征在輕量級的網(wǎng)絡(luò)上提取非關(guān)鍵幀的高質(zhì)量特征;同時利用 Temporal Contrasitive 模塊實現(xiàn)端到端的訓(xùn)練和推理。

        實驗證明在保持和傳統(tǒng)完全解碼方法精度相同的前提下,我們的方法在模型上的提速 4.5 倍。


        arXiv: https://arxiv.org/abs/2203.15336



        模仿oracle:通過初始階段的表征去相關(guān)性來提升類增量學(xué)習(xí)

        Mimicking the Oracle: An Initial Phase Decorrelation Approach for Class Incremental Learning

        這篇工作由字節(jié)跳動智能創(chuàng)作團(tuán)隊與新加坡國立大學(xué)、中科院自動化所、牛津大學(xué)合作完成。

        本文主要研究了 class incremental learning,即類增量學(xué)習(xí)。最終的學(xué)習(xí)目標(biāo)是希望通過階段式的學(xué)習(xí)(phase-by-phase learning)能夠得到一個與 joint training 性能匹配的模型。

        一個分為多個階段的類增量學(xué)習(xí)過程可以分成兩個部分,即 initial phase(第一個學(xué)習(xí)階段)與 later phase(除第一個學(xué)習(xí)階段后面所有的學(xué)習(xí)階段)。先前的工作不會對 initial phase 做特殊處理,而是在 later phase 對模型進(jìn)行正則化來減輕遺忘。但是在這篇工作中,作者們發(fā)現(xiàn) initial phase 在類增量學(xué)習(xí)的過程中同樣關(guān)鍵。

        作者們通過可視化發(fā)現(xiàn),一個僅在 initial phase 訓(xùn)練得到的模型與 joint training 的 oracle model 輸出的表征的最大區(qū)別是:initial-phase-model 的 representation 的分布只會集中在 representation space 的一個狹長的區(qū)域,而 oracle model 的 representation 將較為均勻的分布于各個方向。


        因此,作者們提出了一個新穎的正則項:Class-wise Decorrelation(CwD),只作用于 initial phase 的訓(xùn)練過程,使 initial phase 學(xué)習(xí)得到的模型的 representation 在空間中的分布能夠在各個方向更加均勻,從而能夠與 oracle model 更加相似。CwD 正則項能夠?qū)σ酝?SOTA 類增量學(xué)習(xí)方法有約 1%~3% 的提升。

        arXiv: https://arxiv.org/abs/2112.04731
        code: https://github.com/Yujun-Shi/CwD



        DINE: 基于單個或者多個黑盒源模型的域自適應(yīng)

        DINE: Domain Adaptation from Single and Multiple Black-box Predictors

        這篇工作由字節(jié)跳動智能創(chuàng)作團(tuán)隊與中科院自動化所、新加坡國立大學(xué)合作完成。

        論文作者提出了一種只需要預(yù)訓(xùn)練好的黑盒源域模型就可以有效進(jìn)行無監(jiān)督視覺域自適應(yīng)的方法。不同于以往的基于源域數(shù)據(jù)或者白盒源域模型的域自適應(yīng),在黑盒域自適應(yīng)問題中,只有源域模型的預(yù)測可見。

        作者提出了先蒸餾再微調(diào)的方法(DINE) 來解決這一問題。在蒸餾階段,作者利用自適應(yīng)標(biāo)簽平滑的策略,只需要源模型的前 k 個預(yù)測值,即可得到有效的偽標(biāo)簽,用于單個樣本的知識蒸餾。此外,作者利用樣本混合策略來實現(xiàn)樣本之間隨機插值的一致正則化,以及利用互信息最大化實現(xiàn)對于全局樣本的正則化。為了能學(xué)到更適合目標(biāo)域數(shù)據(jù)的模型,作者在微調(diào)階段只利用互信息最大化對蒸餾之后的模型進(jìn)行微調(diào)。

        DINE 可以利用單個或多個源模型,保護(hù)了源域的信息安全,且不要求跨域的網(wǎng)絡(luò)結(jié)構(gòu)一致,能針對目標(biāo)域的計算資源情況實現(xiàn)簡單而有效的自適應(yīng)。在多個場景如單源、多源和部分集域自適應(yīng)上的實驗結(jié)果證實,與基于源域數(shù)據(jù)的域自適應(yīng)方法相比,DINE 均獲得了極具競爭力的性能。


        arXiv: https://arxiv.org/abs/2104.01539
        github: https://github.com/tim-learn/DINE



        NightLab: 基于檢測的雙層結(jié)構(gòu)耦合的夜景分割方法

        NightLab: A Dual-level Architecture with Hardness Detection for Segmentation at Night

        這篇工作由字節(jié)跳動智能創(chuàng)作團(tuán)隊和加州大學(xué)美熹徳分校合作完成。

        這篇論文主要研究夜景的語義分割問題,作者提出了一種集成多種深度學(xué)習(xí)模塊的夜景分割方法?NightLab,具有更好夜間感知和分析能力,主要包含兩種顆粒度級別的模型,即全圖和區(qū)域級別,每個級別的模型都是由光適應(yīng)和分割模塊構(gòu)成的。給定夜間圖像,全圖級別的模型會提供一個初始分割結(jié)果,同時,NightLab 會用到檢測的模型去提供一些圖中比較難識別的區(qū)域。這些難識別的區(qū)域?qū)?yīng)的圖像,會被區(qū)域級別的模型進(jìn)行進(jìn)一步的分析。區(qū)域級模型會專注于這些難識別的區(qū)域去改善分割結(jié)果。NightLab 中的所有模型都是端到端訓(xùn)練的。


        作者通過實驗證明,NightLab 在 NightCity 和 BDD100K 公開數(shù)據(jù)集中達(dá)到了 SOTA。

        arXiv: https://arxiv.org/abs/2204.05538




        基于知識蒸餾的高效預(yù)訓(xùn)練

        Knowledge Distillation as Efficient Pre-training: Faster Convergence, Higher Data-efficiency, and Better Transferability

        這篇工作由字節(jié)跳動商業(yè)化技術(shù)團(tuán)隊與香港大學(xué)、牛津大學(xué)合作完成。

        大規(guī)模的預(yù)訓(xùn)練已被證明對廣泛的計算機視覺任務(wù)都十分關(guān)鍵,能夠帶來顯著的漲點;然而,隨著預(yù)訓(xùn)練數(shù)據(jù)量的增大,私有數(shù)據(jù)的出現(xiàn),模型結(jié)構(gòu)的多樣化,將所有的模型結(jié)構(gòu)都在大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,變得昂貴、低效、不實際。

        研究者們思考:是否一個已經(jīng)在大量數(shù)據(jù)上預(yù)訓(xùn)練好的模型已經(jīng)提取了大量數(shù)據(jù)的知識,并且可以僅通過少部分預(yù)訓(xùn)練數(shù)據(jù),將其高效快速的傳遞給一個新的模型?

        進(jìn)而,研究者們提出通過知識蒸餾來實現(xiàn)高效模型預(yù)訓(xùn)練。他們發(fā)現(xiàn),傳統(tǒng)的知識蒸餾由于在分類的 logits 上進(jìn)行蒸餾,而這些分類的 logits 并不會被利用到下游遷移任務(wù)中,因此并不適合于預(yù)訓(xùn)練需要的特征學(xué)習(xí)。對此,研究者們提出一種基于無額外參數(shù)特征維度對齊的純特征蒸餾方法。


        采用所提出的方法,僅使用 1/10 的預(yù)訓(xùn)練數(shù)據(jù)和 1/5 的預(yù)訓(xùn)練時間,就可以達(dá)到有監(jiān)督預(yù)訓(xùn)練的遷移效果(在圖像分類、語義分割、目標(biāo)檢測任務(wù)上評估遷移效果)。

        arXiv: https://arxiv.org/abs/2203.05180
        Github: https://github.com/CVMI-Lab/KDEP



        傅里葉文檔矯正

        Fourier Document Restoration for Robust Document Dewarping and Recognition

        這篇工作由字節(jié)跳動商業(yè)化技術(shù)團(tuán)隊與新加坡南洋理工大學(xué)合作完成。

        現(xiàn)有的文檔矯正方法大多利用圖片生成技術(shù)來模擬形變文檔,從而學(xué)習(xí)并預(yù)測文檔的 3D 信息并進(jìn)行矯正。由于合成圖片與真實圖片 domain gap 較大,這樣訓(xùn)練出來的網(wǎng)絡(luò)在真實圖片上泛化能力較差。

        我們提出一種可以直接在少量真實數(shù)據(jù)上進(jìn)行訓(xùn)練的文檔矯正方法 FDRNet。對于文檔圖片,文本內(nèi)容通常由傅里葉空間中的高頻信息組成,而文檔背景則由低頻信息組成。基于這一特性,F(xiàn)DRNet 在訓(xùn)練過程當(dāng)中只關(guān)注于文檔圖片的高頻信息并且忽略低頻信息,從而利用文檔的文本特征(而不是文檔的 3D 信息)來矯正文檔圖片。這樣使得 FDRNet 在訓(xùn)練過程當(dāng)中不需要復(fù)雜的文檔 3D ground-truth,而是可以直接利用現(xiàn)有的文檔圖片直接進(jìn)行訓(xùn)練。FDRNet 用百分之一量級的真實圖片訓(xùn)練即可達(dá)到 SOTA 效果,并且對于任意形變的文檔矯正效果更佳。


        arXiv: https://arxiv.org/abs/2203.09910



        猜您喜歡:

        ?戳我,查看GAN的系列專輯~!
        一頓午飯外賣,成為CV視覺前沿弄潮兒!
        CVPR 2022 | 25+方向、最新50篇GAN論文
        ?ICCV 2021 | 35個主題GAN論文匯總
        超110篇!CVPR 2021最全GAN論文梳理
        超100篇!CVPR 2020最全GAN論文梳理


        拆解組新的GAN:解耦表征MixNMatch

        StarGAN第2版:多域多樣性圖像生成


        附下載 |?《可解釋的機器學(xué)習(xí)》中文版

        附下載 |《TensorFlow 2.0 深度學(xué)習(xí)算法實戰(zhàn)》

        附下載 |《計算機視覺中的數(shù)學(xué)方法》分享


        《基于深度學(xué)習(xí)的表面缺陷檢測方法綜述》

        《零樣本圖像分類綜述: 十年進(jìn)展》

        《基于深度神經(jīng)網(wǎng)絡(luò)的少樣本學(xué)習(xí)綜述》


        瀏覽 361
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            亚洲va在线 | 日韩欧美一区视频 | 男女免费在线观看 | 国产高潮又粗又猛精品影院 | 爱爱无码视频 | 国产肏逼| 女优爱爱视频 | 亚洲一级A片毛毛aA片18 日韩无码中文字幕电影 | 欧美一级AAAAABBBBB | 处破初破苞一区二区三区动漫 |