CVPR2021目標(biāo)檢測(cè) | 通過可微分神經(jīng)渲染數(shù)據(jù)增強(qiáng)(附github源碼及論文下載)
在不改變監(jiān)督學(xué)習(xí)范式的情況下,我們引入了一種離線目標(biāo)保護(hù)離線數(shù)據(jù)增強(qiáng)方法,該方法在語義上用新的視圖插入訓(xùn)練數(shù)據(jù)。具體地說,提出的系統(tǒng)基于可微神經(jīng)渲染生成訓(xùn)練圖像的可控視圖,以及相應(yīng)的不涉及人工干預(yù)的邊界框注釋。
首先,在估計(jì)深度映射的同時(shí),提取并投影出與像素對(duì)齊的圖像特征到點(diǎn)云中。然后,用一個(gè)目標(biāo)相機(jī)的姿勢(shì)重新投影它們,并渲染一個(gè)新的視圖2d圖像。以關(guān)鍵點(diǎn)形式出現(xiàn)的目標(biāo)會(huì)在點(diǎn)云中進(jìn)行標(biāo)記,以恢復(fù)新視圖中的注釋。它完全兼容在線數(shù)據(jù)增強(qiáng)方法,如仿射變換、圖像混合等。
廣泛的實(shí)驗(yàn)表明,新方法作為一種免費(fèi)的工具來豐富圖像和標(biāo)簽,可以顯著提高訓(xùn)練數(shù)據(jù)稀缺的目標(biāo)檢測(cè)系統(tǒng)的性能。

2、相關(guān)工作
Data Augmentation
數(shù)據(jù)增強(qiáng)是緩解數(shù)據(jù)稀缺問題的一種強(qiáng)大方法,因?yàn)樵鰪?qiáng)數(shù)據(jù)將代表一組潛在的更全面的數(shù)據(jù)點(diǎn),縮小訓(xùn)練和測(cè)試集之間的差距。通常,這些方法可以分為data warping和oversampling。data warping增強(qiáng)轉(zhuǎn)換現(xiàn)有的圖像,同時(shí)保留標(biāo)簽。oversampling增強(qiáng)創(chuàng)建合成實(shí)例以添加到訓(xùn)練集中,通常用于重新采樣不平衡的類分布。方法也可以分為在線和離線,這取決于何時(shí)發(fā)生增強(qiáng)過程。
Neural Rendering
在認(rèn)知計(jì)算機(jī)視覺領(lǐng)域,大多數(shù)現(xiàn)有的任務(wù)都與感知有關(guān),即從圖像、視頻或三維點(diǎn)云感知信息。這是一個(gè)二維或三維推理的過程。典型的任務(wù)包括目標(biāo)檢測(cè)、人體姿態(tài)估計(jì)、分割、三維形狀估計(jì)等。在計(jì)算機(jī)圖形領(lǐng)域中,渲染是由幾何、材料、光源和攝像機(jī)屬性定義的三維場(chǎng)景的圖像生成過程。
神經(jīng)渲染的目的是彌合2D和3D處理方法之間的差距,允許神經(jīng)網(wǎng)絡(luò)在2D投影上操作時(shí)優(yōu)化3D實(shí)體??晌⑸窠?jīng)渲染的應(yīng)用包括:新穎的視圖合成、語義照片操作、面部和身體重構(gòu)、再照明、自由視點(diǎn)視頻或簡(jiǎn)單地生成高質(zhì)量的圖像。
新提出的增強(qiáng)方法是受新穎視圖綜合的啟發(fā),它與在線數(shù)據(jù)增強(qiáng)方法完全兼容,并且可以結(jié)合在一起,以新的語義進(jìn)一步增加數(shù)據(jù)集。在【C. Bowles, L. Chen, R. Guerrero, P. Bentley, R. Gunn, A. Hammers, D. A. Dickie, M. V. Herna ?ndez, J. Wardlaw, and D. Rueckert, “Gan augmentation: Augmenting training data using generative adversarial networks,” arXiv preprint arXiv:1810.10863, 2018.】中,GAN被描述為一種從數(shù)據(jù)集“unlock”附加信息的方法。通過神經(jīng)渲染,進(jìn)一步以高度可控的方式解鎖數(shù)據(jù)集信息。數(shù)據(jù)的插值是非線性的,在3D中提供了新的空間語義,這對(duì)于目標(biāo)檢測(cè)任務(wù)是非常有價(jià)值的。
3、新框架

對(duì)DANR系統(tǒng)的概述如下圖所示。該系統(tǒng)的目的是用新的視圖圖像來增強(qiáng)目標(biāo)檢測(cè)數(shù)據(jù)集,以提高目標(biāo)檢測(cè)器的性能。增強(qiáng)圖像的數(shù)量和相機(jī)姿態(tài)的變化的程度都是可控的。該系統(tǒng)的核心是建立在一個(gè)新的視圖合成模型之上,如上圖所示。該模型以一個(gè)RGB圖像I和一系列2D圖像關(guān)鍵點(diǎn)Bi(表示邊界框注釋)作為輸入。
DANR
詳細(xì)描述了數(shù)據(jù)增強(qiáng)系統(tǒng)。首先,列出了使用的最先進(jìn)的網(wǎng)絡(luò)和特定的設(shè)置。然后介紹了點(diǎn)云投影過程以及如何自動(dòng)匹配目標(biāo)視圖中注釋的生成。最后描述了用于訓(xùn)練整個(gè)系統(tǒng)的損失。
Networks.
使用hourglass network作為深度電子計(jì)時(shí)器,因?yàn)檫@種類似UNet結(jié)構(gòu)在探索跨多個(gè)尺度的全局方面被證明是有利的。估計(jì)一個(gè)像素的深度需要理解全局特征和局部特征,這對(duì)感知相對(duì)深度很重要。疊加了兩個(gè)4層hourglass network,最大頻道數(shù)為256。在最后一個(gè)卷積層上使用了一個(gè)1×1濾波器來生成深度貼圖。對(duì)于點(diǎn)投射后的特征提取器網(wǎng)絡(luò)工作和細(xì)化網(wǎng)絡(luò),繼續(xù)使用Encoder-Decoder networks,但做了一些修改:(1)當(dāng)輸入分辨率設(shè)置為512×512時(shí),將特征通道減少到64;(2)用inception-resnet替換了basic resnet block,因?yàn)樘卣鞯倪B接進(jìn)一步鞏固了表達(dá)能力。

Loss.

其他內(nèi)容請(qǐng)自行閱讀論文!
4、實(shí)驗(yàn)結(jié)論





?------------------------------------------------
歡迎微信搜索并關(guān)注「目標(biāo)檢測(cè)與深度學(xué)習(xí)」,不被垃圾信息干擾,只分享有價(jià)值知識(shí)!
10000+人已加入目標(biāo)檢測(cè)與深度學(xué)習(xí)
![]()
![]()
敬最努力的我們! 
