【導(dǎo)讀】大家好,我是泳魚(yú)。一個(gè)樂(lè)于探索和分享AI知識(shí)的碼農(nóng)!今天給大家?guī)?lái)一篇關(guān)于小樣本目標(biāo)檢測(cè)的研究綜述。本文從小樣本目標(biāo)檢測(cè)任務(wù)和問(wèn)題、學(xué)習(xí)策略、檢測(cè)方法、數(shù)據(jù)集與實(shí)驗(yàn)等角度出發(fā),對(duì)當(dāng)前小樣本目標(biāo)檢測(cè)的研究成果加以梳理和總結(jié)。希望這篇文章能對(duì)你有所幫助,讓你在學(xué)習(xí)和應(yīng)用AI技術(shù)的道路上更進(jìn)一步!
小樣本目標(biāo)檢測(cè)(Few-shot Object Detection, FSOD)旨在通過(guò)少量標(biāo)注樣本實(shí)現(xiàn)對(duì)圖像中目標(biāo)的分類(lèi)和定位。從概念上來(lái)講,小樣本目標(biāo)檢測(cè)是指在帶有大量注釋信息的基類(lèi)數(shù)據(jù)集上訓(xùn)練得到基類(lèi)檢測(cè)模型,僅利用極少標(biāo)注的新類(lèi)數(shù)據(jù)集和基類(lèi)模型提供的先驗(yàn)知識(shí)實(shí)現(xiàn)對(duì)新類(lèi)的檢測(cè),如圖 1 所示
圖1 小樣本目標(biāo)檢測(cè)示意圖
圖 2 從數(shù)據(jù)流向的角度展示了小樣本目標(biāo)檢測(cè)及其相似任務(wù)之間的區(qū)別與聯(lián)系
圖2 小樣本目標(biāo)檢測(cè)及其相似任務(wù)的區(qū)別與聯(lián)系
2 小樣本目標(biāo)檢測(cè)中的關(guān)鍵問(wèn)題
小樣本目標(biāo)檢測(cè)中的三個(gè)核心問(wèn)題:過(guò)擬合、域偏移和數(shù)據(jù)及分布偏差。
過(guò)擬合。小樣本目標(biāo)檢測(cè)的核心問(wèn)題之一是過(guò)擬合。當(dāng)新類(lèi)數(shù)據(jù)與基類(lèi)數(shù)據(jù)屬于同域,且新類(lèi)別僅有少量的訓(xùn)練樣本可用,同時(shí)還需考慮目標(biāo)的分類(lèi)和定位任務(wù)時(shí),在訓(xùn)練深度檢測(cè)模型時(shí)極易造成模型過(guò)擬合,使訓(xùn)練良好的檢測(cè)模型在新類(lèi)數(shù)據(jù)集上性能較差,從而導(dǎo)致模型的泛化能力不足和魯棒性差等問(wèn)題。換言之,小樣本數(shù)據(jù)集與模型復(fù)雜度間的高度不匹配導(dǎo)致了模型訓(xùn)練問(wèn)題,因此,如何在小樣本條件下進(jìn)行模型訓(xùn)練,降低模型的學(xué)習(xí)難度,進(jìn)一步增強(qiáng)模型的泛化性能成為當(dāng)前小樣本檢測(cè)技術(shù)發(fā)展的難點(diǎn)之一。
域偏移。目前,小樣本目標(biāo)檢測(cè)方法通常是借助大規(guī)?;?lèi)數(shù)據(jù)集來(lái)學(xué)習(xí)通用知識(shí),同時(shí)將這些知識(shí)遷移至新任務(wù)的學(xué)習(xí)中。然而,當(dāng)源域和目標(biāo)域數(shù)據(jù)具有不同的數(shù)據(jù)分布時(shí),可能出現(xiàn)域偏移問(wèn)題。域偏移是指源域訓(xùn)練的模型在應(yīng)用于具有不同統(tǒng)計(jì)量的目標(biāo)域時(shí)表現(xiàn)不佳,屬于異構(gòu)遷移學(xué)習(xí)的范疇。具體而言,當(dāng)源域的基類(lèi)與目標(biāo)域的新類(lèi)數(shù)據(jù)間存在較大的域差異,且二者共享的知識(shí)較少時(shí),將基類(lèi)訓(xùn)練的模型作為知識(shí)遷移至新類(lèi)時(shí)很可能出現(xiàn)負(fù)遷移,從而導(dǎo)致模型對(duì)新任務(wù)的檢測(cè)性能不佳,這就是通常所說(shuō)的域偏移問(wèn)題。因此,如何利用先驗(yàn)知識(shí)彌補(bǔ)樣本數(shù)據(jù)量不足問(wèn)題,是當(dāng)前研究面臨的巨大挑戰(zhàn)之一。與此同時(shí),構(gòu)建小樣本下的檢測(cè)模型,需綜合考慮合適的先驗(yàn)知識(shí)和遷移策略,因此,如何有效地將源域知識(shí)遷移并泛化至目標(biāo)域有待進(jìn)步探索。
數(shù)據(jù)及分布偏差。數(shù)據(jù)集本質(zhì)上是從數(shù)據(jù)分布中觀(guān)察到的樣本集合。然而,當(dāng)訓(xùn)練樣本數(shù)量不充足時(shí),數(shù)據(jù)的多樣性降低,導(dǎo)致數(shù)據(jù)偏差及分布偏差等問(wèn)題。與大規(guī)模的數(shù)據(jù)集相比,有限的訓(xùn)練數(shù)據(jù)會(huì)放大數(shù)據(jù)集中的噪聲,造成數(shù)據(jù)偏差,比如對(duì)于相同類(lèi)別的圖像存在較大的類(lèi)內(nèi)變化,不同類(lèi)別的圖像間的距離較小等等。而且,因目標(biāo)域樣本極其有限,無(wú)法準(zhǔn)確地表征目標(biāo)域的真實(shí)數(shù)據(jù)分布,導(dǎo)致目標(biāo)域類(lèi)別間及類(lèi)別與背景間相互混淆,從而影響模型的檢測(cè)精度。因此,如何提升訓(xùn)練數(shù)據(jù)的多樣性,降低分類(lèi)混淆,進(jìn)而保證小樣本檢測(cè)模型的穩(wěn)定性具有很大的研究空間。擴(kuò)展閱讀:機(jī)器學(xué)習(xí)數(shù)據(jù)不滿(mǎn)足同分布,怎么整?
3 小樣本目標(biāo)檢測(cè)學(xué)習(xí)策略
針對(duì)小樣本下的模型訓(xùn)練問(wèn)題,當(dāng)前的小樣本目標(biāo)檢測(cè)方法通?;谌蝿?wù)的episode訓(xùn)練策略和基于數(shù)據(jù)驅(qū)動(dòng)的訓(xùn)練策略這兩種學(xué)習(xí)策略。
基于任務(wù)的 episode 訓(xùn)練策略。基于任務(wù)的 episode 訓(xùn)練策略以任務(wù)為基本單元,每個(gè)任務(wù)的數(shù)據(jù)集分為支持集和查詢(xún)集,其目標(biāo)是從大量訓(xùn)練任務(wù)中獲取先驗(yàn)知識(shí),從而能夠通過(guò)少量數(shù)據(jù)在新任務(wù)中更快地學(xué)習(xí)。整個(gè)訓(xùn)練過(guò)程可分為元訓(xùn)練和元測(cè)試兩個(gè)階段,在元訓(xùn)練階段,通過(guò)組合不同的訓(xùn)練集構(gòu)建不同的元任務(wù),使得模型學(xué)習(xí)獨(dú)立于任務(wù)的泛化能力;在元測(cè)試階段,模型不需要重新訓(xùn)練或僅需少量迭代次數(shù)即可學(xué)習(xí)新任務(wù),最終實(shí)現(xiàn)“學(xué)會(huì)學(xué)習(xí)”。在訓(xùn)練過(guò)程中,模型通過(guò)支持集中的樣本進(jìn)行學(xué)習(xí),然后在查詢(xún)集中進(jìn)行測(cè)試和評(píng)估。圖3展示了 2-way 3-shot 任務(wù)的訓(xùn)練范式。
圖3 基于任務(wù)的 episode 訓(xùn)練策略
該策略的優(yōu)點(diǎn)在于能夠快速獲取先驗(yàn)知識(shí),從而在新任務(wù)中更快地學(xué)習(xí),但其要求所有任務(wù)滿(mǎn)足同分布,其任務(wù)的設(shè)計(jì)可能限制了模型的學(xué)習(xí)能力。
基于數(shù)據(jù)驅(qū)動(dòng)的訓(xùn)練策略。基于數(shù)據(jù)驅(qū)動(dòng)的訓(xùn)練策略任務(wù),采用“預(yù)訓(xùn)練微調(diào)”的訓(xùn)練范式,直接針對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練,在具有大量注釋的基類(lèi)數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練獲得基類(lèi)檢測(cè)模型,在小樣本數(shù)據(jù)集上進(jìn)行微調(diào)泛化至新類(lèi)。在訓(xùn)練過(guò)程中,模型通過(guò)批量數(shù)據(jù)進(jìn)行學(xué)習(xí),然后在小的數(shù)據(jù)集上通過(guò)微調(diào)實(shí)現(xiàn)模型的可遷移性,使其泛化至新任務(wù)。圖4展示了基于數(shù)據(jù)驅(qū)動(dòng)的訓(xùn)練策略。

圖4 基于數(shù)據(jù)驅(qū)動(dòng)的訓(xùn)練策略
該策略的優(yōu)點(diǎn)在于能夠通過(guò)數(shù)據(jù)增強(qiáng)等方式增加數(shù)據(jù)的多樣性,提高模型的泛化能力,但其需要大量的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,且可能存在過(guò)擬合的問(wèn)題。
從工作原理的角度出發(fā),我們將小樣本目標(biāo)檢測(cè)方法分為基于元學(xué)習(xí)的方法、基于遷移學(xué)習(xí)的方法、基于數(shù)據(jù)增強(qiáng)的方法以及基于度量學(xué)習(xí)的方法四類(lèi)。表 1 對(duì)這四類(lèi)方法進(jìn)行了簡(jiǎn)要地概括和對(duì)比。
表 1 四種小樣本目標(biāo)檢測(cè)方法算法的對(duì)比分析

基于元學(xué)習(xí)的方法核心思想是通過(guò)模擬一系列相似的小樣本任務(wù),將先驗(yàn)知識(shí)從注釋豐富的基類(lèi)遷移至數(shù)據(jù)匱乏的新類(lèi)之上,以應(yīng)對(duì)樣本數(shù)量不足的問(wèn)題。元學(xué)習(xí)方法以任務(wù)為單元進(jìn)行訓(xùn)練,通過(guò)任務(wù)和數(shù)據(jù)的雙重采樣來(lái)設(shè)計(jì)不同的小樣本任務(wù),使其能夠利用少量的支持集樣本快速更新模型參數(shù),最終在特定任務(wù)下僅需少量迭代即可快速泛化至新任務(wù),不需要進(jìn)一步微調(diào)?;谠獙W(xué)習(xí)的方法在小樣本目標(biāo)檢測(cè)中取得了一定的成果,但是其設(shè)計(jì)較為困難,且在學(xué)習(xí)迭代過(guò)程中易出現(xiàn)不收斂問(wèn)題。
圖5將Faster RCNN作為基礎(chǔ)檢測(cè)模型,構(gòu)建了基于元學(xué)習(xí)的小樣本目標(biāo)檢測(cè)框架。該框架通常采用并行結(jié)構(gòu),整個(gè)流程包括元訓(xùn)練和元測(cè)試兩個(gè)階段。
圖5 基于元學(xué)習(xí)的兩階段小樣本目標(biāo)檢測(cè)框架
4.2 基于遷移學(xué)習(xí)的方法
基于遷移學(xué)習(xí)的方法與基于元學(xué)習(xí)的方法不同,基于遷移學(xué)習(xí)的方法不需要設(shè)計(jì)訓(xùn)練任務(wù),而是通過(guò)微調(diào)的方式將基類(lèi)訓(xùn)練的檢測(cè)模型遷移至新類(lèi)。該方法不需要任務(wù)間存在很強(qiáng)的關(guān)聯(lián)性,且更強(qiáng)調(diào)在遷移的新任務(wù)上的性能,但依然存在諸多挑戰(zhàn)與難點(diǎn)?;谶w移學(xué)習(xí)的方法在小樣本目標(biāo)檢測(cè)中也取得了一定的成果,但是需要解決的問(wèn)題包括如何減少目標(biāo)混淆、增強(qiáng)新類(lèi)特征表示、保持基類(lèi)的性能等。
圖6以?xún)呻A段檢測(cè)模型為基礎(chǔ),構(gòu)建了基于遷移學(xué)習(xí)的小樣本目標(biāo)檢測(cè)框架該框架分為基類(lèi)訓(xùn)練和小樣本微調(diào)兩個(gè)階段。
圖 6 基于遷移學(xué)習(xí)的兩階段小樣本檢測(cè)框架
4.3 基于數(shù)據(jù)增強(qiáng)的方法
基于數(shù)據(jù)增強(qiáng)的方法旨在通過(guò)生成更多新類(lèi)樣本、增強(qiáng)新類(lèi)特征表示或?yàn)槟P吞峁┢渌畔⒌确绞?,克服?xùn)練樣本短缺的局限性。對(duì)于目標(biāo)檢測(cè)任務(wù)而言,可以采用兩種數(shù)據(jù)增強(qiáng)方式:一是不改變標(biāo)注框的增強(qiáng)方式,如色彩變換、高斯噪聲以及彈性變換等等;二是改變標(biāo)注框的增強(qiáng)方式,如裁剪變換、旋轉(zhuǎn)變換以及鏡像變換等。在小樣本目標(biāo)檢測(cè)中,數(shù)據(jù)增強(qiáng)方法可以提升數(shù)據(jù)及分布的多樣性,從而提高模型的泛化能力。目前,一些工作從如何生成更多示例的角度展開(kāi)研究,而另一些工作則從未標(biāo)記/弱標(biāo)記的圖像或語(yǔ)義信息中,如何為模型提供額外的先驗(yàn)知識(shí)的角度出發(fā)展開(kāi)研究,提出了一系列創(chuàng)新性方法,并取得了令人可喜的研究成果。
圖 7展示了基于Faster RCNN模型的基于數(shù)據(jù)增強(qiáng)的小樣本目標(biāo)檢測(cè)方法。當(dāng)前方法分為三類(lèi):樣本與特征空間增強(qiáng)、引入未標(biāo)記或弱標(biāo)記數(shù)據(jù)及引入額外的語(yǔ)義信息。
圖 7 基于數(shù)據(jù)增強(qiáng)的小樣本檢測(cè)方法
基于度量學(xué)習(xí)的方法核心思想是將小樣本目標(biāo)檢測(cè)視為小樣本分類(lèi)問(wèn)題,通過(guò)學(xué)習(xí)比較的思想,在小樣本圖像分類(lèi)任務(wù)下取得了良好的性能。該類(lèi)方法主要從支持集圖像的類(lèi)原型表示、度量機(jī)制的實(shí)現(xiàn)以及損失函數(shù)設(shè)計(jì)等三個(gè)角度分別進(jìn)行改進(jìn)。然而,不能簡(jiǎn)單地將小樣本分類(lèi)中的度量方法直接應(yīng)用于小樣本目標(biāo)檢測(cè)中,其原因在于檢測(cè)模型需要知道潛在目標(biāo)區(qū)域才能進(jìn)行比較。因此,基于度量學(xué)習(xí)的小樣本目標(biāo)檢測(cè)方法需要在度量學(xué)習(xí)的基礎(chǔ)上,進(jìn)一步考慮如何捕捉目標(biāo)區(qū)域的信息,以提高檢測(cè)性能。
圖 8 給出了基于度量學(xué)習(xí)的小樣本目標(biāo)檢測(cè)框架。度量模塊的結(jié)構(gòu)如圖 9所示。

圖 8 基于度量學(xué)習(xí)的小樣本目標(biāo)檢測(cè)框架
圖 9 邊界框分類(lèi)的度量模塊實(shí)現(xiàn)
5 數(shù)據(jù)集與實(shí)驗(yàn)
當(dāng)前小樣本目標(biāo)檢測(cè)的數(shù)據(jù)集主要包括PASCAL VOC、MSCOCO、LVIS和FSOD等四個(gè)數(shù)據(jù)集。數(shù)據(jù)集的概況如表 2 所示。
表 2 小樣本目標(biāo)檢測(cè)常用數(shù)據(jù)集及其劃分方式

表3列出了在三種不同的基類(lèi)/新類(lèi)類(lèi)別分割設(shè)定下,小樣本目標(biāo)檢測(cè)典型方法在PASCALVOC數(shù)據(jù)集下的新類(lèi)檢測(cè)性能。表中紅色加粗/藍(lán)色加粗分別表示性能最優(yōu)/次優(yōu)結(jié)果,下表同。
表 3 PASCAL VOC 數(shù)據(jù)集中對(duì)新類(lèi)的小樣本檢測(cè)性能

由表3可知,大多數(shù)方法采用Faster RCNN作為基礎(chǔ)檢測(cè)模型,目前性能最好的方法是UniT。此外,基于遷移學(xué)習(xí)方法的性能在大多數(shù)任務(wù)下達(dá)到 SOTA,基于元學(xué)習(xí)方法的性能僅次于基于遷移學(xué)習(xí)方法,基于數(shù)據(jù)增強(qiáng)和度量學(xué)習(xí)方法的性能較差,表明在 PASCAL VOC 數(shù)據(jù)集上還有較大的提升空間。
表4給出了第一次分割下,四類(lèi)經(jīng)典方法對(duì)基類(lèi)遺忘性能的比較。其中,nAP50表示IoU閾值等于0.5時(shí)的新類(lèi)檢測(cè)性能,bAP50表示IoU閾值等于0.5時(shí)的基類(lèi)檢測(cè)性能。從實(shí)驗(yàn)結(jié)果中可看出,基于遷移學(xué)習(xí)的兩種方法TFA和SRR-FSD分別在基類(lèi)和新類(lèi)的檢測(cè)精度指標(biāo)上達(dá)到了最新水平。
表 4 PASCAL VOC數(shù)據(jù)集下基類(lèi)和新類(lèi)的小樣本檢測(cè)性能
表5列舉了四類(lèi)經(jīng)典的小樣本目標(biāo)檢測(cè)方法在COCO數(shù)據(jù)集上的新類(lèi)檢測(cè)性能對(duì)比。其中,每類(lèi)采用10個(gè)樣本和30個(gè)樣本,nAP表示新類(lèi)別的平均檢測(cè)性能,nAP50表示IoU閾值等于0.5時(shí)的新類(lèi)別檢測(cè)性能。從實(shí)驗(yàn)結(jié)果中可以看出,對(duì)于檢測(cè)難度較大的COCO數(shù)據(jù)集而言,基于小樣本的檢測(cè)性能還有較大的提升空間。
表 5 四類(lèi)經(jīng)典方法在COCO數(shù)據(jù)集10/30個(gè)樣本下的新類(lèi)檢測(cè)性能

表6列舉了TFA方法與聯(lián)合訓(xùn)練方法在LVIS數(shù)據(jù)集10-shot下的新類(lèi)檢測(cè)性能。
表 6 兩種方法在LVIS數(shù)據(jù)集10個(gè)樣本下的新類(lèi)檢測(cè)性能
表7列舉了四種小樣本目標(biāo)檢測(cè)方法在FSOD數(shù)據(jù)集上的新類(lèi)別檢測(cè)性能對(duì)比。從實(shí)驗(yàn)結(jié)果中可以看出,基于元學(xué)習(xí)的方法FSOD和MM-FSOD不需要后續(xù)的微調(diào)步驟就能檢測(cè)新類(lèi)別,且MM-FSOD方法的性能與FSOD方法相比平均高出17.95%,而基于遷移學(xué)習(xí)的LSTD方法則需要進(jìn)一步的微調(diào)。
表 7 四種方法在FSOD數(shù)據(jù)集5個(gè)樣本下的新類(lèi)檢測(cè)性能
盡管小樣本目標(biāo)檢測(cè)取得了顯著進(jìn)步,但各類(lèi)方法仍受限于特定應(yīng)用場(chǎng)景和局限。目前的算法在有限監(jiān)督下的小樣本場(chǎng)景表現(xiàn)良好,然而在復(fù)雜場(chǎng)景,如持續(xù)增量學(xué)習(xí)、弱監(jiān)督或域適應(yīng)等方面的小樣本目標(biāo)檢測(cè)仍面臨挑戰(zhàn)。特別是,針對(duì)無(wú)人機(jī)和機(jī)器人領(lǐng)域的持續(xù)增量小樣本檢測(cè)的研究相對(duì)匱乏,相關(guān)試驗(yàn)性驗(yàn)證也不充分。同時(shí),弱監(jiān)督或域適應(yīng)小樣本目標(biāo)檢測(cè)尚處于起步階段,需根據(jù)特定領(lǐng)域知識(shí)和任務(wù)特性設(shè)計(jì)有針對(duì)性的小樣本檢測(cè)算法。此外,算法的實(shí)際應(yīng)用也面臨挑戰(zhàn),但在人工智能各個(gè)領(lǐng)域具有廣泛的應(yīng)用價(jià)值和研究意義。因此,在復(fù)雜場(chǎng)景下,研發(fā)有效的小樣本目標(biāo)檢測(cè)方法及其應(yīng)用仍是一個(gè)重要的研究方向。
關(guān)注??公眾號(hào),后臺(tái)回復(fù)【小樣本】獲取相關(guān)綜述
