(附論文)目標(biāo)檢測新方式 | class-agnostic檢測器用于目標(biāo)檢測
點擊左上方藍(lán)字關(guān)注我們


目標(biāo)檢測模型在定位和分類訓(xùn)練期間顯示目標(biāo)時表現(xiàn)良好,然而,由于創(chuàng)建和注釋檢測數(shù)據(jù)集的難度和成本,訓(xùn)練過的模型檢測到數(shù)量有限的目標(biāo)類型,未知目標(biāo)被視為背景內(nèi)容。這阻礙了傳統(tǒng)檢測器在現(xiàn)實應(yīng)用中的采用,如大規(guī)模物體匹配、visual grounding、視覺關(guān)系預(yù)測、障礙檢測(確定物體的存在和位置比找到特定類型更重要)等。

有研究者提出類不可知目標(biāo)檢測作為一個新問題,專注于檢測對象的對象類。具體地說,其目標(biāo)是預(yù)測圖像中所有對象的邊界框,而不是預(yù)測它們的對象類。預(yù)測的框可以被另一個系統(tǒng)使用,以執(zhí)行特定于應(yīng)用程序的分類、檢索等。
提出了針對類不可知檢測器的基準(zhǔn)測試的訓(xùn)練和評估協(xié)議,以推進(jìn)該領(lǐng)域的未來研究。最后,研究者提出了:(1)基線方法和(2)一個新的用于類無關(guān)檢測的對抗性學(xué)習(xí)框架,它迫使模型從用于預(yù)測的特征中排除特定于類的信息。實驗結(jié)果表明,對抗性學(xué)習(xí)方法提高了類不可知性的檢測效率。
class-specific 方式:很多地方也稱作class-aware的檢測,是早期Faster RCNN等眾多算法采用的方式。它利用每一個RoI特征回歸出所有類別的bbox坐標(biāo),最后根據(jù)classification 結(jié)果索引到對應(yīng)類別的box輸出。這種方式對于ms coco有80類前景的數(shù)據(jù)集來說,并不算效率高的做法。
class-agnostic 方式:只回歸2類bounding box,即前景和背景,結(jié)合每個box在classification 網(wǎng)絡(luò)中對應(yīng)著所有類別的得分,以及檢測閾值條件,就可以得到圖片中所有類別的檢測結(jié)果。當(dāng)然,這種方式最終不同類別的檢測結(jié)果,可能包含同一個前景框,但實際對精度的影響不算很大,最重要的是大幅減少了bbox回歸參數(shù)量。具體細(xì)節(jié),自己參考目前一些開源算法源碼會理解的更好。(摘自于知乎包文韜)
Class-agnostic目標(biāo)檢測器使用object proposal methods (OPMs), conventional class-aware detectors和提出的adversarially trained class-agnostic detectors。如下圖:

三、新框架
General Framework
傳統(tǒng)的類感知檢測側(cè)重于檢測“感興趣的對象”,這本質(zhì)上要求模型能夠區(qū)分封閉已知集合中的對象類型。直觀地說,模型通過編碼區(qū)分對象類型的特征來實現(xiàn)這一點。然而,為了使類不可知的檢測和模型能夠檢測到以前看不見的對象類型,檢測器應(yīng)該編碼能夠更有效地區(qū)分對象與背景內(nèi)容、單個對象與圖像中的其他對象的特征,而不區(qū)分對象類型。

訓(xùn)練傳統(tǒng)的目標(biāo)檢測器的二元分類任務(wù)以及邊界框回歸不足以確保模型關(guān)注類無關(guān)特征,更重要的是,忽略類型區(qū)分特征,以便更好地推廣到看不見的目標(biāo)類型。為了克服這個問題,研究者建議以一種對抗性的方式訓(xùn)練類不可知的目標(biāo)檢測器,以便模型因編碼包含目標(biāo)類型信息的編碼特征而受到懲罰。

研究者提議用對抗性鑒別器分支來增強(qiáng)類不可知的檢測器,這些分支試圖從檢測網(wǎng)絡(luò)上游輸出的特征中分類對象類型(在訓(xùn)練數(shù)據(jù)中注釋),如果模型訓(xùn)練成功,則對其進(jìn)行懲罰。模型以交替的方式訓(xùn)練,這樣當(dāng)模型的其余部分更新時,鑒別器被凍結(jié),反之亦然。在更新鑒別器時,研究者使用標(biāo)準(zhǔn)的分類交叉熵?fù)p失的目標(biāo)類型作為預(yù)測目標(biāo)。另一方面,在訓(xùn)練模型的其余部分時,最小化(a)目標(biāo)與否分類的交叉熵?fù)p失,(b)邊界框回歸的平滑L1損失,以及(c)鑒別器預(yù)測的負(fù)熵。這種熵最大化迫使檢測模型的上游部分從其輸出的特征中排除目標(biāo)類型信息。對于模型的每次更新,鑒別器被更新五次,在整個目標(biāo)中使用乘子α(調(diào)整{0.1,1})對負(fù)熵進(jìn)行加權(quán)。上圖總結(jié)了完整的框架。
四、實驗



Generalization results for SSD models trained on the seen VOC dataset. The top row shows macro-level AR@kfor seen and unseen classes in VOC as well as their harmonic mean (AR-HM). SSD-agnostic-adv performs the best on AR- Unseen and AR-HM, with a drop in AR-Seen, but the models that outperform SSD-agnostic-adv on AR-Seen do significantly worse on AR-Unseen and AR-HM. The second row shows micro-level results for the easy, medium, and hard unseen classes. SSD-agnostic-adv performs the best in all categories. The last row provides results of evaluation on the COCO data of 60 unseen classes. SSD-agnostic-adv achieves the best AR@k with a slight reduction for small-sized objects.

END
整理不易,點贊三連↓
