2020年12月22日由中國(guó)造船工程學(xué)會(huì)等單位主辦,哈爾濱工程大學(xué)承辦,武漢理工大學(xué)協(xié)辦的首屆“海洋目標(biāo)智能感知國(guó)際挑戰(zhàn)賽”落下帷幕。秉承 “逐夢(mèng)海洋,感知智能,突破自我,創(chuàng)新未來(lái)”的精神,來(lái)自清華大學(xué)深圳國(guó)際研究生院的“秀姐和她快樂(lè)的小伙伴”隊(duì),由歐奕旻、左育莘和楊銳組成,在李秀教授的指導(dǎo)下從150支參賽隊(duì)伍中脫穎而出,榮獲研究生組冠軍。
https://www.hwtelcloud.com (NAIE網(wǎng)站)
本次大賽要求參賽選手通過(guò)定位圖片中出現(xiàn)目標(biāo)的位置(邊界框坐標(biāo)),識(shí)別每個(gè)目標(biāo)示例的類別和屬于該類的置信度,從而完成多類海洋船舶目標(biāo)檢測(cè)識(shí)別任務(wù)。為了評(píng)估算法的實(shí)用性,比賽采用COCO形式的平均精度均值mAP,不僅可以評(píng)估模型的分類能力,也能體現(xiàn)出模型的定位能力。
本次比賽我們以Cascade RCNN作為baseline,以Res2Net101作為Backbone;通過(guò)逐步融合如soft-NMS、可變卷積(DCN)、多尺度訓(xùn)練(SNIP)等提升檢測(cè)效果的方法,組成了最終的模型。
1. Baseline的選取
執(zhí)行目標(biāo)檢測(cè)任務(wù)的雙階段算法一直在各大比賽中占據(jù)著半壁江山。CascadeRCNN通過(guò)級(jí)聯(lián)多個(gè)RCNN head,逐步微調(diào)候選框位置,解決了訓(xùn)練階段和測(cè)試階段候選框的質(zhì)量與分布不匹配問(wèn)題。所以,為了保證檢測(cè)效果,我們采用該算法作為baseline。
網(wǎng)絡(luò)結(jié)構(gòu)圖 圖源|CascadeRCNN[1]
2. Backbone的選取
ResNet通過(guò)在每?jī)蓪踊蛉龑又g增加短路機(jī)制、引入殘差學(xué)習(xí)的方式解決了深度網(wǎng)絡(luò)的退化問(wèn)題。Res2Net網(wǎng)絡(luò)則基于ResNet,在單個(gè)殘差塊內(nèi)構(gòu)造分層的殘差類連接,增加了每個(gè)網(wǎng)絡(luò)層的感受野范圍,并實(shí)現(xiàn)了以更細(xì)粒度表示多尺度特征的功能。這種結(jié)構(gòu)可以增加卷積網(wǎng)絡(luò)學(xué)習(xí)的信息量,明顯的提高模型的分類效果。在使用ResNet101做了對(duì)比實(shí)驗(yàn)后,我們選擇Res2Net101作為backbone。
Res2Net殘差結(jié)構(gòu) 圖源|Res2Net[2]
比賽過(guò)程中,我們通過(guò)不斷增加提升技巧的方式驗(yàn)證各種技巧的適用性。先以CascadeRCNN+ResNet101作為baseline,在公開測(cè)試集A上的mAP=64.68%,增加所有提升技巧之后在公開測(cè)試集A上的mAP=67.09%。
1. Albu數(shù)據(jù)增強(qiáng)
在計(jì)算機(jī)視覺任務(wù)中,數(shù)據(jù)增強(qiáng)是一種常用的增加模型魯棒性的方法。Albumentation是一種快速靈活的數(shù)據(jù)增強(qiáng)庫(kù),我們采用該方法后,雖然mAP值降低了0.36%,但是我們認(rèn)為這對(duì)結(jié)果基本沒(méi)有影響,且會(huì)增加模型的泛化性能。
2. SNIP多尺度訓(xùn)練和多尺度測(cè)試
通過(guò)觀察數(shù)據(jù)集,我們發(fā)現(xiàn)一些目標(biāo)船舶占據(jù)的大部分,還有一些目標(biāo)船舶非常小,這種極端尺度的目標(biāo)在anchor機(jī)制中很難被分到前景中。多尺度訓(xùn)練和多尺度測(cè)試SNIP方法可以將圖片縮放至不同的分辨率,使得目標(biāo)以不同的比例出現(xiàn)在檢測(cè)器中,從而實(shí)現(xiàn)大目標(biāo)和小目標(biāo)均可被檢測(cè)到的功能。開始時(shí)我們就將該技巧使用在baseline中。
3. DCN
可變卷積網(wǎng)絡(luò)(DCN)具有適應(yīng)待檢測(cè)目標(biāo)發(fā)生空間形變的能力,能夠根據(jù)需要識(shí)別的內(nèi)容進(jìn)行動(dòng)態(tài)調(diào)整,從而改變感受野范圍。采用該技巧之后,mAP值提升接近2%。
4. soft-NMS
從數(shù)據(jù)集中分析得知,一些圖片中船舶與島嶼之間存在重疊,一些小型船只與巨輪之間也存在重疊,這種重疊的目標(biāo)容易出現(xiàn)False Positive,從而對(duì)AP值產(chǎn)生影響,所以我們采取soft-NMS方法。這種方法可以通過(guò)降低重疊區(qū)域候選框的得分來(lái)避免盲目刪除重疊候選框。
5.HTC模型預(yù)訓(xùn)練
HTC模型是一種引入了語(yǔ)義分割模塊的的混合級(jí)聯(lián)網(wǎng)絡(luò),因?yàn)檎Z(yǔ)義分割是對(duì)全圖進(jìn)行的像素級(jí)分類,對(duì)前景和背景有較強(qiáng)分辨能力,所以HTC模型學(xué)習(xí)的參數(shù)更好。我們使用該網(wǎng)絡(luò)在COCO數(shù)據(jù)集上預(yù)訓(xùn)練,然后將其部分參數(shù)遷移到我們的模型上。
另外,因?yàn)锳dam優(yōu)化算法可以較好的適應(yīng)陌生數(shù)據(jù)集,我們使用它來(lái)做優(yōu)化;我們還使用了學(xué)習(xí)率熱身(warm-up)來(lái)穩(wěn)定訓(xùn)練過(guò)程。
非常感謝主辦方提供的參賽機(jī)會(huì),李秀教授的悉心指導(dǎo),以及華為NAIE網(wǎng)絡(luò)人工智能云服務(wù)提供的AI模型訓(xùn)練平臺(tái)。本次比賽不僅提高了我們對(duì)目標(biāo)檢測(cè)算法的掌握程度,還增加了我們海洋船舶方面的知識(shí)。但是,我們的模型仍然存在較大的進(jìn)步空間,比如在使用Albu數(shù)據(jù)增強(qiáng)時(shí),也應(yīng)該做一個(gè)對(duì)比實(shí)驗(yàn)進(jìn)行驗(yàn)證。最后,希望智慧海洋技術(shù)快速發(fā)展,助力我國(guó)海洋強(qiáng)國(guó)的建設(shè)!
參考文獻(xiàn)
[1] Cai Z, Vasconcelos N. Cascade R-CNN: delving into high quality object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 6154-6162.
[2] Gao S , Cheng M M , Zhao K , et al. Res2Net: A New Multi-scale Backbone Architecture[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, PP(99):1-1.
[3] Buslaev A, Iglovikov V I, Khvedchenya E, et al. Albumentations: fast and flexible image augmentations[J]. Information, 2020, 11(2): 125.
[4] Singh B, Davis L S. An analysis of scale invariance in object detection snip[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 3578-3587.
[5] Dai J , Qi H , Xiong Y , et al. Deformable Convolutional Networks[J]. 2017.
[6] Bodla N, Singh B, Chellappa R, et al. Improving object detection with one line of code. CoRR (2017)[J]. arXiv preprint arXiv:1704.04503.
本站知識(shí)星球“黃博的機(jī)器學(xué)習(xí)圈子”(92416895)
本站qq群704220115。
加入微信群請(qǐng)掃碼: