1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        CVPR 2020 夜間目標檢測挑戰(zhàn)賽冠軍方案解讀

        共 5988字,需瀏覽 12分鐘

         ·

        2022-02-13 03:10

        點擊上方小白學視覺”,選擇加"星標"或“置頂

        重磅干貨,第一時間送達

        在 CVPR 2020 Workshop 舉辦的?NightOwls?Detection Challenge 中,來自國內團隊深蘭科技的 DeepBlueAI 團隊斬獲了“單幀行人檢測”和“多幀行人檢測”兩個賽道的冠軍,以及“檢測單幀中所有物體”賽道的亞軍。




        競賽的主要目的是進行夜間行人或物體檢測,是許多系統(tǒng),尤其是自動駕駛汽車安全可靠的關鍵之一。眾所周知,熊貓智能公交車是深蘭科技自動駕駛核心產品,自2019年獲得了廣州、長沙、上海、武漢的自動駕駛測試牌照后,今年5月又成功摘得深圳智能網聯汽車道路測試牌照。此次冠亞軍方案,將與白天行人檢測結合,打造適用于不同天氣條件的全天候行人檢測系統(tǒng),并有望在熊貓智能公交上進行應用,為其安全行駛保駕護航。


        深蘭科技堅持以“人工智能,服務民生”為理念,響應國家政策號召,深刻洞察民眾痛點和需求,致力于把高質量的人工智能產品和解決方案帶給更多的社會大眾,以匠心研發(fā)的熊貓智能公交車將作為智能城市公共交通領域的“新基建”,用于提升公眾出行新體驗。


        以下將為大家介紹 DeepBlueAI 團隊的解決方案。


        NightOwls 檢測挑戰(zhàn)賽簡介


        檢測 RGB 攝像機拍攝的夜間場景圖片中的行人,是一個非常重要但是未被充分重視的問題,當前最新的視覺檢測算法并不能很好地預測出結果。官方 baseline 在 Caltech(著名行人檢測數據集)上的 Miss Rate(越小越好)可以達到 7.36%,但在夜間行人數據集上卻只能達到 63.99%。


        夜間行人檢測是許多系統(tǒng)(如安全可靠的自動駕駛汽車)的關鍵組成部分,但使用計算機視覺方法解決夜間場景的檢測問題并未受到太多關注,因此 CVPR 2020 Scalability in Autonomous Driving Workshop 開展了相應的比賽。


        NightOwls Detetection Challenge 2020 共有三個賽題:單幀行人檢測(該賽題與 2019 年相同)、多幀行人檢測,以及檢測單幀中所有物體(包括行人、自行車、摩托車三個類別)。


        • Pedestrian Detection from a Single Frame (same as 2019 competition)
        • Pedestrian Detection from a Multiple Frames
          All Objects Detection (pedestrian, cyclist, motorbike) from a Single Frame

        賽題介紹

        ?

        夜間行人數據集示例


        Track 1: Pedestrian detection from a single frame


        該任務只要求檢測行人(對應 Ground truth 中 category_id = 1 的行人類別),且所用算法只能將當前幀用作檢測的輸入,該題目與 ICCV 2019 NightOwls 挑戰(zhàn)賽相同。


        Track 2: Pedestrian detection from multiple frames


        該任務的要求與任務 1 相同,都是只檢測行人,但是該任務允許使用當前幀以及所有先前幀 (N, N-1, N-2, …) 來預測當前幀的行人。


        這兩個任務的數據集由 279000 張全注釋的圖片組成,這些圖片來源于歐洲多個城市黎明和夜間的 40 個視頻,并涵蓋了不同的天氣條件。


        模型效果評估使用的是行人檢測中常用的指標Average Miss Rate metric,但是僅考慮高度 > = 50px 的非遮擋目標。


        Track 3: All Objects Detection (pedestrian, cyclist, motorbike) from a Single Frame


        該任務要求檢測出幀里所有在訓練集中出現過的類別,包括自行車、摩托車,并且不允許使用視頻序列信息。


        賽題難點



        這次比賽的主要難點包含以下幾個方面:


        • 運動模糊和圖像噪點


        與常規(guī)檢測數據集不同,該競賽考慮到實際駕駛情況,所用數據是在車輛行進過程中采集的,所以當車速較快或者有相對運動的時候會產生持續(xù)的運動模糊圖像。并且由于攝像頭是普通的RGB相機,因此在光線較弱的環(huán)境下收集的圖片質量大幅度下降,這也是影響模型效果的主要原因。


        • 對比度差異大,色彩信息少


        這是由于收集數據主要來自于夜間環(huán)境所導致的必然結果,所以在進行數據增強的時候需要謹慎,不同增強方式會造成較大的影響。


        • 不同的數據分布


        該比賽的數據集涵蓋了不同的城市和天氣,之前常用的行人檢測數據集一般未同時滿足這兩個條件。該數據具有多樣性,且與常用數據集的數據分布存在較大差異。該比賽數據集與常用于訓練預訓練模型的數據集(如 COCO 數據集、OBJ365)的數據分布存在很大的不同,因此對基于常用數據集預訓練的模型進行 fine-tune 的效果不如預期。


        DeepBlueAI 團隊解決方案


        DeepBlueAI 團隊在單幀行人檢測和多幀行人檢測兩個賽道中取得了冠軍成績,在檢測單幀中所有物體賽道中獲得了亞軍。

        ?



        就檢測器而言,該團隊首先通過常規(guī)檢測所累積的經驗構造出一個 baseline:


        Baseline = Backbone + DCN? + FPN + Cascade + anchor ratio (2.44)


        這些模塊早已是各個比賽的「??汀梗脖辉S多專業(yè)人士進行了比較透徹的分析,此處不再贅述。DeepBlueAI 團隊進行了簡單的實驗,發(fā)現這些模塊總是有用,進而將這套算法作為 baseline,加上一些行人檢測的小 trick,如將 anchor ratio 改為 2.44、針對標注為 ignore 的目標在訓練過程中 loss 不進行回傳處理。


        具體主要工作包含以下幾個方面:


        1. Double Heads

        ?


        通過觀察實驗發(fā)現,baseline 將背景中的石柱、燈柱等物體檢測為行人,這種情況大多和 head 效果不好有關。該團隊基于此進行了實驗,如 TSD [7]、CLS [8]、double head [9],并最終選擇了效果好且性價比高的 double head 結構(如下圖所示):

        ?

        Double Heads 結構

        ?


        通過對比實驗可以發(fā)現:使用 FC-head 做分類、Conv-head 做回歸,可以得到最好的效果。


        分類更多地需要語義信息,而坐標框回歸則更多地需要空間信息,double head 方法采用分而治之的思想,針對不同的需求設計 head 結構,因此更加有效。當然這種方法也會導致計算量的增加。在平衡速度和準確率的情況下,該團隊最終選擇了 3 個殘差 2 個 Non-local 共 5 個模塊。


        2. CBNet [10]

        ?


        合并功能更強大的 backbone 可提高目標檢測器的性能。CBNet 作者提出了一種新穎的策略,通過相鄰 backbone 之間的復合連接 (Composite Connection) 來組合多個相同的 backbone。用這種方式他們構建出了一個更強大的 backbone,稱為「復合骨干網絡」(Composite Backbone Network)。


        當然這也帶來了模型參數大小和訓練時間的增加,屬于 speed–accuracy trade-off。該團隊也嘗試過其他的改進方式,但最終還是選擇了實用性更強的 CBNet,該方法不用再額外擔心預訓練權重的問題。

        ?


        該團隊選擇了性價比較高的雙 backbone 模型結構。


        3. 數據增強



        該團隊發(fā)現 Pixel-level 的增強方式導致了性能結果大幅下降,因此沒有在這個方向繼續(xù)嘗試。


        而圖像增強方式 Retinex,從視覺上看帶來了圖像增強,但是該方法可能破壞了原有圖片的結構信息,導致最終結果沒有提升。


        于是,該團隊最終選擇了 Spatial-level 的增強方式,使得結果有一定的提升。


        實驗細節(jié)


        1. 將 Cascade rcnn + DCN + FPN 作為 baseline;

        2. 將原有 head 改為 Double head;

        3. 將 CBNet 作為 backbone;

        4. 使用 cascade rcnn COCO-Pretrained weight;

        5. 數據增強;

        6. 多尺度訓練 + Testing tricks。


        實驗結果


        下圖展示了該團隊使用的方法在本地驗證集上的結果:

        ?


        該團隊將今年的成績與去年 ICCV 2019 同賽道冠軍算法進行對比,發(fā)現在不使用額外數據集的情況下,去年單模型在 9 個尺度的融合下達到 11.06,而該團隊的算法在只用 2 個尺度的情況下就可以達到 10.49。


        未來工作


        該團隊雖然獲得了不錯的成績,但也基于已有的經驗提出了一些未來工作方向:


        1. 由于數據的特殊性,該團隊嘗試使用一些增強方式來提高圖片質量、亮度等屬性,使圖片中的行人更易于檢測。但結果證明這些增強方式可能破壞原有圖片結構,效果反而降低。該團隊相信會有更好的夜間圖像處理辦法,只是還需要更多研究和探索。


        2. 在允許使用之前幀信息的賽道二中,該團隊僅使用了一些簡單的 IoU 信息。由于收集這個數據集的攝像頭一直在移動,該團隊之前在類似的數據集上使用過一些 SOTA 的方法,卻沒有取得好的效果。他們認為之后可以在如何利用時序幀信息方面進行深入的探索。


        3. 該領域存在大量白天行人檢測的數據集,因此該團隊認為之后可以嘗試 Domain Adaption 方向的方法,以充分利用行人數據集。


        參考文獻

        [1]?Lin T Y , Dollár, Piotr, Girshick R , et al. Feature Pyramid Networks for Object Detection[J]. 2016.

        [2]?Dai J, Qi H, Xiong Y, et al. Deformable Convolutional Networks[J]. 2017.

        [3]?Cai Z , Vasconcelos N . Cascade R-CNN: Delving into High Quality Object Detection[J]. 2017.

        [4]?Xie S , Girshick R , Dollar P , et al. Aggregated Residual Transformations for Deep Neural Networks[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE Computer Society, 2017.

        [5]?Bochinski E , Eiselein V , Sikora T . High-Speed tracking-by-detection without using image information[C]// 2017 14th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS). IEEE, 2017.

        [6]?Henriques J F , Caseiro R , Martins P , et al. High-Speed Tracking with Kernelized Correlation Filters[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3):583-596.

        [7]?Song G , Liu Y , Wang X . Revisiting the Sibling Head in Object Detector[J]. 2020.

        [8]?Li A , Yang X , Zhang C . Rethinking Classification and Localization for Cascade R-CNN[J]. 2019.

        [9]?Wu, Y., Chen, Y., Yuan, L., Liu, Z., Wang, L., Li, H., & Fu, Y. (2019). Rethinking Classification and Localization in R-CNN. ArXiv, abs/1904.06493.

        [10]?Liu, Y., Wang, Y., Wang, S., Liang, T., Zhao, Q., Tang, Z., & Ling, H. (2020). CBNet: A Novel Composite Backbone Network Architecture for Object Detection. ArXiv, abs/1909.03625.

        下載1:OpenCV-Contrib擴展模塊中文版教程
        在「小白學視覺」公眾號后臺回復:擴展模塊中文教程,即可下載全網第一份OpenCV擴展模塊教程中文版,涵蓋擴展模塊安裝、SFM算法、立體視覺、目標跟蹤、生物視覺、超分辨率處理等二十多章內容。

        下載2:Python視覺實戰(zhàn)項目52講
        小白學視覺公眾號后臺回復:Python視覺實戰(zhàn)項目,即可下載包括圖像分割、口罩檢測、車道線檢測、車輛計數、添加眼線、車牌識別、字符識別、情緒檢測、文本內容提取、面部識別等31個視覺實戰(zhàn)項目,助力快速學校計算機視覺。

        下載3:OpenCV實戰(zhàn)項目20講
        小白學視覺公眾號后臺回復:OpenCV實戰(zhàn)項目20講,即可下載含有20個基于OpenCV實現20個實戰(zhàn)項目,實現OpenCV學習進階。

        交流群


        歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學影像、GAN、算法競賽等微信群(以后會逐漸細分),請掃描下面微信號加群,備注:”昵稱+學校/公司+研究方向“,例如:”張三?+?上海交大?+?視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據研究方向邀請進入相關微信群。請勿在群內發(fā)送廣告,否則會請出群,謝謝理解~


        瀏覽 33
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            中文字幕在线观看免费视频 | 午夜男人多天堂A片免费 | 国产精品伦一区二区 | 国产l精品久久久久久久久久 | 夜夜爽天天 | 国产乱伦自拍视频 | 欧美精品爽爽影院在线播放 | 久草大香蕉在线 | 免费污污网站在线观看 | 久久精品亚洲一区二区三区画质 |