ECV 2021 冠軍方案解讀:駕駛員不良駕駛識別方案

極市導讀
?本文為獲得駕駛員不良駕駛識別方案冠軍的王世磊團隊的解讀,團隊選用了MobileNet系列的MobileNet v3來作為此次比賽任務的Baseline模型,最終成績?yōu)?.9956。?>>加入極市CV技術交流群,走在計算機視覺的最前沿
一、賽題描述

ECV-2021聚焦于計算機視覺領域的前沿科技與應用創(chuàng)新,全面升級賽制,設立超百萬現(xiàn)金獎勵, 旨在匯聚全球AI人才解決AI產(chǎn)業(yè)實際問題,促進人才技術交流,提升開發(fā)者人才的算法開發(fā)到落地應用的工程化能力,推動計算機視覺算法人才的專業(yè)工程化能力認證。
交通事故一直是社會痛點,其中由于駕駛員的危險駕駛行為導致的事故更是頻頻發(fā)生,為有效規(guī)范出行司機的不良駕駛行為,降低事故發(fā)生率。本賽題希望通過開發(fā)駕駛員不良駕駛行為識別算法,實時甄別駕駛員的不良行為,及時、有效報警與提示,做到消除道路交通安全隱患。我們需要使用計算機機器學習方法,對不良駕駛的視頻片段進行分類,輸出其類別。
二、數(shù)據(jù)說明
數(shù)據(jù)集來自于由攝像頭采集的視頻片段,每段視頻經(jīng)過分幀后被轉成JPG格式的圖片并存入到一個文件夾中,每張圖片采用frame_id.jpg的命名格式,其中frame_id表示以1為起始的幀序號。每個圖片文件夾都會有一個對應的標注文件,文件名稱與文件夾一致,格式為XML,包含的標注類別如下所示:
抽煙(smoke) 打哈欠(yawn) 打手機(phone) 駕駛員異常(a_driver) 左顧右盼(look_around)
樣例數(shù)據(jù)集:每種類別分別會有幾個視頻幀集合,供參賽者了解賽題典型場景數(shù)據(jù),可用于編碼調試;
訓練數(shù)據(jù)集:抽煙400, 打哈欠 110, 打手機 400, 駕駛員異常 400, 左顧右盼700,文件夾名稱即為類別名稱,參賽者需要在編碼調試完成后,發(fā)起訓練任務方可自動讀取;
測試數(shù)據(jù)集:抽煙100, 打哈欠 40, 打手機 100, 駕駛員異常 100, 左顧右盼300,參賽者成功發(fā)起測試任務,即可自動讀??;
三、自動測試
平臺提供的自動測試服務,意在模擬算法真實場景下的落地過程,并且為大家提供方便的模型測試工具。因此,需要按照平臺的要求封裝SDK,也就是按照平臺封裝模型推理時的輸入輸出。使用python進行封裝。
四、主要工作
1. Baseline的選擇
此次比賽的任務為分類任務,測試方式為轉換為open vino在cpu上進行測試。因此我們考慮選用參數(shù)利用率較高的模型,選用了MobileNet系列的MobileNet v3來作為此次比賽任務的Baseline模型。Baseline 成績?yōu)椋?.7585

2.采視頻代表幀進行分類
我們使用Mobile Net V3模型進行測試,能夠得到92左右的準確率,但是FPS僅僅只有10左右。模型的速度方面有較大的提升空間,因為這次賽題是對視頻進行分類,所以我們就自然的考慮到了從視頻中抽取出代表幀來代表整段視頻進行分類。使用該方法,在保證精度的同時FPS提升到了30,成績提升到0.8118。
3.輕量化模型
我們使用相比于Mobile Net V3參數(shù)量更小的模型來進行實驗,發(fā)現(xiàn)得到的精度與Mobile Net V3相同。因此我們根據(jù)一步步的測試將模型參數(shù)兩降低到能保證精度的最小。成績提升到0.8408。
4.減小乘加量
經(jīng)過分析,我們發(fā)現(xiàn)提出模型的主要運算量來自第一層因此我們考慮對輸入的數(shù)據(jù)進行降維來減小運算量進一步提升檢測速度。通過數(shù)據(jù)降維模型減少了約40%的乘加量,進一步提升了檢測速度,F(xiàn)PS達到了100以上。降維后成績?yōu)椋?.9398.

5.視頻幀與標簽融合
在FPS達到了100之后,我們考慮進一步提升算法的精度。首先我們嘗試了數(shù)據(jù)增強技術(Auto Aug)。之后為網(wǎng)絡增添協(xié)調注意力這些均對模型有小幅度的提升。
我們考慮到在真實應用場景我們在對駕駛員行為進行分類時,需要考慮他是否有吸煙習慣以及這個時間段是否容易疲勞駕駛等,因此可以利用駕駛員身份和時間來制作標簽信息結合視頻圖像進行融合再進行分類。在這個賽題中我們?yōu)橐曨l制作了統(tǒng)一的標簽再與視頻幀相融合。這個技巧使得我們的模型在這次比賽中的精度大幅度提升,取得最終成績0.9956。
五、團隊介紹
團隊來自西北農(nóng)林科技大學信息工程學院寧紀鋒教授實驗室。團隊成員為:王世磊。
參考文獻:
1.Hou, Q., Zhou, D. and Feng, J., 2021. Coordinate attention for efficient mobile network design. In?Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition?(pp. 13713-13722).
2.Cubuk, E.D., Zoph, B., Mane, D., Vasudevan, V. and Le, Q.V., 2018. Autoaugment: Learning augmentation policies from data.?arXiv preprint arXiv:1805.09501.
3.Kavyashree, P.S. and El-Sharkawy, M., 2021, January. Compressed MobileNet v3: a light weight variant for resource-constrained platforms. In?2021 IEEE 11th Annual Computing and Communication Workshop and Conference (CCWC)?(pp. 0104-0107). IEEE.
如果覺得有用,就請分享到朋友圈吧!
公眾號后臺回復“CVPR21檢測”獲取CVPR2021目標檢測論文下載~

#?CV技術社群邀請函?#

備注:姓名-學校/公司-研究方向-城市(如:小極-北大-目標檢測-深圳)
即可申請加入極市目標檢測/圖像分割/工業(yè)檢測/人臉/醫(yī)學影像/3D/SLAM/自動駕駛/超分辨率/姿態(tài)估計/ReID/GAN/圖像增強/OCR/視頻理解等技術交流群
每月大咖直播分享、真實項目需求對接、求職內(nèi)推、算法競賽、干貨資訊匯總、與?10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動交流~

