【CV】一文讀懂目標(biāo)檢測(cè)
編者薦語(yǔ)
?目標(biāo)檢測(cè)(Object Detection)是計(jì)算機(jī)視覺(jué)(Computer Vision,CV)領(lǐng)域的一個(gè)熱門(mén)方向,廣泛應(yīng)用于自動(dòng)駕駛,工業(yè)檢測(cè),視頻監(jiān)控及航空航天等領(lǐng)域,其基本流程是在給定圖像中找到關(guān)注目標(biāo),確定目標(biāo)類(lèi)別并輸出相應(yīng)的坐標(biāo)位置(常使用矩形框)。
圖像分類(lèi)、目標(biāo)檢測(cè)、分割是計(jì)算機(jī)視覺(jué)領(lǐng)域的三大任務(wù):
圖像理解的三個(gè)層次
1.分類(lèi)(Classification),對(duì)輸入的圖像進(jìn)行描述,從已有的類(lèi)標(biāo)簽集合中找出最符合的標(biāo)簽分配給該圖像。分類(lèi)雖然是最簡(jiǎn)單、最基礎(chǔ)的圖像理解任務(wù),但卻為其他復(fù)雜任務(wù)奠定了基礎(chǔ)。
2.檢測(cè)(Detection),相對(duì)于分類(lèi)任務(wù)關(guān)心整體,給出整幅圖像的內(nèi)容描述,檢測(cè)更加關(guān)注目標(biāo),需要同時(shí)獲得目標(biāo)的類(lèi)別及位置信息(Classification+Localization)。
3.分割(Segmentation),分割包括語(yǔ)義分割(Semantic Segmentation)和實(shí)例分割(Instance Segmentation),前者是對(duì)前背景分離任務(wù)的拓展,要求將圖中每一點(diǎn)像素標(biāo)注為某個(gè)物體類(lèi)別,同一物體的不同實(shí)例不需要單獨(dú)分割;?而后者是檢測(cè)任務(wù)的拓展,是目標(biāo)檢測(cè)+語(yǔ)義分割的綜合體,要求精確到物體的邊緣(相比目標(biāo)識(shí)別框更為精細(xì)),相比語(yǔ)義分割,實(shí)例分割可以標(biāo)注出圖像中的不同個(gè)體。

語(yǔ)義分割與實(shí)例分割對(duì)比
圖像分類(lèi)是將圖像劃分為單個(gè)類(lèi)別(一般對(duì)應(yīng)特征最為明顯的物體),但現(xiàn)實(shí)世界中的大部分圖像通常包含不只一個(gè)物體,如果強(qiáng)行使用分類(lèi)模型進(jìn)行分類(lèi),得到的結(jié)果也并不一定準(zhǔn)確。諸如此類(lèi)的情況,就需要使用目標(biāo)檢測(cè)算法,目前學(xué)術(shù)和工業(yè)界主要將目標(biāo)檢測(cè)算法分成三類(lèi):
1.傳統(tǒng)的目標(biāo)檢測(cè)框架
(1)候選區(qū)域選擇(采用不同尺寸、比例的滑動(dòng)窗口對(duì)圖像進(jìn)行遍歷);
(2)對(duì)不同的候選區(qū)域進(jìn)行特征提取(SIFT、HOG等);
(3)使用分類(lèi)器進(jìn)行分類(lèi)(SVM、Adaboost等)。
2.基于深度學(xué)習(xí)的Two?Stages目標(biāo)檢測(cè)框架(準(zhǔn)確度有優(yōu)勢(shì))
此類(lèi)算法將檢測(cè)問(wèn)題分為兩個(gè)階段,第一階段生成大量可能含有目標(biāo)的候選區(qū)域(Region Proposal),并附加大概的位置信息;第二個(gè)階段對(duì)其進(jìn)行分類(lèi),選出包含目標(biāo)的候選區(qū)域并對(duì)其位置進(jìn)行修正(常使用R-CNN、Fast R-CNN、Faster R-CNN等算法)。
3.基于深度學(xué)習(xí)的One Stage目標(biāo)檢測(cè)框架(速度有優(yōu)勢(shì))
此類(lèi)檢測(cè)算法屬于端到端(End-to-End),不需要生成大量候選區(qū)域的階段,而是將問(wèn)題轉(zhuǎn)化為回歸(Regression)問(wèn)題處理,使用完整圖像作為輸入,直接在圖像的多個(gè)位置上回歸出該位置的目標(biāo)邊框及所屬類(lèi)別(常使用Yolo、SSD、CornerNet等算法)。
總結(jié)
未來(lái)的工作主要集中在速度與準(zhǔn)確度的博弈之中。
各種目標(biāo)檢測(cè)算法的詳細(xì)介紹請(qǐng)參考公眾號(hào)的其他文章。
—THE END—
往期精彩回顧

