基于卷積神經(jīng)網(wǎng)絡(luò)的地鐵平臺(tái)人群計(jì)數(shù)
點(diǎn)擊下方“AI算法與圖像處理”,一起進(jìn)步!
重磅干貨,第一時(shí)間送達(dá)
2.摘要
隨著城市軌道交通的使用增加,地鐵站臺(tái)上的客流在高峰期往往會(huì)急劇增加,出于安全原因,監(jiān)控這些地區(qū)的客流非常重要。為了解決地鐵站臺(tái)客流檢測(cè)問(wèn)題,文章提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò),稱為MP(Metro Platform)-CNN,以準(zhǔn)確統(tǒng)計(jì)地鐵站臺(tái)上的人數(shù)。
該方法由三個(gè)主要部分組成:
1. 前端使用一組卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征
2. 多尺度特征提取模塊用于增強(qiáng)多尺度特征
3. 轉(zhuǎn)置卷積用于上采樣以生成高質(zhì)量密度圖
由于現(xiàn)有的人群統(tǒng)計(jì)數(shù)據(jù)集不能滿足文章研究所需,因此,我們從地鐵站臺(tái)的監(jiān)控視頻中收集圖像,形成包含627幅圖像的數(shù)據(jù)集,其中有9243個(gè)帶注釋的頭部。大量實(shí)驗(yàn)結(jié)果表明,該方法在自建數(shù)據(jù)集上表現(xiàn)良好,估計(jì)誤差最小。
3.模型
模型結(jié)構(gòu)

文章使用VGG-16的前13層作為特征提取的前端網(wǎng)絡(luò),并且只有一個(gè)3 × 3卷積核。選擇VGG作為前端有兩個(gè)原因:
一方面,它具有優(yōu)秀的特征提取能力和對(duì)分類任務(wù)較強(qiáng)的遷移學(xué)習(xí)能力;
另一方面,VGG具有靈活的架構(gòu),這使得連接到后端網(wǎng)絡(luò)以生成密度圖變得容易。
經(jīng)過(guò)前端網(wǎng)絡(luò)中的一系列卷積層和匯集層,輸出特征圖的大小是原始輸入的1/8。
如果繼續(xù)疊加更多的卷積圖層和匯集圖層,輸出要素圖的大小可以進(jìn)一步縮小,生成高質(zhì)量的密度圖變得困難。因此,在前端處理后,文章引入了MFEM,它可以在保持輸出密度圖分辨率的同時(shí)提取更深層次的信息。本模塊中使用了下圖中(b)所示的擴(kuò)張卷積:

由于在特征提取過(guò)程中對(duì)圖像進(jìn)行下采樣,輸出特征的分辨率降低,并且丟失了相當(dāng)多的細(xì)節(jié),所以為了獲得高分辨率密度圖,文章使用一組轉(zhuǎn)置卷積在MFEM后對(duì)圖像進(jìn)行上采樣。轉(zhuǎn)置卷積不是普通卷積的完全逆過(guò)程,而是特殊卷積。首先通過(guò)按照一定的比例用0填充圖像來(lái)擴(kuò)展圖像大小。然后旋轉(zhuǎn)卷積核,并執(zhí)行正向卷積,如上圖(c)所示。與以前的方法不同,文章選擇了一種可學(xué)習(xí)的換位卷積,而不是雙線性插值算法進(jìn)行上采樣。轉(zhuǎn)置卷積不同于雙線性插值,它有可以學(xué)習(xí)的參數(shù),這意味著它可以比雙線性插值學(xué)習(xí)更多的特征。
轉(zhuǎn)置卷積層用于恢復(fù)圖像的空間分辨率。每個(gè)轉(zhuǎn)置的卷積圖層都會(huì)使feature map的大小加倍,與之前的max-pooling層相對(duì)應(yīng)。網(wǎng)絡(luò)中使用三個(gè)轉(zhuǎn)置卷積層來(lái)生成與輸入圖像大小相同的高分辨率密度圖。這提供了詳細(xì)的空間信息,以便在訓(xùn)練模型時(shí)促進(jìn)特征學(xué)習(xí)。
多尺度特征提取模塊(MFEM)
由于地鐵站臺(tái)上候車乘客的復(fù)雜分布、攝像頭的視角以及其他問(wèn)題,拍攝圖像中乘客的頭部大小各不相同。此外,來(lái)自站臺(tái)、電梯和其他小型設(shè)施上的屏蔽門的反射會(huì)導(dǎo)致背景信息的復(fù)雜變化。
本文引入多尺度特征提取模塊來(lái)解決這一問(wèn)題。所提出的MFEM改進(jìn)了多尺度特征提取,以增強(qiáng)特征圖的每一層中的信息。

如上圖所示,MFEM首先通過(guò)1 × 1卷積壓縮特征圖的通道,然后通過(guò)擴(kuò)張卷積處理壓縮后的特征圖,不同的擴(kuò)張比為1、2、3和4,以處理圖像中的多尺度特征和頭部大小的變化。本文中固定高斯核的大小設(shè)置為15。在生成的密度圖中,每個(gè)注釋頭的大小為15×15,用一些0填充圖像不會(huì)影響計(jì)數(shù)結(jié)果。擴(kuò)張卷積在保持參數(shù)個(gè)數(shù)不變的情況下,擴(kuò)大了卷積核的感受野,這樣做可以加快運(yùn)行速度。擴(kuò)張卷積的示意圖如上面的圖中的(b)所示,其中擴(kuò)張比為3。提取的多尺度特征圖通過(guò)拼接操作和3× 3卷積進(jìn)行融合,處理后的特征圖像的大小與輸入圖像的大小相同。
這部分設(shè)計(jì)的關(guān)鍵部分是擴(kuò)張的卷積層,擴(kuò)張卷積可以定義如下:

y(l,w)是來(lái)自輸入x(l,w)的擴(kuò)張卷積的輸出,濾波器f(I,j)的長(zhǎng)度和寬度分別為L(zhǎng)和W,參數(shù)d代表擴(kuò)張速度。當(dāng)d=1時(shí),擴(kuò)張的卷積轉(zhuǎn)化為正常的卷積。
生成ground truth的方法
在人群計(jì)數(shù)研究中,使用的數(shù)據(jù)集通常由原始圖像和注釋文件組成。人群圖像的注釋包括每個(gè)乘客頭部中心的點(diǎn),記錄每個(gè)頭部的二維(2D)坐標(biāo)和頭部總數(shù)。這需要將這些離散坐標(biāo)點(diǎn)轉(zhuǎn)換成密度圖,以預(yù)測(cè)乘客密度.
ground-truth density map是通過(guò)將每個(gè)δ函數(shù)
與歸一化高斯核Gσ卷積生成的:

其中x代表給定圖像中的每個(gè)像素,是第i個(gè)注釋點(diǎn),N是所有注釋點(diǎn)的集合。密度圖的積分等于圖像中的人數(shù)。文章使用固定的高斯核來(lái)生成ground-truth density maps,高斯核的擴(kuò)展參數(shù)σ設(shè)置為15。
所有像素值的總和給出了輸入圖像中人群中的人數(shù)。p表示乘客數(shù)量,定義如下:

其中L代表密度圖的長(zhǎng)度,W代表密度圖的寬度。此外,
是生成的密度圖中
處的像素
訓(xùn)練細(xì)節(jié)
以端到端的方式訓(xùn)練MP-CNN,在ImageNet上訓(xùn)練的VGG網(wǎng)的權(quán)重參數(shù)用于預(yù)處理。作者在NVIDIAQuadro P4000 GPU上進(jìn)行實(shí)驗(yàn),使用pytorch框架,batch size=1,epoch=500,損失函數(shù)定義如下:

θ表示所提出的MP-CNN中的一組參數(shù),N是訓(xùn)練圖像的數(shù)量,Xi表示輸入圖像,fidenotes表示圖像Xi的ground-truth density map,代表由MP-CNN生成的估計(jì)密度圖,用θ為樣本參數(shù)化,L是估計(jì)密度圖和ground-truth density map之間的損失。
訓(xùn)練細(xì)節(jié)
以端到端的方式訓(xùn)練MP-CNN,在ImageNet上訓(xùn)練的VGG網(wǎng)的權(quán)重參數(shù)用于預(yù)處理。作者在NVIDIAQuadro P4000 GPU上進(jìn)行實(shí)驗(yàn),使用pytorch框架,batch size=1,epoch=500,損失函數(shù)定義如下:

θ表示所提出的MP-CNN中的一組參數(shù),N是訓(xùn)練圖像的數(shù)量,Xi表示輸入圖像,fidenotes表示圖像Xi的ground-truth density map,
代表由MP-CNN生成的估計(jì)密度圖,用θ為樣本參數(shù)化,L是估計(jì)密度圖和ground-truth density map之間的損失。
4.實(shí)驗(yàn)
數(shù)據(jù)集
在幾個(gè)人群計(jì)數(shù)基準(zhǔn)數(shù)據(jù)集以及本文收集的數(shù)據(jù)集(地鐵平臺(tái))上評(píng)估了文章提出的模型:ShanghaiTech Part A and Part B,UCF-QNRF,UCF-CC-50,還有文章建立的Metro Platform,這些數(shù)據(jù)集的比較如下:

Num是圖像的數(shù)量,Total是標(biāo)記的總?cè)藬?shù),Ave是平均人群計(jì)數(shù),Max是最大人群計(jì)數(shù)
使用平均絕對(duì)誤差(MAE)和均方誤差(MSE)作為度量標(biāo)準(zhǔn),來(lái)評(píng)估這些方法在計(jì)算人群成員方面的準(zhǔn)確性,在實(shí)驗(yàn)中引入了在密集人群數(shù)據(jù)集上訓(xùn)練的模型作為預(yù)處理模型,不同方法的性能比較如下表:

不同方法得到的密度圖如下:

不同方法在ShanghaiTech Part A and Part B上的表現(xiàn)結(jié)果:

不同方法在UCF-QNRF,UCF-CC-50上的表現(xiàn)結(jié)果:


5.結(jié)論
文章提出了一種新的方法來(lái)計(jì)算地鐵站臺(tái)上人群的數(shù)量,稱為MP-CNN。引入了MFEM來(lái)增強(qiáng)多尺度網(wǎng)絡(luò)的特征提取能力,解決了圖像中不同遮擋和乘客頭部大小變化的問(wèn)題。該方法對(duì)地鐵站臺(tái)的公共安全具有重要意義;地鐵工作人員可以根據(jù)乘客數(shù)量引導(dǎo)和疏導(dǎo)人流。通過(guò)對(duì)比實(shí)驗(yàn)驗(yàn)證了所提出的MFEM算法的有效性。特別是為了評(píng)估它在地鐵平臺(tái)上的有效性,文章收集并標(biāo)記了一個(gè)新的數(shù)據(jù)集,稱為地鐵平臺(tái)數(shù)據(jù)集,由9243個(gè)帶注釋的人的627幅圖像組成。大量實(shí)驗(yàn)的結(jié)果表明,文章提出的方法在所提出的Metro Platform數(shù)據(jù)集上提供了出色的結(jié)果,并且可以在四個(gè)主要人群計(jì)數(shù)基準(zhǔn)中與最先進(jìn)的方法競(jìng)爭(zhēng)。
Attention
努力分享優(yōu)質(zhì)的計(jì)算機(jī)視覺(jué)相關(guān)內(nèi)容,歡迎關(guān)注:
個(gè)人微信(如果沒(méi)有備注不拉群!) 請(qǐng)注明:地區(qū)+學(xué)校/企業(yè)+研究方向+昵稱
下載1:何愷明頂會(huì)分享
在「AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù):何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經(jīng)典工作的總結(jié)分析
下載2:終身受益的編程指南:Google編程風(fēng)格指南
在「AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù):c++,即可下載。歷經(jīng)十年考驗(yàn),最權(quán)威的編程規(guī)范!
下載3 CVPR2021
在「AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù):CVPR,即可下載1467篇CVPR 2020論文 和 CVPR 2021 最新論文
點(diǎn)亮
只需一秒,我卻能開心一天
