OpenCV4中的非典型深度學習模型
點擊上方“AI算法與圖像處理”,選擇加"星標"或“置頂”
重磅干貨,第一時間送達
本文轉自|OpenCV學堂
引言 ·
前面給大家分別匯總了OpenCV中支持的圖像分類與對象檢測模型,視覺視覺任務除了分類與檢測還有很多其他任務,這里我們就來OpenCV中支持的非分類與檢測的視覺模型匯總一下。注意一點,匯總支持的模型都是OpenCV4.4 Github上已經提供的,事實上除了官方的提供的模型,讀者還可以自己探索更多非官方模型支持。這里的匯總模型主要來自OpenCV社區(qū)官方測試過的。
語義分割網絡
OpenCV4 DNN支持的語義分割網絡FCN與ENet、ResNet101_DUC_HDC等三個語義分割模型。
FCN
其中FCN主要是基于VGG16~VGG19作為基礎網絡,速度很慢,該網絡是在2015年時候提出,是早期很典型的圖像語義分割網絡,不是一個對稱的卷積反卷積分割網絡,在編碼階段網絡過長,解碼網絡很少,結果堪憂!網絡結構如下:


分別支持不同分辨率的上采樣。
論文下載地址:
https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Long_Fully_Convolutional_Networks_2015_CVPR_paper.pdf
ENet
ENet是一種實時語義分割網絡,在2016年提出的,關于ENet語義分割網絡,我其實之前寫過一篇文章,詳細介紹過,這里就不再啰嗦了,直接看這個鏈接即可:
論文下載地址:
https://arxiv.org/pdf/1606.02147.pdf
ResNet101_DUC_HDC
該模型在編碼網絡中基于殘差網絡與混合空洞卷積(HDC-Hybrid Dilated Convolution),在解碼階段采用密集上采樣卷積(DUC-Dense Upsampling Convolution),最終實現(xiàn)了像素級別的圖像語義分割網絡。網絡模型結構如下:

該論文在2017發(fā)表,論文地址如下:
https://arxiv.org/pdf/1702.08502.pdf
姿態(tài)評估
OpenCV DNN支持的姿態(tài)評估是基于OpenPose網絡實現(xiàn)的身體與手部姿態(tài)評估,OpenPose是一個開源的姿態(tài)評估項目支持2D與3D模型的姿態(tài)評估,提供了C++/Python的API調用接口。模型可以從它github地址獲得
https://github.com/CMU-Perceptual-Computing-Lab/openpose
相關的模型主要來自它們的系列論文, 姿態(tài)評估的基本原理與流程如下:


完整的姿態(tài)評估流程入上圖,首先預測熱圖與PAF,然后進行匹配與解析,最終得到輸出的姿態(tài)評估結果。相關的論文地址如下
https://arxiv.org/pdf/1812.08008v2.pdfhttps://arxiv.org/pdf/1611.08050.pdf
圖像處理
OpenCV中圖像處理網絡支持圖像色彩遷移、圖像風格遷移、邊緣檢測。
色彩遷移:
其中灰度圖像轉換彩色圖像的模型結構如下:

其中有個重要的輸入特征點是要把RGB彩色圖像轉換為LAB通道圖像,然后對AB輸入,最后結果重新加上L分量。代碼在這里
http://richzhang.github.io/colorization/
風格遷移
風格遷移網絡主要是來自于2016李飛飛等提出感知損失的圖像風格遷移與超分辨率論文實現(xiàn)的,網絡結構如下:

github地址如下:
https://github.com/jcjohnson/fast-neural-style
邊緣檢測
OpenCV中傳統(tǒng)的圖像邊緣檢測算法是Canny,現(xiàn)在OpenCV支持基于深度學習的邊緣檢測算法HED,它與Canny算法的邊緣提取效果對比如下:

該論文是在2015年提出的,模型結構如下:

作者選擇了VGGNet作為特征提取與基礎網絡。
論文地址:
https://arxiv.org/pdf/1504.06375.pdf
人臉識別
人臉識別來自OpenFace,OpenFace是一種典型的移動端實時的人臉識別模型,跟它相似的還有LightCNN模型。OpenFace是基于facenet的Inception網絡作為backbone網絡訓練生存的torch網絡模型,然后基于SVM實現(xiàn)了分類推理,完整的OpenFace項目結構如下:

其中預處理階段的人臉對齊示意圖如下:

關于FaceNet的人臉識別論文
https://arxiv.org/pdf/1503.03832.pdf
OpenCV DNN支持的8位的量化之后的人臉識別模型,最終輸出的向量是128維的,模型下載可以從Github地址:
https://github.com/cmusatyalab/openface
場景文字檢測
場景文字檢測來自2017年曠視科技提出的EAST場景文字檢測模型,相關的模型結構如下:

最終輸出的文本區(qū)域解析后處理如下:

最常見的是解析位RBOX,即帶角度的旋轉矩形(最小外接矩形)。
論文地址如下:
https://arxiv.org/pdf/1704.03155.pdf
最后總結一下,上述網絡均支持在OpenCV4.4版本上直接推理運行,或者自定義數據學習之后的在OpenCV4 DNN部署,推理調用。
個人微信(如果沒有備注不拉群!) 請注明:地區(qū)+學校/企業(yè)+研究方向+昵稱
下載1:何愷明頂會分享
在「AI算法與圖像處理」公眾號后臺回復:何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經典工作的總結分析
下載2:終身受益的編程指南:Google編程風格指南
在「AI算法與圖像處理」公眾號后臺回復:c++,即可下載。歷經十年考驗,最權威的編程規(guī)范!
下載3 CVPR2021
在「AI算法與圖像處理」公眾號后臺回復:CVPR,即可下載1467篇CVPR 2020論文 和 CVPR 2021 最新論文
點亮
,告訴大家你也在看
