利用OpenCV 基于Inception模型圖像分類(lèi)
點(diǎn)擊上方“小白學(xué)視覺(jué)”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時(shí)間送達(dá)
本文轉(zhuǎn)自:opencv學(xué)堂
要介紹Inception網(wǎng)絡(luò)結(jié)構(gòu)首先應(yīng)該介紹一下NIN(Network in Network)網(wǎng)絡(luò)模型,2014年新加坡國(guó)立大學(xué)發(fā)表了一篇關(guān)于計(jì)算機(jī)視覺(jué)圖像分類(lèi)的論文,提到采用了一種新的網(wǎng)絡(luò)結(jié)構(gòu)NIN實(shí)現(xiàn)圖像分類(lèi),該論文的第二作者顏水成畢業(yè)于北京大學(xué)數(shù)學(xué)系,現(xiàn)任360人工智能研究院院長(zhǎng)與首席科學(xué)家。NIN主要思想是認(rèn)為CNN網(wǎng)絡(luò)中卷積濾波是基于線(xiàn)性濾波器實(shí)現(xiàn)的,抽象能力不夠,所以一般是用一大堆filter把所有特征都找出來(lái),但是這樣就導(dǎo)致網(wǎng)絡(luò)參數(shù)過(guò)大,論文作者提出通過(guò)MLP(多個(gè)權(quán)重階層組成+一個(gè)非線(xiàn)性激活函數(shù))對(duì)輸入?yún)^(qū)域通過(guò)MLP產(chǎn)生一個(gè)輸出feature map,然后繼續(xù)滑動(dòng)MLP窗口,對(duì)比如下:

這樣做有兩個(gè)好處,
MLP可以共享參數(shù),減少參數(shù)總數(shù)
對(duì)每個(gè)局部感受野神經(jīng)元實(shí)現(xiàn)更加復(fù)雜計(jì)算,提升能力
論文中提到NIN網(wǎng)絡(luò)完整結(jié)構(gòu)如下:

包含了三個(gè)MLP卷積層與一個(gè)全局池化層。
受到這篇文章的影響與啟發(fā),谷歌在2014也提出一個(gè)新的網(wǎng)絡(luò)模型結(jié)構(gòu)Inception網(wǎng)絡(luò)也就是大家熟知v1網(wǎng)絡(luò),其主要貢獻(xiàn)在于實(shí)現(xiàn)了NIN網(wǎng)絡(luò)層數(shù)的增加,并且在訓(xùn)練各個(gè)網(wǎng)絡(luò)時(shí)候?yàn)榱颂岣呤諗?,考慮中間層的輸出與最終分類(lèi)錯(cuò)誤。只是中間層不同,最初inception網(wǎng)絡(luò)的中間層為:

后來(lái)發(fā)現(xiàn)3x3與5x5的卷積計(jì)算耗時(shí)很長(zhǎng),而且輸出導(dǎo)致卷積厚度增加,如果層數(shù)過(guò)度將導(dǎo)致卷積網(wǎng)絡(luò)不可控制,于是就在3x3與5x5的卷積之前分別加上1x1的卷積做降維,修改后的結(jié)構(gòu)如下:

最終得到v1版本的網(wǎng)絡(luò)結(jié)構(gòu)如下:

于是在v1的基礎(chǔ)上作者繼續(xù)工作,加入了BN層,對(duì)大于3x3的卷積用一系列小的卷積進(jìn)行替代,比如7x7可以被1x7與7x1替代兩個(gè)小卷積核,5x5可以被1x5與5x1兩個(gè)小卷積核替代,這樣就得到Inception v2的版本。于是作者繼續(xù)對(duì)此網(wǎng)絡(luò)結(jié)構(gòu)各種優(yōu)化調(diào)整,最終又得到了Inception v3版本
Inception v4一個(gè)最大的改動(dòng)就是引入了殘差網(wǎng)絡(luò)結(jié)構(gòu),對(duì)原有的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行優(yōu)化,得到v1與v2的殘差版本網(wǎng)絡(luò)結(jié)構(gòu),最終得到一個(gè)更加優(yōu)化的v4模型,完整的v4結(jié)構(gòu):

對(duì)應(yīng)的Block A、B、C結(jié)構(gòu)如下:Inception-A

Inception-B

Inception-C

v1模型加殘差網(wǎng)絡(luò)結(jié)構(gòu)

下載Inception預(yù)訓(xùn)練網(wǎng)絡(luò)模型
使用OpenCV DNN模塊相關(guān)API加載模型
運(yùn)行Inception網(wǎng)絡(luò)實(shí)現(xiàn)圖像分類(lèi) 完整的代碼實(shí)現(xiàn)如下:
#include <opencv2/opencv.hpp>
#include <opencv2/dnn.hpp>
#include <iostream>
/******************************************************
*
* 作者:賈志剛
* QQ: 57558865
* OpenCV DNN 完整視頻教程:
* http://edu.51cto.com/course/11516.html
*
********************************************************/
using namespace cv;
using namespace cv::dnn;
using namespace std;
String labels_txt_file = "D:/android/opencv_tutorial/data/models/inception5h/imagenet_comp_graph_label_strings.txt";
String tf_pb_file = "D:/android/opencv_tutorial/data/models/inception5h/tensorflow_inception_graph.pb";
vector<String> readClassNames();
int main(int argc, char** argv) {
Mat src = imread("D:/vcprojects/images/twocat.png");
if (src.empty()) {
printf("could not load image...\n");
return -1;
}
namedWindow("input", CV_WINDOW_AUTOSIZE);
imshow("input", src);
vector<String> labels = readClassNames();
Mat rgb;
cvtColor(src, rgb, COLOR_BGR2RGB);
int w = 224;
int h = 224;
// 加載網(wǎng)絡(luò)
Net net = readNetFromTensorflow(tf_pb_file);
if (net.empty()) {
printf("read caffe model data failure...\n");
return -1;
}
Mat inputBlob = blobFromImage(src, 1.0f, Size(224, 224), Scalar(), true, false);
inputBlob -= 117.0; // 均值
// 執(zhí)行圖像分類(lèi)
Mat prob;
net.setInput(inputBlob, "input");
prob = net.forward("softmax2");
// 得到最可能分類(lèi)輸出
Mat probMat = prob.reshape(1, 1);
Point classNumber;
double classProb;
minMaxLoc(probMat, NULL, &classProb, NULL, &classNumber);
int classidx = classNumber.x;
printf("\n current image classification : %s, possible : %.2f", labels.at(classidx).c_str(), classProb);
// 顯示文本
putText(src, labels.at(classidx), Point(20, 20), FONT_HERSHEY_SIMPLEX, 1.0, Scalar(0, 0, 255), 2, 8);
imshow("Image Classification", src);
imwrite("D:/result.png", src);
waitKey(0);
return 0;
}
std::vector<String> readClassNames()
{
std::vector<String> classNames;
std::ifstream fp(labels_txt_file);
if (!fp.is_open())
{
printf("could not open file...\n");
exit(-1);
}
std::string name;
while (!fp.eof())
{
std::getline(fp, name);
if (name.length())
classNames.push_back(name);
}
fp.close();
return classNames;
}
輸入原圖:

測(cè)試結(jié)果:

關(guān)鍵是速度很快,比VGG快N多,基本秒出結(jié)果!
交流群
歡迎加入公眾號(hào)讀者群一起和同行交流,目前有SLAM、三維視覺(jué)、傳感器、自動(dòng)駕駛、計(jì)算攝影、檢測(cè)、分割、識(shí)別、醫(yī)學(xué)影像、GAN、算法競(jìng)賽等微信群(以后會(huì)逐漸細(xì)分),請(qǐng)掃描下面微信號(hào)加群,備注:”昵稱(chēng)+學(xué)校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺(jué)SLAM“。請(qǐng)按照格式備注,否則不予通過(guò)。添加成功后會(huì)根據(jù)研究方向邀請(qǐng)進(jìn)入相關(guān)微信群。請(qǐng)勿在群內(nèi)發(fā)送廣告,否則會(huì)請(qǐng)出群,謝謝理解~

