概述 | 全景圖像拼接技術(shù)全解析
點(diǎn)擊上方“小白學(xué)視覺”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時(shí)間送達(dá)
前言
圖像/視頻拼接的主要目的是為了解決相機(jī)視野(FOV-Field Of View)限制,生成更寬的FOV圖像/視頻場景。視頻拼接在體育直播、全景顯示、數(shù)字娛樂、視頻處理中都被廣泛應(yīng)用,同時(shí)視頻/圖像拼接涉及到矯正圖像、對其與匹配圖像、融合、統(tǒng)一光照、無縫連接、多尺度重建等各個(gè)圖像算法模型與細(xì)節(jié)處理,可以說是圖像處理技術(shù)的綜合運(yùn)用。特別是最近幾年收到深度學(xué)習(xí)的影響,各種基于深度學(xué)習(xí)的圖像對齊與拼接技術(shù)也取得了長足發(fā)展。
01
圖像拼接流程
圖像拼接流程主要是針對輸入系列視頻幀或者圖像,基于像素像素或者特征點(diǎn)相似然后對齊圖像、融合對齊之后的圖像,更新全景圖像拼接結(jié)果,圖示如下:

最常見就是基于SIFT/SURF/OBR/AKAZE等方法實(shí)現(xiàn)特征提取,基于RANSAC等方法實(shí)現(xiàn)對齊,基于圖像融合或者無縫克隆算法實(shí)現(xiàn)對齊圖像的拼接。
針對不同的拼接方式可以分為圖像拼接、視頻拼接、全景拼接。針對圖像拼接可以分為像素相似與特征相似;視頻拼接又分為固定相機(jī)、移動(dòng)相機(jī);全景拼接分為單相機(jī)、相機(jī)列陣、魚眼相機(jī)列陣。圖示如下:


02
深度學(xué)習(xí)方法
通過卷積神經(jīng)網(wǎng)絡(luò)CNN可以更好的學(xué)習(xí)與提取圖像特征、通過語義分割獲取初始匹配、然后對齊,圖示如下:

其中IA與IB是輸入圖像,CNN是預(yù)訓(xùn)練的特征提取網(wǎng)絡(luò)模型,匹配網(wǎng)絡(luò)與回歸網(wǎng)絡(luò)。其中匹配網(wǎng)絡(luò)主要是計(jì)算相似程度,其網(wǎng)絡(luò)計(jì)算方式如下:

回歸網(wǎng)絡(luò)的結(jié)構(gòu)如下:

