1. 基于深度學(xué)習(xí)的單目深度估計綜述

        共 5368字,需瀏覽 11分鐘

         ·

        2020-10-12 06:52

        ↑ 點擊藍字?關(guān)注極市平臺

        來源丨點云PCL
        編輯丨極市平臺

        極市導(dǎo)讀

        ?

        本文是一篇關(guān)于單目深度估計方法的綜述文章,總結(jié)了基于深度學(xué)習(xí)的深度估計中被廣泛使用的數(shù)據(jù)集、評價指標和重要的訓(xùn)練方法,并對該領(lǐng)域的未來提出展望。>>加入極市CV技術(shù)交流群,走在計算機視覺的最前沿


        Monocular Depth Estimation Based On Deep Learning: An Overview
        原作者:Chaoqiang Zhao, Qiyu Sun, Chongzhen Zhang
        翻譯:particle

        論文摘要


        深度信息對于自動駕駛系統(tǒng)的感知和估計自身位姿是十分重要的。傳統(tǒng)的深度估計方法,如運動恢復(fù)結(jié)構(gòu)和立體視覺匹配,都是建立在多視點的特征對應(yīng)上的,并且預(yù)測的深度圖是稀疏的。從單個圖像中推斷深度信息(單目深度估計)是一個不適定問題。近年來,隨著深度神經(jīng)網(wǎng)絡(luò)的迅速發(fā)展,基于深度學(xué)習(xí)的單目深度估計得到了廣泛的研究,并取得了良好的精度。比如利用深度神經(jīng)網(wǎng)絡(luò)對單個圖像進行端到端的稠密深度圖估計。為了提高深度估計的精度,之后提出了不同的網(wǎng)絡(luò)結(jié)構(gòu)、損失函數(shù)和訓(xùn)練策略。

        因此,本文綜述了目前基于深度學(xué)習(xí)的單目深度估計方法。首先,我們總結(jié)了幾種在基于深度學(xué)習(xí)的深度估計中廣泛使用的數(shù)據(jù)集和評價指標。此外,根據(jù)不同的訓(xùn)練方式,我們回顧了現(xiàn)有的一些有代表性的訓(xùn)練方法:有監(jiān)督的、無監(jiān)督的和半監(jiān)督的。最后,我們討論了單目深度估計的挑戰(zhàn),并對未來的研究提出了一些設(shè)想。

        相關(guān)工作與介紹


        從圖像中估計深度信息是計算機視覺的一項基本而重要的任務(wù),可廣泛應(yīng)用于同步定位與建圖(SLAM)、導(dǎo)航、目標檢測和語義分割等領(lǐng)域。

        基于幾何的方法:基于幾何約束的方法從一對圖像中恢復(fù)三維結(jié)構(gòu)是感知深度的常用方法,近四十年來得到了廣泛的研究。運動恢復(fù)結(jié)構(gòu)(SfM)是從一系列二維圖像序列中估計三維結(jié)構(gòu)的代表性方法,并成功地應(yīng)用于三維重建和SLAM領(lǐng)域。稀疏特征的深度由SfM通過圖像序列之間的特征對應(yīng)和幾何約束來計算,即深度估計的精度很大程度上依賴于精確的特征匹配和高質(zhì)量的圖像序列。但是,SfM還存在單目尺度模糊的問題。立體視覺匹配還可以通過從兩個視點觀察場景來恢復(fù)場景的三維結(jié)構(gòu)。立體視覺匹配通過兩個相機的形式模擬人眼的運動方式,通過代價函數(shù)計算出圖像的視差圖。由于預(yù)先標定了兩個攝像機之間的變換,所以在立體視覺匹配期間,在深度估計中包括尺度信息的計算。

        雖然上述基于幾何的方法可以有效地計算稀疏點的深度值,但這些方法通常依賴于圖像匹配或圖像序列。由于缺乏有效的幾何解,如何從單個圖像中獲取密集的深度圖仍然是一個重大的挑戰(zhàn)。

        基于傳感器的方法:利用深度傳感器,如RGBD相機和LIDAR,可以直接獲得相應(yīng)圖像的深度信息。RGB-D相機能夠直接獲得RGB圖像的像素級密集深度圖,但其測量范圍有限,室外對光照敏感。雖然激光雷達在無人駕駛和工業(yè)中廣泛應(yīng)用于深度測量,但它只能生成稀疏的三維地圖。此外,這些深度傳感器(RGBD相機和LIDAR)的大尺寸和功耗影響了它們在小型機器人上的應(yīng)用,比如無人機。由于單目相機成本低、體積小、應(yīng)用范圍廣,從單個圖像中估計稠密深度圖越來越受到人們的關(guān)注,近年來基于端到端深度學(xué)習(xí)的方法得到了廣泛的研究。

        基于深度學(xué)習(xí)的方法:隨著深度學(xué)習(xí)的快速發(fā)展,深度神經(jīng)網(wǎng)絡(luò)在圖像處理方面表現(xiàn)出了突出的性能,如目標檢測和語義分割等領(lǐng)域,最近的發(fā)展表明,基于深度學(xué)習(xí),可以從單個圖像中以端到端的方式恢復(fù)像素級深度圖。各種神經(jīng)網(wǎng)絡(luò)已經(jīng)證明了它們對解決單目深度估計的有效性,例如卷積神經(jīng)網(wǎng)絡(luò)(CNNs),遞歸神經(jīng)網(wǎng)絡(luò)(RNNs),變分自動編碼器(VAEs)和生成對抗網(wǎng)絡(luò)(GANs)。本綜述的主要目的是提供對主流算法的直觀理解,這些算法對單目深度估計做出了重大貢獻,我們從學(xué)習(xí)方法的角度回顧了單目深度估計的一些相關(guān)工作。

        深度估計中的數(shù)據(jù)集和評價指標


        數(shù)據(jù)集

        KITTI:KITTI數(shù)據(jù)集是計算機視覺中最大、最常用的子任務(wù)數(shù)據(jù)集,如光流、視覺里程計、深度估計、目標檢測、語義分割和跟蹤,它也是無監(jiān)督和半監(jiān)督單目深度估計中最常用的基準和主要訓(xùn)練數(shù)據(jù)集。

        NYU Depth :NYU Depth數(shù)據(jù)集更關(guān)注室內(nèi)環(huán)境,該數(shù)據(jù)集中有464個室內(nèi)場景。與用激光雷達采集地面真實情況的KITTI數(shù)據(jù)集不同,NYU Depth數(shù)據(jù)集通過RGB-D攝像機獲取場景的單目視頻序列和地面的深度真值。它是有監(jiān)督單目深度估計的常用基準和主要訓(xùn)練數(shù)據(jù)集。

        Cityscapes:Cityscapes 數(shù)據(jù)集主要關(guān)注語義分割任務(wù)。在這個數(shù)據(jù)集中,有5000幅圖像帶有精細注釋,20000幅圖像具有粗略標注。

        Make3D:?Make3D數(shù)據(jù)集只包含單目的RGB和深度圖像,沒有立體圖像,這與上述數(shù)據(jù)集不同。由于該數(shù)據(jù)集中沒有單目序列或立體圖像對,因此半監(jiān)督和非監(jiān)督學(xué)習(xí)方法都不將其作為訓(xùn)練集,而有監(jiān)督方法通常采用它作為訓(xùn)練集。相反,它被廣泛用作無監(jiān)督算法的測試集,以評估網(wǎng)絡(luò)在不同數(shù)據(jù)集上的泛化能力。

        評價指標

        為了評價和比較各種深度估計網(wǎng)絡(luò)的性能,文章提出了一種常用的深度估計網(wǎng)絡(luò)性能評價方法,該方法有五個評價指標:RMSE、RMSE-log、Abs-Rel、Sq-Rel、精度。這些指標的公式如下:

        基于深度學(xué)習(xí)的單目深度估計

        在本節(jié)中,我們將從使用地面真實性的角度來回顧單目深度估計方法:有監(jiān)督方法、無監(jiān)督方法和半監(jiān)督方法。雖然無監(jiān)督和半監(jiān)督方法的訓(xùn)練過程依賴于單目視頻或立體圖像對,但訓(xùn)練后的深度網(wǎng)絡(luò)在測試過程中從單個圖像預(yù)測深度圖。我們從訓(xùn)練數(shù)據(jù)、監(jiān)督信號和貢獻等方面對現(xiàn)有的方法進行了總結(jié),并收集了在KITTI數(shù)據(jù)集上評價的無監(jiān)督和半監(jiān)督算法的定量結(jié)果。

        有監(jiān)督單目深度估計

        監(jiān)督方法的基本模型:監(jiān)督方法的監(jiān)督信號基于深度圖的地面真值,因此單目深度估計可以看作是一個回歸問題。從單個深度圖像設(shè)計神經(jīng)網(wǎng)絡(luò)來預(yù)測深度。利用預(yù)測深度圖和實際深度圖之間的差異來監(jiān)督網(wǎng)絡(luò)的訓(xùn)練 L2損失
        深度網(wǎng)絡(luò)通過近似真值的方法來學(xué)習(xí)場景的深度。

        基于不同結(jié)構(gòu)和損失函數(shù)的方法:據(jù)我們所知,Eigen等人首先用CNNs解決單目深度估計問題。該體系結(jié)構(gòu)由兩個組成部分組成(全局粗尺度網(wǎng)絡(luò)和局部精細尺度網(wǎng)絡(luò)),在文獻中用于從單個圖像進行端到端的深度圖預(yù)測。

        基于條件隨機場的方法:Li等人提出了一種基于多層的條件隨機場(CRFs)的細化方法,該方法也被廣泛應(yīng)用于語義分割。在深度的估計中,考慮到深度的連續(xù)特征,可以廣泛地使用CRF的深度信息,因此可以廣泛地應(yīng)用于深度的估計中。

        基于對抗性學(xué)習(xí)的方法:由于提出的對抗性學(xué)習(xí)在數(shù)據(jù)生成方面的突出表現(xiàn),近年來成為一個研究熱點。各種算法、理論和應(yīng)用已得到廣泛發(fā)展。對抗式學(xué)習(xí)深度估計的框架如圖所示。
        無監(jiān)督單目深度估計

        在無監(jiān)督方法的訓(xùn)練過程中,將幀間的幾何約束作為監(jiān)督信號,而不是使用代價昂貴的背景真值。

        無監(jiān)督方法的基本模型:無監(jiān)督方法由單眼圖像序列訓(xùn)練,幾何約束建立在相鄰幀之間的投影上

        左邊是無監(jiān)督方法中視圖重建的圖像變換過程? 右邊是無監(jiān)督單目深度估計方法的一般框架。

        基于可解釋性掩模的方法:基于投影函數(shù)的視圖重建算法依賴于靜態(tài)場景假設(shè),即動態(tài)目標在相鄰幀上的位置不滿足投影函數(shù),從而影響測光度誤差和訓(xùn)練過程。

        基于傳統(tǒng)視覺里程計的方法:在文獻[16]中,用傳統(tǒng)的直接視覺里程計回歸的位姿來輔助深度估計,而不是使用位姿網(wǎng)絡(luò)估計的位姿。直接視覺里程計利用深度網(wǎng)絡(luò)生成的深度圖和一個三幀圖像,通過最小化光度誤差來估計幀間的姿態(tài),然后將計算出的姿態(tài)發(fā)送回訓(xùn)練框架。因此,由于深度網(wǎng)絡(luò)由更精確的姿態(tài)來監(jiān)督,因此深度估計的精度顯著提高。

        基于多任務(wù)框架的方法:最近的方法在基本框架中引入了額外的多任務(wù)網(wǎng)絡(luò),如光流、物體運動和相機內(nèi)參矩陣,作為一個附加的訓(xùn)練框架,加強了整個訓(xùn)練任務(wù)之間的關(guān)系

        基于對抗學(xué)習(xí)的方法:將對抗學(xué)習(xí)框架引入到無監(jiān)督的單目深度估計中。由于在無監(jiān)督訓(xùn)練中沒有真正的深度圖。因此,將視圖重建算法合成的圖像和真實圖像作為鑒別器的輸入,而不是使用鑒別器來區(qū)分真實深度圖和預(yù)測深度圖。
        半監(jiān)督單目深度估計

        由于在訓(xùn)練過程中不需要真值,因此無監(jiān)督方法的性能與監(jiān)督方法還有很大差距。此外,無監(jiān)督方法也存在著尺度模糊、尺度不一致等問題。因此,為了提高估計精度,減少對真值的依賴,提出了半監(jiān)督方法。此外,還可以從半監(jiān)督信號中學(xué)習(xí)尺度信息。立體圖像對的訓(xùn)練類似于單目視頻,其主要區(qū)別在于兩幀(左右圖像或前向后圖像)之間的變換是否已知。因此,一些研究將基于立體圖像對的框架視為無監(jiān)督方法,而另一些研究將其視為半監(jiān)督方法。本文將其視為半監(jiān)督方法,而左右圖像之間的姿態(tài)是訓(xùn)練過程中的監(jiān)督信號。

        半監(jiān)督方法的基本模型:訓(xùn)練在立體圖像對上的半監(jiān)督方法估計左右圖像之間的視差圖(逆深度圖)。然后,使用由預(yù)測的逆深度計算的視差圖Dis通過變換圖從右圖像合成左圖像,如圖所示。

        基于立體圖像對的半監(jiān)督單目深度估計的一般框架。深度網(wǎng)絡(luò)取左圖像預(yù)測其像素級逆深度圖(或視差圖),利用預(yù)測的逆深度圖通過逆扭曲算法從右圖像重建左圖像。通過計算重構(gòu)誤差來監(jiān)督訓(xùn)練過程。

        基于立體匹配的方法:Luo等人提出了一種基于Deep3D的視景合成網(wǎng)絡(luò),用于從左圖像估計右圖像,這與上述工作不同。此外,還設(shè)計了立體匹配網(wǎng)絡(luò),對原始的左、右圖像進行立體匹配,對視差圖進行回歸。

        基于對抗式學(xué)習(xí)和知識提煉的方法:結(jié)合先進的網(wǎng)絡(luò)框架,如對抗式學(xué)習(xí)和知識提煉,正變得越來越流行,并能顯著提高其性能。

        基于稀疏真值的方法:為了增強監(jiān)督信號,將稀疏真值廣泛地引入訓(xùn)練框架中。Kuznietsov等人。采用激光雷達采集的地面真實深度進行半監(jiān)督學(xué)習(xí)。另外,左右深度圖均由CNNs估計,基于LIDAR數(shù)據(jù)的監(jiān)督信號(Gl,Gr)公式如下:

        討論


        總的來說,我們認為單目深度估計的發(fā)展仍將集中在提高精度、可傳輸性和實時性上。

        精度:以往的工作主要集中在通過采用新的損失函數(shù)或網(wǎng)絡(luò)框架來提高深度估計的精度,如表一所示。LSTM、VAE、GANs等幾種著名的網(wǎng)絡(luò)框架在提高深度估計性能方面已顯示出其有效性。因此,隨著深層神經(jīng)網(wǎng)絡(luò)的發(fā)展,嘗試新的網(wǎng)絡(luò)框架,如三維卷積、圖形卷積、注意機制[和知識蒸餾,可能會得到令人滿意的結(jié)果。雖然無監(jiān)督方法在訓(xùn)練過程中不依賴于地面真實情況,但其精度與目前最有效的半監(jiān)督方法相差甚遠,如表二所示。尋找一個更有效的幾何約束來改進無監(jiān)督方法可能是一個很好的方向。
        可傳輸性:可傳輸性是指同一網(wǎng)絡(luò)在不同攝像機、不同場景和不同數(shù)據(jù)集上的性能。深度網(wǎng)絡(luò)的可傳輸性越來越受到人們的關(guān)注。目前大多數(shù)的方法都是在同一個數(shù)據(jù)集上訓(xùn)練和測試的,從而獲得了令人滿意的結(jié)果。然而,不同領(lǐng)域或不同攝像機采集的訓(xùn)練集和測試集往往會導(dǎo)致性能嚴重下降。將攝像機參數(shù)引入深度估計框架,在訓(xùn)練過程中利用域自適應(yīng)技術(shù),可以顯著提高深度網(wǎng)絡(luò)的可移植性,是近年來研究的熱點。
        實時性:雖然深度的網(wǎng)絡(luò)表現(xiàn)出出色的性能,但它們需要更多的計算時間來完成估計任務(wù),這對它們的應(yīng)用是一個巨大的挑戰(zhàn)。深度估計網(wǎng)絡(luò)在嵌入式設(shè)備上實時運行的能力對其實際應(yīng)用具有重要意義。因此,基于有監(jiān)督、半監(jiān)督和無監(jiān)督學(xué)習(xí)的輕量級網(wǎng)絡(luò)的發(fā)展將是一個很有前途的方向,而目前這方面的相關(guān)研究還不多。由于輕量級網(wǎng)絡(luò)的參數(shù)個數(shù)較少,這就影響了網(wǎng)絡(luò)的性能。因此,在保證實時性的前提下提高精度是一個值得研究的課題。此外,對于基于深度學(xué)習(xí)的單目深度估計方法的機理研究很少,比如深度網(wǎng)絡(luò)學(xué)習(xí)了什么深度線索以及利用了什么深度線索。

        總結(jié)

        本文旨在對基于深度學(xué)習(xí)的單目深度估計這一日益增長的研究領(lǐng)域的綜述文獻。因此,我們結(jié)合損失函數(shù)和網(wǎng)絡(luò)框架的應(yīng)用,從訓(xùn)練方式的角度對單目深度估計的相關(guān)工作進行了綜述,包括有監(jiān)督、無監(jiān)督和半監(jiān)督學(xué)習(xí)。最后,我們還討論了當(dāng)前研究的熱點和挑戰(zhàn),并對未來的研究提出了一些有價值的想法和有希望的方向。


        推薦閱讀



        ACCV 2020國際細粒度網(wǎng)絡(luò)圖像識別競賽正式開賽!

        添加極市小助手微信(ID : cvmart2),備注:姓名-學(xué)校/公司-研究方向-城市(如:小極-北大-目標檢測-深圳),即可申請加入極市目標檢測/圖像分割/工業(yè)檢測/人臉/醫(yī)學(xué)影像/3D/SLAM/自動駕駛/超分辨率/姿態(tài)估計/ReID/GAN/圖像增強/OCR/視頻理解等技術(shù)交流群:月大咖直播分享、真實項目需求對接、求職內(nèi)推、算法競賽、干貨資訊匯總、與?10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動交流~

        △長按添加極市小助手

        △長按關(guān)注極市平臺,獲取最新CV干貨

        覺得有用麻煩給個在看啦~??


        瀏覽 85
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
          
          

            1. 精品呦交小u女在线 | 中文字幕有码无码人妻aV蜜桃 | 国产操大逼视频 | 黑丝美女被人操 | 日本抽插视频 |