1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        谷歌發(fā)布語義分割新數(shù)據(jù)集!

        共 1664字,需瀏覽 4分鐘

         ·

        2021-04-30 08:17

        轉自:新智元

        編輯:LRS


        對于人來說,看一張平面照片能夠想象到重建后的3D場景布局,能夠根據(jù)2D圖像中包含的有限信號來識別對象,確定實例大小并重建3D場景布局。

        ?

        這個問題有一個術語叫做光學可逆問題inverse optics problem,它是指從視網膜圖像到視網膜刺激源的模糊映射。

        ?

        現(xiàn)實世界中的計算機視覺應用,例如自動駕駛就嚴重依賴這些功能來定位和識別3D對象,這需要AI模型來推斷投影到2D圖像的每個3D點的空間位置、語義類別和實例標簽。

        ?

        從圖像重建3D世界的能力可以分解為兩個獨立的子任務:單眼深度估計(從單個圖像預測深度)和視頻全景分割(實例分割和語義分割)。

        ?

        研究人員通常對每個任務提出不同的模型,通過在多個任務之間共享計算的模型權重。在實際應用的時候,將這些任務與統(tǒng)一的計算機視覺模型一起處理可以簡化部署提高效率。


        852dfd0298b53fa20988cc9a27d40182.webp

        ?

        基于這個研究背景,Google提出一個全新的模型ViP-DeepLab,通過深度感知視頻全景分割來學習視覺感知,已被CVPR 2021接受,旨在同時解決單眼深度估計和視頻全景分割。

        ?

        論文中還導出了兩個數(shù)據(jù)集,并提出了一種稱為深度感知視頻全景質量(DVPQ)的新評估指標,這個新指標可以同時評估深度估計和視頻全景分割。

        ?

        ViP-DeepLab是一個統(tǒng)一的模型,可以對圖像平面上的每個像素聯(lián)合執(zhí)行視頻全景分割和單眼深度估計,并在子任務的幾個學術數(shù)據(jù)集取得了sota結果。

        ?


        e48e30b21122731e58035bacd013e209.webp


        ?

        ViP-DeepLab通過從兩個連續(xù)的幀作為輸入來執(zhí)行其他預測,輸出包括第一幀的深度估計,它為每個像素分配一個深度估計值。

        ?

        此外,ViP-DeepLab還對出現(xiàn)在第一幀中的對象中心執(zhí)行兩個連續(xù)幀的中心回歸,此過程稱為中心偏移預測,它允許兩個幀中的所有像素分組到出現(xiàn)在第一幀中的同一對象。如果未將新實例匹配到先前檢測到的實例中,則會出現(xiàn)新實例。

        ?

        ?

        1f466a36499f91f6284f6a62db161f46.webp

        ?

        ViP-DeepLab的輸出可以用于視頻全景分割。連接兩個連續(xù)的幀作為輸入。語義分割輸出將每個像素與其語義類別相關聯(lián),而實例分割輸出則從與第一幀中的單個對象相關聯(lián)的兩個幀中識別像素,輸入圖像來自Cityscapes數(shù)據(jù)集。

        ?

        e6829e96f691edcef4b6173f1608206d.webp

        ?

        論文中在多個流行的基準數(shù)據(jù)集上測試了ViP-DeepLab,包括Cityscapes-VPS,KITTI深度預測和KITTI多對象跟蹤和分段(MOTS)。

        ?

        ViP-DeepLab都取得了SOTA的結果,在Cityscapes-VPS測試上,其視頻全景質量(VPQ)大大優(yōu)于以前的方法,達到了5.1%。

        ?

        1850e5910172e5f85e7998d48e7a73c3.webp

        ?

        在KITTI深度預測基準上進行單眼深度估計的比較,對于深度估算指標,值越小,性能越好。盡管差異可能看起來很小,但在此基準上性能最高的方法通常在SILog中的間隙小于0.1。

        ?

        ee705619183da0f2f0fb789c2444af09.webp

        ?

        此外,VIP-DeepLab也在KITTI MOTS行人和汽車排名度量使用新的度量標準HOTA,都取得了顯著提升。

        ?

        edd9c5b950150011598193d9511807a7.webp


        最后,論文中還為新任務提供了兩個新的數(shù)據(jù)集,即深度感知視頻全景分割,并在其上測試了ViP-DeepLab,而這個模型的結果將成為社區(qū)進行比較的基準模型。

        ?

        1a6679dd6a4655bdb7343c23fa48e22d.webp

        ?

        ViP-DeepLab具有簡單的體系結構,可在視頻全景分割,單眼深度估計以及多對象跟蹤和分割方面實現(xiàn)最先進的性能,這個模型也能幫助進一步研究對2D場景中的真實世界。


        參考資料:

        https://ai.googleblog.com/2021/04/holistic-video-scene-understanding-with.html

        原文連接:

        https://mp.weixin.qq.com/s/AEx_9dzArytImBgg8eCW_g


        往期精彩:

        【原創(chuàng)首發(fā)】機器學習公式推導與代碼實現(xiàn)30講.pdf

        【原創(chuàng)首發(fā)】深度學習語義分割理論與實戰(zhàn)指南.pdf

        ?談中小企業(yè)算法崗面試

        ?算法工程師研發(fā)技能表

        ?真正想做算法的,不要害怕內卷

        ?算法工程師的日常,一定不能脫離產業(yè)實踐

        ?技術學習不能眼高手低

        ?技術人要學會自我營銷

        ?做人不能過擬合

        瀏覽 35
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            一级毛片久久久久久久女人18 | 99精品一区二区 | 黄色视频91 | 亚洲男女激情91免费网站 | 天堂在线www | 国产精品三级在线 | 中文字幕在线精品 | 伊人一二三区 | 色第一页| 欧美性猛交XXXX乱大交久久 |