1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        Swin-Transformer再次助力奪冠 | Kaggle第1名方案解讀

        共 3491字,需瀏覽 7分鐘

         ·

        2021-10-30 06:17

        ↑ 點(diǎn)擊藍(lán)字?關(guān)注極市平臺(tái)

        作者丨ChaucerG
        來(lái)源丨集智書童
        編輯丨極市平臺(tái)

        極市導(dǎo)讀

        ?

        本文詳細(xì)介紹了Kaggle冠軍方案中的two-step “detect-then-match”的視頻實(shí)例分割方法。?>>加入極市CV技術(shù)交流群,走在計(jì)算機(jī)視覺的最前沿

        在報(bào)告中介紹了two-step “detect-then-match”的視頻實(shí)例分割方法。第1步對(duì)每一幀進(jìn)行實(shí)例分割得到大量的instance mask proposals。第2步是利用光流進(jìn)行幀間instance mask matching。用high quality mask proposals證明了一個(gè)簡(jiǎn)單的匹配機(jī)制可以促使得到更好的跟蹤。本文的方法在2021年UVO比賽中取得了第1名的成績(jī)。

        1 實(shí)例分割

        這里作者采用了先檢測(cè)后進(jìn)行語(yǔ)義分割的Pipeline的方法。

        • 首先,訓(xùn)練一個(gè)目標(biāo)檢測(cè)器為視頻的每一幀生成邊界框。
        • 然后,取前100個(gè)bounding box proposals,裁剪帶有這些bounding box的圖像,并將調(diào)整大小后的圖像塊輸入前景/背景分割網(wǎng)絡(luò),以獲得Instance Mask。

        1、檢測(cè)網(wǎng)絡(luò)

        • 作者采用Cascade Region Proposal Network作為Baseline,采用Focal loss和GIoU loss進(jìn)行分類和邊界框回歸。
        • 在訓(xùn)練過(guò)程中,作者使用2個(gè)獨(dú)立的SimOTA采樣器進(jìn)行正/負(fù)樣本采樣,其中一個(gè)用于分類,另一個(gè)用于邊界框回歸。與此同時(shí)作者也放寬了邊界框回歸采樣器的選擇標(biāo)準(zhǔn),以獲得更多的正樣本。
        • 與分類頭和邊界框回歸頭并行增加一個(gè)IoU分支,用于預(yù)測(cè)預(yù)測(cè)邊界框與ground truth之間的IoU。
        • 為了解決目標(biāo)檢測(cè)中分類任務(wù)和回歸任務(wù)之間的沖突問(wèn)題,作者采用了decoupled head算法。
        • 為了節(jié)省內(nèi)存,所有金字塔的頭部都有相同的權(quán)重。
        • 將decoupled head的第1卷積層替換為DCN。
        • 作者在FPN中添加了CARAFE塊,并使用Swin-Transformer作為Backbone。

        2、語(yǔ)義分割

        前面使用檢測(cè)網(wǎng)絡(luò)預(yù)測(cè)的邊界框來(lái)裁剪圖像,并將它們的大小調(diào)整為512×512。裁剪后的圖像路徑被輸入到分割網(wǎng)絡(luò)以獲得Instance Mask。作者采用了Upernet架構(gòu)和Swin-Transformer作為Backbone。該分割網(wǎng)絡(luò)是一種二值分割網(wǎng)絡(luò),如果像素屬于目標(biāo),則被預(yù)測(cè)為前景,否則被預(yù)測(cè)為背景。

        2 幀間Mask匹配

        圖1

        圖1顯示了本文方法的概述。作者的想法類似于IoU-tracker。利用預(yù)測(cè)的光流將前一幀的跟蹤器wrapped 到當(dāng)前幀,然后通過(guò)計(jì)算被wrapped Mask與detected Mask之間的IoU將跟蹤器與當(dāng)前幀的detected Mask匹配。用M表示所有幀的 mask proposals,表示幀t的mask proposal。t表示視頻長(zhǎng)度,F(xiàn)表示光流,其中表示幀t與幀t+1之間的光流。

        • 首先,用第1幀中的mask proposal初始化跟蹤器。
        • 然后,使用光流將跟蹤器的warpped mask到第2幀。
        • 然后,通過(guò)計(jì)算它們之間的IoU,將warpped mask與detected Mask 匹配。

        作者認(rèn)為只有當(dāng)IoU大于固定閾值時(shí)匹配才會(huì)成功。如果跟蹤器與detected Mask匹配,則用匹配的Mask替換跟蹤器的最新Mask。如果跟蹤器和中的Mask之間沒有匹配,則使用warpped mask更新其最新的Mask。如果跟蹤器沒有連續(xù)匹配5幀,從跟蹤器列表中刪除這個(gè)跟蹤器。對(duì)于中沒有匹配跟蹤器的Mask,作者用這些Mask初始化新的跟蹤器,并將這些跟蹤器添加到跟蹤器列表中使用非最大抑制(NMS)來(lái)去除最新Mask IoU大于0.7的跟蹤器。給每個(gè)跟蹤器分配一個(gè)分?jǐn)?shù),這個(gè)分?jǐn)?shù)是被跟蹤的幀數(shù)和檢測(cè)分?jǐn)?shù)之和的乘積。

        3 復(fù)現(xiàn)細(xì)節(jié)

        1、檢測(cè)模型

        作者使用MMDetection來(lái)訓(xùn)練檢測(cè)器。對(duì)于Backbone網(wǎng)絡(luò),作者通過(guò)ImageNet 22k預(yù)訓(xùn)練了Swin-Transformer。這里所有的檢測(cè)器都經(jīng)過(guò)了Detectron ‘1x’ setting的訓(xùn)練。2個(gè)SimOTA采樣的中心比設(shè)置為0.25,分類頭的top-K數(shù)設(shè)置為10,回歸頭的top-K數(shù)設(shè)置為20,以獲得更多的正樣本。分類分支和回歸分支使用4個(gè)的卷積層,IoU分支和回歸分支共享相同的卷積層。為了訓(xùn)練以Swin-Transformer為Backbone的檢測(cè)器,作者采用AdamW作為優(yōu)化器,初始學(xué)習(xí)率設(shè)置為1e-4。批量大小設(shè)置為16。在COCO上進(jìn)行訓(xùn)練后,結(jié)合6個(gè)epoch的UVO-Sparse和UVO-Dense數(shù)據(jù)集對(duì)檢測(cè)器進(jìn)行微調(diào)。所有的檢測(cè)器都是以 class-agnostic的方式訓(xùn)練的。在推理過(guò)程中增加測(cè)試時(shí)間,進(jìn)一步提高網(wǎng)絡(luò)性能。

        2、語(yǔ)義分割

        作者使用MMSegmentation來(lái)訓(xùn)練分割網(wǎng)絡(luò)。這里使用與檢測(cè)網(wǎng)絡(luò)相同的Backbone。在訓(xùn)練過(guò)程中,給定一幅圖像和一個(gè)Instance Mask,首先生成一個(gè)bounding box,bounding box包含Instance Mask,然后在bounding box的各個(gè)方向上添加20像素的邊界。作者使用生成的邊界框來(lái)裁剪圖像,并調(diào)整圖像補(bǔ)丁的大小為。隨機(jī)翻轉(zhuǎn)、隨機(jī)光度失真和隨機(jī)bounding box抖動(dòng)被用作數(shù)據(jù)增強(qiáng)。作者還采用多元學(xué)習(xí)率策略,初始學(xué)習(xí)率設(shè)置為6e-5。批大小被設(shè)置為32,AdamW被用作優(yōu)化器。

        • 首先,在OpenImage, PASCALVOC和COCO數(shù)據(jù)集的組合上訓(xùn)練網(wǎng)絡(luò)為300k iter,
        • 然后,在UVO-Density和UVO-Sparse數(shù)據(jù)集的組合上優(yōu)化網(wǎng)絡(luò)為100k迭代,初始學(xué)習(xí)率設(shè)置為6e-6。

        所有的分割網(wǎng)絡(luò)都是用class-agnostic的方式訓(xùn)練的,因此,分割裁剪路徑中的目標(biāo)成為一個(gè)前景/后景分割問(wèn)題。推理過(guò)程中僅使用翻轉(zhuǎn)試驗(yàn)增強(qiáng)。

        3、光流估計(jì)

        作者在FlyingTh-ings上訓(xùn)練的模型。FlyingThings是一個(gè)用于光流估計(jì)的大規(guī)模合成數(shù)據(jù)集。數(shù)據(jù)集是通過(guò)隨機(jī)化從ShapeNet數(shù)據(jù)集中收集的相機(jī)的運(yùn)動(dòng)和合成對(duì)象生成的。先在FlyingThings上對(duì)光流估計(jì)模型進(jìn)行預(yù)訓(xùn)練,每次迭代10萬(wàn)次,BS為12;然后在FlyingThings3D上進(jìn)行10萬(wàn)次迭代,BS為6。

        指標(biāo)與可視化結(jié)果
        表1
        圖2

        在圖2中,作者展示了一些視頻實(shí)例分割結(jié)果。本文的方法可以適用于不同形狀的物體。

        潛在的改進(jìn)點(diǎn)

        本文簡(jiǎn)單的“檢測(cè)然后匹配”框架可以作為視頻實(shí)例分割的Baseline。它嚴(yán)重依賴于每幀mask proposals的質(zhì)量。該方法的性能可能受到嚴(yán)重遮擋、物體出現(xiàn)/消失/重新出現(xiàn)等因素的影響。通過(guò)在Mask匹配過(guò)程中考慮目標(biāo)層理,可以很好地解決這些問(wèn)題。

        參考

        [1].1st Place Solution for the UVO Challenge on Video-based Open-World Segmentation 2021

        如果覺得有用,就請(qǐng)分享到朋友圈吧!

        △點(diǎn)擊卡片關(guān)注極市平臺(tái),獲取最新CV干貨

        公眾號(hào)后臺(tái)回復(fù)“CVPR21檢測(cè)”獲取CVPR2021目標(biāo)檢測(cè)論文下載~


        極市干貨
        項(xiàng)目/比賽:珠港澳人工智能算法大賽算法打榜
        算法trick目標(biāo)檢測(cè)比賽中的tricks集錦從39個(gè)kaggle競(jìng)賽中總結(jié)出來(lái)的圖像分割的Tips和Tricks
        技術(shù)綜述:一文弄懂各種loss function工業(yè)圖像異常檢測(cè)最新研究總結(jié)(2019-2020)


        #?CV技術(shù)社群邀請(qǐng)函?#

        △長(zhǎng)按添加極市小助手
        添加極市小助手微信(ID : cvmart4)

        備注:姓名-學(xué)校/公司-研究方向-城市(如:小極-北大-目標(biāo)檢測(cè)-深圳)


        即可申請(qǐng)加入極市目標(biāo)檢測(cè)/圖像分割/工業(yè)檢測(cè)/人臉/醫(yī)學(xué)影像/3D/SLAM/自動(dòng)駕駛/超分辨率/姿態(tài)估計(jì)/ReID/GAN/圖像增強(qiáng)/OCR/視頻理解等技術(shù)交流群


        每月大咖直播分享、真實(shí)項(xiàng)目需求對(duì)接、求職內(nèi)推、算法競(jìng)賽、干貨資訊匯總、與?10000+來(lái)自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動(dòng)交流~



        覺得有用麻煩給個(gè)在看啦~??
        瀏覽 78
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評(píng)論
        圖片
        表情
        推薦
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            九色PORNY丨 人妻 | 欧美激情亚洲色图 | 自慰网站免费观看 | 插逼一区二区三区 | 日高清无码 | 亲子乱伦一区二区 | 超碰在线观看2407 | 娇妻被隔壁老王日出白浆电影 | 淫色免费视频 | 人人摸人人操人人摸 |