1. Video Matting:AI視頻摳圖

        共 2911字,需瀏覽 6分鐘

         ·

        2021-09-02 11:30

        點(diǎn)擊上方機(jī)器學(xué)習(xí)與生成對(duì)抗網(wǎng)絡(luò)”,關(guān)注星標(biāo)

        獲取有趣、好玩的前沿干貨!

        魚(yú)羊 明敏 發(fā)自 凹非寺 量子位 報(bào)道 | 公眾號(hào) QbitAI

        看這一頭蓬松的秀發(fā),加上帥氣的動(dòng)作,你以為是在綠幕前拍大片?

        No、No、No

        這其實(shí)是AI拿來(lái)視頻實(shí)時(shí)摳圖后的效果。

        沒(méi)想到吧,實(shí)時(shí)視頻摳圖,現(xiàn)在能精細(xì)到每一根發(fā)絲。

        換到alpha通道再看一眼,不用多說(shuō),德芙打錢(qián)吧(手動(dòng)狗頭)。

        這就是來(lái)自字節(jié)跳動(dòng)實(shí)習(xí)生小哥的最新研究:實(shí)時(shí)高分辨率視頻摳圖大法。

        無(wú)需任何輔助輸入,把視頻丟給這個(gè)名為RVM的AI,它分分鐘就能幫你把人像高精度摳出,將背景替換成可以任意二次加工的綠幕。

        不信有這么絲滑?我們用線(xiàn)上Demo親自嘗試了一波。

        相比之下,現(xiàn)在在線(xiàn)會(huì)議軟件里的摳圖,一旦頭發(fā)遮住臉,人就會(huì)消失……

        頭發(fā)絲更是明顯糊了。

        難怪看得網(wǎng)友直言:

        不敢想象你們把這只AI塞進(jìn)手機(jī)里的樣子。

        目前,這篇論文已經(jīng)入選WACV 2022。

        你也可以上手一試

        目前,RVM已經(jīng)在GitHub上開(kāi)源,并給出了兩種試玩途徑:

        于是我們也趕緊上手試了試。

        先來(lái)看看效果:

        首先來(lái)點(diǎn)難度低的。

        對(duì)于這種人物在畫(huà)面中基本不移動(dòng)的情況,RVM可以說(shuō)是表現(xiàn)的非常好,和人工摳圖幾乎無(wú)差別。

        現(xiàn)在,王冰冰進(jìn)入動(dòng)森都毫不違和了。

        于是開(kāi)腦洞,也變得簡(jiǎn)單了許多……

        咳咳,言歸正傳。人物動(dòng)作幅度加大會(huì)怎樣呢?

        對(duì)于多人舞蹈視頻而言,RVM的表現(xiàn)也很nice。

        即便動(dòng)來(lái)動(dòng)去、頭發(fā)亂甩,也沒(méi)有影響它的摳圖效果。

        只有在人物出現(xiàn)遮擋的情況下,才會(huì)出現(xiàn)瑕疵。

        對(duì)比前輩方法MODNet,確實(shí)有不小的進(jìn)步。

        不過(guò)我們也發(fā)現(xiàn),如果視頻的背景較暗,就會(huì)影響RVM的發(fā)揮。

        比如在這種背景光線(xiàn)昏暗的情況下,摳圖的效果就非常不盡人意了。

        可以看到,博主老哥的頭發(fā)完全糊了。

        而且身體的邊界線(xiàn)也不夠清晰。

        所以,如果你想自己拍視頻試玩,就一定要選擇光線(xiàn)充足的場(chǎng)景。

        利用時(shí)間信息

        那么這樣的“魔法”,具體又是如何實(shí)現(xiàn)的?

        照例,我們先來(lái)扒一扒論文~

        實(shí)際上,有關(guān)視頻摳圖的算法如今已不鮮見(jiàn),其中大多數(shù)采用的是將視頻中的每一幀作為獨(dú)立圖像來(lái)實(shí)現(xiàn)摳圖的方法。

        不同與此,在這篇論文中,研究人員構(gòu)建了一個(gè)循環(huán)架構(gòu),利用上了視頻的時(shí)間信息,在時(shí)間一致性摳圖質(zhì)量上取得了明顯改進(jìn)。

        從上圖中可以看出,RVM的網(wǎng)絡(luò)架構(gòu)包括3個(gè)部分:

        特征提取編碼器,用來(lái)提取單幀特征;

        循環(huán)解碼器,用于匯總時(shí)間信息;

        深度引導(dǎo)濾波(DGF)模塊,用于高分辨率上采樣。

        其中,循環(huán)機(jī)制的引入使得AI能夠在連續(xù)的視頻流中自我學(xué)習(xí),從而了解到哪些信息需要保留,哪些信息可以遺忘掉。

        具體而言,循環(huán)解碼器采用了多尺度ConvGRU來(lái)聚合時(shí)間信息。其定義如下:

        在這個(gè)編碼器-解碼器網(wǎng)絡(luò)中,AI會(huì)完成對(duì)高分辨率視頻的下采樣,然后再使用DGF對(duì)結(jié)果進(jìn)行上采樣。

        除此之外,研究人員還提出了一種新的訓(xùn)練策略:同時(shí)使用摳圖和語(yǔ)義分割目標(biāo)數(shù)據(jù)集來(lái)訓(xùn)練網(wǎng)絡(luò)。

        這樣做到好處在于:

        首先,人像摳圖與人像分割任務(wù)密切相關(guān),AI必須學(xué)會(huì)從語(yǔ)義上理解場(chǎng)景,才能在定位人物主體方面具備魯棒性。

        其次,現(xiàn)有的大部分摳圖數(shù)據(jù)集只提供真實(shí)的alpha通道和前景信息,所以必須對(duì)背景圖像進(jìn)行合成。但前景和背景的光照往往不同,這就影響了合成的效果。語(yǔ)義分割數(shù)據(jù)集的引入可以有效防止過(guò)擬合。

        最后,語(yǔ)義分割數(shù)據(jù)集擁有更為豐富的訓(xùn)練數(shù)據(jù)。

        經(jīng)過(guò)這一番調(diào)教之后,RVM和前輩們比起來(lái),有怎樣的改進(jìn)?

        從效果對(duì)比中就可以明顯感受到了:

        另外,與MODNet相比,RVM更輕更快。

        從下面這張表格中可以看出,在1080p視頻上RVM的處理速度是最快的,在512×288上比BGMv2略慢,在4K視頻上則比帶FGF的MODNet慢一點(diǎn)。研究人員分析,這是因?yàn)镽VM除了alpha通道外還預(yù)判了前景。

        更直觀的數(shù)據(jù)是,在英偉達(dá)GTX 1080Ti上,RVM能以76FPS的速度處理4K視頻,以104FPS的速度處理HD視頻。

        一作字節(jié)跳動(dòng)實(shí)習(xí)生

        這篇論文是一作林山川在字節(jié)跳動(dòng)實(shí)習(xí)期間完成的。

        他本科、碩士均畢業(yè)于華盛頓大學(xué),曾先后在Adobe、Facebook等大廠實(shí)習(xí)。

        2021年3月-6月,林山川在字節(jié)跳動(dòng)實(shí)習(xí)。8月剛剛?cè)肼毼④洝?/p>

        事實(shí)上,林山川此前就曾憑借AI摳圖大法拿下CVPR 2021最佳學(xué)生論文榮譽(yù)獎(jiǎng)。

        他以一作身份發(fā)表論文《Real-Time High-Resolution Background Matting》,提出了Background Matting V2方法。

        這一方法能夠以30FPS的速度處理4K視頻,以60FPS的速度處理HD視頻。

        值得一提的是,Background Matting這一系列方法不止一次中了CVPR。此前,第一代Background Matting就被CVPR 2020收錄。

        兩次論文的通訊作者都是華盛頓大學(xué)副教授Ira Kemelmacher-Shlizerman,她的研究方向?yàn)橛?jì)算機(jī)視覺(jué)、計(jì)算機(jī)圖形、AR/VR等。

        此外,本次論文的二作為Linjie Yang,他是字節(jié)跳動(dòng)的研究科學(xué)家。本科畢業(yè)于清華大學(xué),在香港中文大學(xué)獲得博士學(xué)位。

        對(duì)了,除了能在Colab上試用之外,你也可以在網(wǎng)頁(yè)版上實(shí)時(shí)感受一下這只AI的效果,地址拿好:

        https://peterl1n.github.io/RobustVideoMatting/#/demo

        GitHub地址:
        https://github.com/PeterL1n/RobustVideoMatting

        論文地址:
        https://arxiv.org/abs/2108.11515

        參考鏈接:
        https://www.reddit.com/r/MachineLearning/comments/pdbpmg/r_robust_highresolution_video_matting_with/


        猜您喜歡:


        等你著陸!【GAN生成對(duì)抗網(wǎng)絡(luò)】知識(shí)星球!  

        CVPR 2021 | GAN的說(shuō)話(huà)人驅(qū)動(dòng)、3D人臉論文匯總

        CVPR 2021 | 圖像轉(zhuǎn)換 今如何?幾篇GAN論文

        【CVPR 2021】通過(guò)GAN提升人臉識(shí)別的遺留難題

        CVPR 2021生成對(duì)抗網(wǎng)絡(luò)GAN部分論文匯總

        經(jīng)典GAN不得不讀:StyleGAN

        最新最全20篇!基于 StyleGAN 改進(jìn)或應(yīng)用相關(guān)論文

        超100篇!CVPR 2020最全GAN論文梳理匯總!

        附下載 | 《Python進(jìn)階》中文版

        附下載 | 經(jīng)典《Think Python》中文版

        附下載 | 《Pytorch模型訓(xùn)練實(shí)用教程》

        附下載 | 最新2020李沐《動(dòng)手學(xué)深度學(xué)習(xí)》

        附下載 | 《可解釋的機(jī)器學(xué)習(xí)》中文版

        附下載 |《TensorFlow 2.0 深度學(xué)習(xí)算法實(shí)戰(zhàn)》

        附下載 | 超100篇!CVPR 2020最全GAN論文梳理匯總!

        附下載 |《計(jì)算機(jī)視覺(jué)中的數(shù)學(xué)方法》分享

        瀏覽 321
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評(píng)論
        圖片
        表情
        推薦
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
          
          

            1. 日本一級片黃色一級九抓直播 | 女人被躁到高潮嗷嗷叫动态 | 国产精品无圣光一区二区 | 天天干夜夜一级黄色片 | ins视频在线看片 |