CVPR2021 最具創(chuàng)造力的那些工作成果!或許這就是計(jì)算機(jī)視覺的魅力!
點(diǎn)擊下方“AI算法與圖像處理”,一起進(jìn)步!
重磅干貨,第一時(shí)間送達(dá)
大家好,終于肝出來(lái)了!
無(wú)論是不是你的研究方向,這次希望能給打工人周末依然在拼的人點(diǎn)個(gè)贊和在看!謝謝啦
今天分享的內(nèi)內(nèi)容:
CVPR 2021 Tutorial 《Unlocking Creativity with Computer Vision: Representations for Animation, Stylization and Manipulation》直譯:用計(jì)算機(jī)視覺釋放創(chuàng)造力:動(dòng)畫、造型和操縱的表現(xiàn)。
主頁(yè):https://snap-research.github.io/representations-for-creativity/
如果有添加我微信,或許已經(jīng)在我的朋友圈看到了我的轉(zhuǎn)發(fā)。沒有看的小伙伴,可以點(diǎn)擊下面的視頻來(lái)看,真的非常的震撼?。ㄓ邢胍ハ鄧^朋友圈的小伙伴,可以添加我微信哈 nvshenj125)
有小伙伴反饋,視頻速度太快根本沒看清楚,下面我整理了一下主要內(nèi)容。收集整理不易,希望能轉(zhuǎn)發(fā)支持一下,我會(huì)繼續(xù)努力的!


其他干貨匯總:
密集場(chǎng)景下的行人跟蹤替代算法,頭部跟蹤算法 | CVPR 2021
百變冰冰!手把手教你實(shí)現(xiàn)CVPR2021最新妝容遷移算法
CVPR2021 6篇驚艷審稿人的摳圖算法&代碼匯總!附創(chuàng)新點(diǎn)
CVPR2021 最佳論文 Giraffe,當(dāng)之無(wú)愧的最佳,或開創(chuàng)新的篇章

簡(jiǎn)介和目錄
什么是創(chuàng)造力(Creativity)!
創(chuàng)造力——運(yùn)用想象力和獨(dú)創(chuàng)性想法進(jìn)行創(chuàng)作的能力——需要掌握各種技能、可用的創(chuàng)造性工具、大量的努力,最重要的是要有創(chuàng)造性的頭腦。物體的風(fēng)格化或編輯要求藝術(shù)家理解物體的結(jié)構(gòu)和變化因素。動(dòng)畫還需要了解對(duì)象的剛性和非剛性運(yùn)動(dòng)模式。這種復(fù)雜的操作可以通過(guò)使用具有合適表征的計(jì)算機(jī)視覺系統(tǒng)來(lái)實(shí)現(xiàn)。
我們將引導(dǎo)參會(huì)者通過(guò)設(shè)計(jì)和學(xué)習(xí)來(lái)構(gòu)建創(chuàng)造性工具。選擇正確的表征方式并建立一個(gè)學(xué)習(xí)框架往往是釋放創(chuàng)造力的關(guān)鍵。我們將研究2D和體積對(duì)象表征、圖像和視頻表征、內(nèi)容、樣式和運(yùn)動(dòng)表征。當(dāng)標(biāo)記數(shù)據(jù)可用時(shí),可以以有監(jiān)督的方式學(xué)習(xí)某些表征,否則可以采用自我監(jiān)督。此外,我們還區(qū)分了顯式可解釋表征和隱式表征。我們的研究表明,更好的表征可以更好地理解數(shù)據(jù),進(jìn)而提高生成內(nèi)容的質(zhì)量,最終形成良性循環(huán)。
會(huì)議組織者:

主要內(nèi)容包括下面三個(gè)主題,每個(gè)主題又細(xì)分多個(gè)分支:
一、Representations for controllable image synthesis(可控圖像合成的表征方法)
二、Object representations for manipulation (用于操縱的對(duì)象表征方法)
三、Content and motion representations for video synthesis animation (用于視頻合成動(dòng)畫的內(nèi)容和運(yùn)動(dòng)表征)
一、Representations for controllable image synthesis
可控圖像合成的表征方法包含下面三部分:
A Brief Introduction to Deep Generative Models
Recent Advances in Semantic Image Synthesis
Image Outpainting
1、A Brief Introduction to Deep Generative Models
匯報(bào)人:Stéphane Lathuilière 主頁(yè):http://stelat.eu/
作者簡(jiǎn)介:法國(guó)巴黎電信公司(Telecom Paris, France)多媒體團(tuán)隊(duì)的副教授。研究方向:回歸問(wèn)題的深度學(xué)習(xí)、圖像和視頻生成以及有限數(shù)據(jù)的學(xué)習(xí)(無(wú)監(jiān)督領(lǐng)域自適應(yīng)、自監(jiān)督學(xué)習(xí)、持續(xù)學(xué)習(xí))
摘要:本視頻簡(jiǎn)要介紹了深層生成模型。在本教程中,將介紹幾種用于圖像和視頻生成或操作的計(jì)算機(jī)視覺方法。本演示的目的不是對(duì)有關(guān)深層生成模型的文獻(xiàn)進(jìn)行全面的回顧,而是簡(jiǎn)要介紹本教程中介紹的大多數(shù)方法將采用的關(guān)鍵方法。

2、Recent Advances in Semantic Image Synthesis 語(yǔ)義圖像合成研究進(jìn)展
匯報(bào)人:Ming-Yu Liu 主頁(yè):http://mingyuliu.net/
作者簡(jiǎn)介:杰出的研究科學(xué)家和英偉達(dá)研究公司的經(jīng)理。研究小組專注于深層生成模型及其應(yīng)用。我們?cè)谝曈X內(nèi)容合成領(lǐng)域創(chuàng)作了多部極具影響力的研究作品,包括pix2pixHD、vid2vid、MoCoGAN、face-vid2vid、SPADE、GANcraft。
在這篇演講中,我回顧了最近幾年的語(yǔ)義圖像合成工作。我把他們放在同一個(gè)角度,并說(shuō)明了架構(gòu)的變化。對(duì)訓(xùn)練這兩個(gè)模型的兩個(gè)主要目標(biāo)函數(shù)進(jìn)行了討論和比較。

3、Image Outpainting 圖像輸出
匯報(bào)人:Hsin-Ying Lee 主頁(yè):http://hsinyinglee.com/
作者簡(jiǎn)介:Creative Vision team at Snap Research的研究科學(xué)家。于2020畢業(yè)于美國(guó)墨爾本大學(xué)ECES,獲Ming Hsuan Yang教授的指導(dǎo),于2016畢業(yè)于加利福尼亞南部大學(xué)電機(jī)工程系,獲臺(tái)灣大學(xué)電氣工程系學(xué)士學(xué)位。
摘要:圖像輸出的目的是對(duì)給定的圖像進(jìn)行任意方向的外推。這項(xiàng)任務(wù)需要了解環(huán)境的結(jié)構(gòu)和質(zhì)地。現(xiàn)有的方法將任務(wù)建模為一個(gè)圖像到圖像的轉(zhuǎn)換任務(wù),由于強(qiáng)條件上下文的存在,會(huì)導(dǎo)致重復(fù)和單調(diào)的輸出結(jié)果。在這篇演講中,我將首先介紹如何利用GAN反轉(zhuǎn)技術(shù)來(lái)實(shí)現(xiàn)多樣化和可控的圖像輸出。接下來(lái),為了更進(jìn)一步,我將介紹我們解決一個(gè)更基本問(wèn)題的嘗試,即生成模型能否合成結(jié)構(gòu)和紋理一致的無(wú)限分辨率圖像。結(jié)合GAN反轉(zhuǎn)技術(shù),證明了該結(jié)構(gòu)在圖像輸出任務(wù)中的有效性。

二、Object representations for manipulation
用于操縱的對(duì)象表征方法包含下面三個(gè)主題:
Manipulating Hair
Face Stylization
Volumetric Implicit Representations for Object Manipulation
1、Manipulating Hair 發(fā)型編輯
匯報(bào)人:Kyle Olszewski 主頁(yè):http://hsinyinglee.com/
作者簡(jiǎn)介:南加州大學(xué)的學(xué)生,在Hao Li教授的幾何捕獲實(shí)驗(yàn)室工作。研究方向:實(shí)時(shí)面部表情跟蹤,特別是使用適合新興平臺(tái)的技術(shù),如虛擬和增強(qiáng)現(xiàn)實(shí)。
摘要:從無(wú)約束圖像中獲取、繪制和操縱頭發(fā)的結(jié)構(gòu)和外觀是近十年來(lái)計(jì)算機(jī)視覺和圖形學(xué)界廣泛關(guān)注的問(wèn)題。隨著神經(jīng)渲染技術(shù)的出現(xiàn),這一領(lǐng)域的進(jìn)展大大加快,它可以在用戶輸入的指導(dǎo)下,在真實(shí)圖像中實(shí)現(xiàn)高質(zhì)量的頭發(fā)合成,而不依賴于傳統(tǒng)的頭發(fā)重建技術(shù)或渲染管道。在本次演講中,我們將討論這一領(lǐng)域的一些最新工作,重點(diǎn)討論它們?nèi)绾谓鉀Q關(guān)鍵問(wèn)題,例如如何表示頭發(fā)的形狀和外觀,可以使用什么類型的數(shù)據(jù)(真實(shí)的和合成的)來(lái)訓(xùn)練這些系統(tǒng),以及它們可以啟用什么類型的用戶輸入和編輯操作。我們展示了如何使用各種技術(shù),從基于示例的合成到適合新手用戶的發(fā)型的細(xì)粒度局部編輯,在真實(shí)的面部圖像中交互式地合成和編輯各種發(fā)型的合理圖像和視頻。

2、Face Stylization 人臉風(fēng)格化
匯報(bào)人:Menglei Chai 主頁(yè):https://mlchai.com/
作者簡(jiǎn)介:Snap Research創(chuàng)意愿景小組的高級(jí)研究科學(xué)家。我拿到。浙江大學(xué)的圖形與并行系統(tǒng)實(shí)驗(yàn)室(GAP)的博士學(xué)位,由坤舟教授監(jiān)督。我從事計(jì)算機(jī)視覺和計(jì)算機(jī)圖形學(xué)的研究,主要研究人類數(shù)字化、圖像處理、三維重建和基于物理的動(dòng)畫
摘要:人臉風(fēng)格化使各種視覺和圖形應(yīng)用成為可能。這項(xiàng)任務(wù)需要理解內(nèi)容/風(fēng)格的表示以及人臉的語(yǔ)義結(jié)構(gòu)。雖然現(xiàn)有的方法能夠在單張人臉圖像上獲得高質(zhì)量的結(jié)果,但是人臉樣式化可以進(jìn)一步擴(kuò)展,以消除更多創(chuàng)造性用例的阻礙。在這篇演講中,為了將問(wèn)題擴(kuò)展到自動(dòng)圖像樣式化之外,我們將討論幾個(gè)有趣的維度,例如視頻樣式化、幾何樣式化和三維可控樣式化。在每一個(gè)方向上,我們都會(huì)介紹最新的代表性作品和我們的嘗試,包括一個(gè)交互式視頻風(fēng)格化系統(tǒng),它允許通過(guò)關(guān)鍵幀進(jìn)行高保真的藝術(shù)控制,一個(gè)用于三維人臉風(fēng)格化的聯(lián)合外觀和幾何優(yōu)化框架,提出了一種跨域三維引導(dǎo)的人臉操作方法,該方法可以利用人臉的先驗(yàn)信息編輯樣式化的圖像。

3、Volumetric Implicit Representations for Object Manipulation
匯報(bào)人:Kyle Olszewski 主頁(yè):https://kyleolsz.github.io/
摘要:近年來(lái),圖像內(nèi)容的隱式表示在新視圖合成(NVS)和三維重建等任務(wù)中顯示出巨大的潛力。然而,在生成高質(zhì)量的編輯圖像的同時(shí),使用這種表示來(lái)實(shí)現(xiàn)對(duì)該內(nèi)容的可控的、3D感知的操作仍然是一個(gè)挑戰(zhàn)。在這篇演講中,我們描述了一種方法來(lái)解決這個(gè)問(wèn)題使用編碼器-解碼器NVS框架。這個(gè)網(wǎng)絡(luò)學(xué)習(xí)從一個(gè)圖像中推斷出一個(gè)物體的隱式體積表示作為它的瓶頸。盡管在訓(xùn)練期間沒有使用3D監(jiān)控,但是這種方法的空間解糾纏允許通過(guò)對(duì)體積瓶頸執(zhí)行相應(yīng)的3D變換來(lái)對(duì)所描繪的對(duì)象進(jìn)行任意的空間操作。我們展示了各種應(yīng)用,包括新穎的視圖合成、三維重建和非剛性變換以及圖像內(nèi)容的組合。

三、Content and motion representations for video synthesis animation
用于視頻合成動(dòng)畫的內(nèi)容和運(yùn)動(dòng)表征包含下面四個(gè)主題:
Video Synthesis and Manipulation
Self-supervised Image Animation
Supervised and Few-shot Animation
Representations for Modeling Human Bodies
1、Video Synthesis and Manipulation 視頻合成與處理
匯報(bào)人:Sergey Tulyakov 主頁(yè):http://www.stulyakov.com/
作者簡(jiǎn)介:Snap Research創(chuàng)新愿景團(tuán)隊(duì)的首席研究科學(xué)家。工作重點(diǎn)是通過(guò)計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)創(chuàng)造操縱世界的方法。這包括樣式轉(zhuǎn)換、真實(shí)感對(duì)象操作和動(dòng)畫、視頻合成、預(yù)測(cè)和重定目標(biāo)。
摘要:在本視頻中,我們將討論幾種視頻生成模型,如MoCoGAN和MoCoGAN HD,我們將了解這些方法背后的直覺,以及一些重要的實(shí)現(xiàn)細(xì)節(jié)。此外,我們將在視頻生成領(lǐng)域引入一個(gè)新的領(lǐng)域,稱為可播放視頻生成,它允許對(duì)視頻內(nèi)容進(jìn)行可控和交互式操作。

2、Self-supervised Image Animation 自監(jiān)督圖像動(dòng)畫
匯報(bào)人:Aliaksandr Siarohin 主頁(yè):http://www.stulyakov.com/
作者簡(jiǎn)介:特倫托大學(xué)的博士生,我在NICU SEBE的監(jiān)督下工作,在多媒體和人類理解小組(MCOP)。研究方向包括機(jī)器學(xué)習(xí)的圖像動(dòng)畫,視頻生成,生成對(duì)抗網(wǎng)絡(luò)和領(lǐng)域適應(yīng)。
摘要:在這個(gè)講座中,我們提出了一套無(wú)監(jiān)督圖像動(dòng)畫的方法。圖像動(dòng)畫的任務(wù)是生成一個(gè)視頻,其中來(lái)自源圖像的對(duì)象像來(lái)自另一個(gè)驅(qū)動(dòng)視頻的對(duì)象一樣移動(dòng)。無(wú)監(jiān)督動(dòng)畫的主要區(qū)別在于,它只需要一組訓(xùn)練視頻,而不需要關(guān)于這些視頻中對(duì)象的任何其他先驗(yàn)知識(shí)。

3、Supervised and Few-shot Animation 監(jiān)督和少樣本動(dòng)畫
匯報(bào)人:Jian Ren 主頁(yè):https://alanspike.github.io/
作者簡(jiǎn)介:研究科學(xué)家,在Snap公司的Creative Vision小組工作。在加入Snap公司之前,我曾在Adobe、Snap公司和Bytedance Research擔(dān)任研究實(shí)習(xí)生。
摘要:人體運(yùn)動(dòng)重定目標(biāo)的目的是將源驅(qū)動(dòng)視頻中的運(yùn)動(dòng)信息傳遞給目標(biāo)參考人,從而在對(duì)源驅(qū)動(dòng)視頻進(jìn)行運(yùn)動(dòng)處理的同時(shí)合成包含目標(biāo)人內(nèi)容的真實(shí)感視頻。在這篇演講中,我們將首先介紹專注于有監(jiān)督運(yùn)動(dòng)傳輸?shù)墓ぷ?,其中需要?lái)自目標(biāo)人的訓(xùn)練視頻,并且專門設(shè)計(jì)了一個(gè)模型來(lái)為一個(gè)目標(biāo)人生成視頻。然后,我們將轉(zhuǎn)向使用目標(biāo)人物的一個(gè)或幾個(gè)圖像來(lái)生成運(yùn)動(dòng)視頻。通過(guò)少量鏡頭設(shè)置訓(xùn)練的模型可以合成任意人的視頻。

4、Representations for Modeling Human Bodies 人體建模的表征方法
匯報(bào)人:Zeng Huang 主頁(yè):https://alanspike.github.io/
作者簡(jiǎn)介:Snap研究公司的研究科學(xué)家。我主要從事計(jì)算機(jī)圖形學(xué)、三維視覺和深度學(xué)習(xí)。的研究工作都是圍繞著虛擬人的數(shù)字化,將幾何處理和深度學(xué)習(xí)結(jié)合起來(lái),針對(duì)每個(gè)人都可以訪問(wèn)的尖端AR/VR應(yīng)用程序。
摘要:研究人體是人類歷史上一個(gè)長(zhǎng)期的課題。自信息時(shí)代以來(lái),人體數(shù)字化一直是計(jì)算機(jī)圖形學(xué)和動(dòng)畫領(lǐng)域的一個(gè)重要研究方向。雖然高質(zhì)量的人體掃描和視覺效果已經(jīng)在電影行業(yè)得到了廣泛的應(yīng)用,但低成本和方便的人體數(shù)字化仍然是一個(gè)挑戰(zhàn)。隨著人們對(duì)這一領(lǐng)域的深入學(xué)習(xí),最近有了一些令人興奮的工作,并真正推動(dòng)了這一任務(wù)的邊界。在這次演講中,我們將介紹近年來(lái)數(shù)字化全身穿著人類的研究成果。特別是,我們將回顧最近使用隱式函數(shù)表示身體幾何體的嘗試,以及它與動(dòng)畫管道和實(shí)時(shí)實(shí)現(xiàn)的結(jié)合。

參考論文鏈接
[1] Generative Adversarial Networks, Neurips 2014 , https://arxiv.org/abs/1406.2661
[2] Auto-Encoding Variational Bayes, ICLR 2014, https://arxiv.org/abs/1312.6114
[3] Least Squares Generative Adversarial Networks, ICCV 2017, https://arxiv.org/abs/1611.04076
[4] Wasserstein generative adversarial networks, ICML 2017, https://arxiv.org/abs/1701.07875
[5] Spectral Normalization for Generative Adversarial Networks, ICLR 2018, https://arxiv.org/abs/1802.05957
[6] Large Scale GAN Training for High Fidelity Natural Image Synthesis, ICLR 2019, https://arxiv.org/abs/1809.11096
[7] Conditional Generative Adversarial Nets, Nips-W 2014, https://arxiv.org/abs/1411.1784
[8] Progressive Growing of GANs for Improved Quality, Stability, and Variation, ICLR 2018, https://arxiv.org/abs/1710.10196
[9] A Style-Based Generator Architecture for Generative Adversarial Networks, CVPR 2019, https://arxiv.org/abs/1812.04948
[10] The Malicious Use of Artificial Intelligence: Forecasting, Prevention, and Mitigation, report 2018, https://arxiv.org/abs/1802.07228
[11] Perceptual Losses for Real-Time Style Transfer and Super-Resolution, ECCV 2016, https://arxiv.org/abs/1603.08155
[12] High-resolution image synthesis and semantic manipulation with conditional gans, CVPR'2018 (https://arxiv.org/abs/1711.11585)
[13] Semantic Image Synthesis with Spatially-Adaptive Normalization, CVPR'2019 (https://arxiv.org/abs/1903.07291)
[14] Taming transformers for high-resolution image synthesis, CVPR'2021 (https://arxiv.org/abs/2012.09841)
[15] In&Out : Diverse Image Outpainting via GAN Inversion (https://arxiv.org/abs/2104.00675)
[16] InfinityGAN: Towards Infinite-Resolution Image Synthesis (https://arxiv.org/abs/2104.03963)
[17] Neural Hair Rendering, ECCV'2020 (https://arxiv.org/abs/2004.13297)
[18] MichiGAN: Multi-Input-Conditioned Hair Image Generation for Portrait Editing, SIGGRAPH'2020 (https://arxiv.org/abs/2010.16417)
[19] Intuitive, Interactive Beard and Hair Synthesis with Generative Models, CVPR' 2020 (https://arxiv.org/abs/2004.06848)
[20] Interactive Video Stylization Using Few-Shot Patch-Based Training (https://arxiv.org/abs/2004.14489)
[21] Exemplar-Based 3D Portrait Stylization (https://arxiv.org/abs/2104.14559)
[22] Cross-Domain and Disentangled Face Manipulation with 3D Guidance (https://arxiv.org/abs/2104.11228)
[23] Transformable Bottleneck Networks, ICCV'2019 (https://arxiv.org/abs/1904.06458)
[24] MoCoGan: Decomposing motion and content for video generation, CVPR'2018 (https://arxiv.org/abs/1707.04993)
[25] A good image generator is what you need for high-resolution video synthesis, ICLR'2021 (https://openreview.net/forum?id=6puCS...)
[26]Playable video generation, CVPR'2021 (https://arxiv.org/abs/2101.12195)
[27]Animating Arbitrary Objects via Deep Motion Transfer, CVPR'2019 (https://arxiv.org/abs/1812.08861),
[28]First Order Motion Model for Image Animation, NeurIPS'2019 (https://arxiv.org/abs/2003.00196)
[29]Motion Representations for Articulated Animation, CVPR'2021 (https://arxiv.org/abs/2104.11280).
[30]Everybody Dance Now (https://arxiv.org/abs/1808.07371)
[31]Human Motion Transfer from Poses in the Wild (https://arxiv.org/abs/2004.03142)
[32]Few-shot Video-to-Video Synthesis https://arxiv.org/abs/1910.12713)
[33]Flow Guided Transformable Bottleneck Networks for Motion Retargeting (https://arxiv.org/abs/2106.07771)
[34]End-to-end Recovery of Human Shape and Pose, CVPR'2018 (https://arxiv.org/abs/1712.06584)
[35]VIBE: Video Inference for Human Body Pose and Shape Estimation, CVPR'2020 (https://arxiv.org/abs/1912.05656)
[36]PIFu: Pixel-Aligned Implicit Function for High-Resolution Clothed Human Digitization, ICCV'2019 (https://arxiv.org/abs/1905.05172)
[37]PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization, CVPR2020 (https://arxiv.org/abs/2004.00452)
[38]Arch: Animatable reconstruction of clothed humans, CVPR'2020 (https://arxiv.org/abs/2004.04572)
[39]SCANimate: Weakly Supervised Learning of Skinned Clothed Avatar Networks, CVPR'2021 (https://arxiv.org/abs/2104.03313)
[40]S3: Neural Shape, Skeleton, and Skinning Fields for 3D Human Modeling, CVPR'2021 (https://arxiv.org/abs/2101.06571)
[41]Monocular Real-Time Volumetric Performance Capture, ECCV2020 (https://arxiv.org/abs/2007.13988)
努力分享優(yōu)質(zhì)的計(jì)算機(jī)視覺相關(guān)內(nèi)容,歡迎關(guān)注:
個(gè)人微信(如果沒有備注不拉群!) 請(qǐng)注明:地區(qū)+學(xué)校/企業(yè)+研究方向+昵稱
下載1:何愷明頂會(huì)分享
在「AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù):何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經(jīng)典工作的總結(jié)分析
下載2:終身受益的編程指南:Google編程風(fēng)格指南
在「AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù):c++,即可下載。歷經(jīng)十年考驗(yàn),最權(quán)威的編程規(guī)范!
下載3 CVPR2021 在「AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù):CVPR,即可下載1467篇CVPR 2020論文 和 CVPR 2021 最新論文
點(diǎn)亮
,告訴大家你也在看
