1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        (附代碼)CVPR 2021大獎公布!何愷明獲最佳論文提名

        共 6858字,需瀏覽 14分鐘

         ·

        2021-06-26 14:22

        點擊左上方藍字關(guān)注我們



        全網(wǎng)搜集目標檢測相關(guān),人工篩選最優(yōu)價值內(nèi)容

        編者薦語
        CV界三大頂會之一的CVPR2021在clubhouse拉開了帷幕。今年,會議收到了21000名作者的7000篇投稿,經(jīng)過7400名審稿人和280名區(qū)域主席的審查,最終有1600篇論文被接收,接收率約0.24。其中,何愷明團隊論文獲得了「最佳論文提名」。


        推特上,有學(xué)者打趣說,CV論文可以分為這幾類:「只想混文憑」、「教電腦生成更多貓的照片」、「ImageNet上實驗結(jié)果提升0.1%!」、「手握超酷數(shù)據(jù)集但并不打算公開」、「3年過去了,代碼仍在趕來的路上」、「實驗證明還是老baseline性能更?!?、「我們的數(shù)據(jù)集更大!」、「研究范圍超廣,無他,我們有錢」、「花錢多,結(jié)果好」......


        僅為調(diào)侃,請勿對號入座。


        圖源:Jia-Bin Huang的推特


        不過,言歸正傳,讓我們來看看今年被CVPR選中的都有哪些幸運論文。


        2021 CVPR 論文獎

        最佳論文獎(Best Paper)


        今年的最佳論文是馬克斯·普朗克智能系統(tǒng)研究所和蒂賓根大學(xué)團隊的Michael Niemeyer, Andreas Geiger,他們的論文是

        《GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields》(GIRAFFE:將場景表現(xiàn)為組合生成的神經(jīng)特征場)



        • 論文 https://m-niemeyer.github.io/project-pages/giraffe/index.html

        • 源碼 https://github.com/autonomousvision/giraffe


        論文簡介:


        深度生成模型可以在高分辨率下進行逼真的圖像合成。但對于許多應(yīng)用來說,這還不夠:內(nèi)容創(chuàng)作還需要可控。雖然最近有幾項工作研究了如何分解數(shù)據(jù)中的潛在變化因素,但它們大多在二維中操作,忽略了我們的世界是三維的。此外,只有少數(shù)作品考慮到了場景的組成性質(zhì)。我們的關(guān)鍵假設(shè)是,將組合式三維場景表示納入生成模型,可以使圖像合成更加可控。將場景表示為生成性神經(jīng)特征場,使我們能夠從背景中分離出一個或多個物體,以及單個物體的形狀和外觀,同時無需任何額外的監(jiān)督就能從非結(jié)構(gòu)化和unposed的圖像集中學(xué)習(xí)。將這種場景表示與神經(jīng)渲染管道結(jié)合起來,可以產(chǎn)生一個快速而真實的圖像合成模型。正如我們的實驗所證明的那樣,我們的模型能夠分解單個物體,并允許在場景中平移和旋轉(zhuǎn)它們,還可以改變攝像機的姿勢。


        最佳論文榮譽提名(Best Paper Honorable Mentions)

        何愷明和Xinlei Chen的論文《Exploring Simple Siamese Representation Learning》(探索簡單的連體表征學(xué)習(xí))獲得了最佳論文提名。


        https://arxiv.org/abs/2011.10566


        論文主要研究了:


        「連體網(wǎng)絡(luò)」(Siamese networks)已經(jīng)成為最近各種無監(jiān)督視覺表征學(xué)習(xí)模型中的一種常見結(jié)構(gòu)。這些模型最大限度地提高了一個圖像的兩個增量之間的相似性,但必須符合某些條件以避免collapse的解決方案。在本文中,我們報告了令人驚訝的經(jīng)驗結(jié)果,即簡單的連體網(wǎng)絡(luò)即使不使用以下任何一種情況也能學(xué)習(xí)有意義的表征。(i) 負樣本對,(ii) 大batch,(iii) 動量編碼器。我們的實驗表明,對于損失和結(jié)構(gòu)來說,collapse的解決方案確實存在,但stop-gradient操作在防止collapse方面發(fā)揮了重要作用。我們提供了一個關(guān)于stop-gradient含義的假設(shè),并進一步展示了驗證該假設(shè)的概念驗證實驗。我們的 「SimSiam 」方法在ImageNet和下游任務(wù)中取得了有競爭力的結(jié)果。我們希望這個簡單的基線能促使人們重新思考連體結(jié)構(gòu)在無監(jiān)督表征學(xué)習(xí)中的作用。


        代碼已開源 https://github.com/facebookresearch/simsiam



        另一篇最佳論文提名是明尼蘇達大學(xué)團隊Yasamin Jafarian, Hyun Soo Park的

        《Learning High Fidelity Depths of Dressed Humans by Watching Social Media Dance Videos》

        學(xué)習(xí)穿戴人體幾何的一個關(guān)鍵挑戰(zhàn)在 ground truth 實數(shù)據(jù)(如三維掃描模型)的有限可用性,這導(dǎo)致三維人體重建在應(yīng)用于真實圖像時性的能下降本文們通過利用一個新的數(shù)據(jù)資源來應(yīng)對這一挑戰(zhàn):大量社交媒跳舞蹈視——,涵蓋了不同的外觀、服裝風(fēng)格、表演和身份。每一個視頻都描述了一個人的身體和衣服的動態(tài)運動,但缺乏3 ground truth實幾何圖形.

        為了很好地利用這些視頻,本文提出了一種新的方法來使用局部變換,即將預(yù)測的局部幾何體從一幅圖像在不同的時刻扭曲到另一幅圖像。這使得自監(jiān)督學(xué)習(xí)對預(yù)測實施時間一致性。此外,我們還通過最大化局部紋理、褶皺和陰影的幾何一致性,共同學(xué)習(xí)深度以及對局部紋理、褶皺和陰影高度敏感的曲面法線。

        另外本文的方法是端到端可訓(xùn)練的,能產(chǎn)生高保真深度估計來預(yù)測接近于輸入的真實圖像的精確幾何。本文證明了我們提出的方法在真實圖像和渲染圖像上都優(yōu)于 SOTA 人體深度估計和人體形狀恢復(fù)方法。

        論文地址
        https://www.zhuanzhi.ai/paper/476c0303a4f47d188c9f95564f71415e

        最佳學(xué)生論文獎(Best Student Paper)


        https://openaccess.thecvf.com/content/CVPR2021/html/Sun_Task_Programming_Learning_Data_Efficient_Behavior_Representations_CVPR_2021_paper.html

        為了更準確的標注數(shù)據(jù)集,具備該領(lǐng)域的專業(yè)知識是必要的,但這可能意味專家們將承擔大量繁重和耗時的工作。這個問題在自動行為分析(automated behavior analysis)中尤為突顯。例如,從視頻跟蹤數(shù)據(jù)中檢測智能體運動或動作。

        為了減少注釋的工作量,我們基于多任務(wù)自監(jiān)督學(xué)習(xí),提出了一種用于行為分析的有效軌跡嵌入方法—TREBA。利用該方法專家們可以通過“任務(wù)編程”過程來有效地設(shè)計任務(wù),即使用程序編碼將領(lǐng)域?qū)<业闹R結(jié)構(gòu)化。通過交換數(shù)據(jù)注釋時間來構(gòu)造少量編程任務(wù),可以減少領(lǐng)域?qū)<业墓ぷ髁?。我們使用行為神?jīng)科學(xué)領(lǐng)域的數(shù)據(jù)集評估了該方法,通過小鼠和果蠅兩個領(lǐng)域內(nèi)三個數(shù)據(jù)集的測試,實驗結(jié)果表明:通過使用TREBA的嵌入,注釋負擔減少了10倍。該研究結(jié)果表明,任務(wù)規(guī)劃和自監(jiān)督是減少領(lǐng)域?qū)<易⑨尮ぷ髁康挠行Х椒ā?/span>


        最佳學(xué)生論文榮譽提名(Best Student Paper Honorable Mentions)

        獲得「最佳學(xué)生論文」提名的有三篇



        1.《Less is More: ClipBERT for Video-and-Language Learning via Sparse Sampling》(少即是多:通過稀疏取樣進行視頻和語言學(xué)習(xí)的ClipBERT)


        作者團隊來自北卡羅來納大學(xué)教堂山分校和Microsoft Dynamics 365 AI Research的Jie Lei, Linjie Li, Luowei Zhou, Zhe Gan, Tamara L. Berg, Mohit Bansal, Jingjing Liu


        https://openaccess.thecvf.com/content/CVPR2021/html/Lei_Less_Is_More_ClipBERT_for_Video-and-Language_Learning_via_Sparse_Sampling_CVPR_2021_paper.html


        2. 《Binary TTC: A Temporal Geofence for Autonomous Navigation》(二進制TTC:用于自主導(dǎo)航的時間地理圍欄)


        作者團隊來自英偉達和加州大學(xué)圣巴巴拉分校的Abhishek Badki, Orazio Gallo, Jan Kautz, Pradeep Sen


        https://openaccess.thecvf.com/content/CVPR2021/html/Badki_Binary_TTC_A_Temporal_Geofence_for_Autonomous_Navigation_CVPR_2021_paper.html


        3. 《Real-Time High-Resolution Background Matting》(實時高分辨率的背景消隱)


        作者團隊來自華盛頓大學(xué)的Shanchuan Lin, Andrey Ryabtsev, Soumyadip Sengupta, Brian Curless, Steve Seitz, Ira Kemelmacher-Shlizerman

         

        https://openaccess.thecvf.com/content/CVPR2021/papers/Lin_Real-Time_High-Resolution_Background_Matting_CVPR_2021_paper.pdf


        最佳論文評選委員會


        以上最佳(學(xué)生)論文及提名由以下委員會評選:Deva Ramanan (主席),Lourdes Agapito, Zeynep Akata, Karteek Alahari, Xilin Chen, Emily Denton, Piotr Dollar, Ivan Laptev, Kyoung Mu Lee


        其中,中科院計算所視覺信息處理與學(xué)習(xí)組的陳熙霖博士是委員會成員。



        陳熙霖博士,研究員,ACM Fellow, IEEE Fellow, IAPR Fellow, 中國計算機學(xué)會會士,國家杰出青年基金獲得者。主要研究領(lǐng)域為計算機視覺、模式識別、多媒體技術(shù)以及多模式人機接口。先后主持多項自然科學(xué)基金重大、重點項目、973計劃課題等項目的研究。


        曾任IEEE Trans. on Image Processing和IEEE Trans. on Multimedia的Associate Editor,目前是Journal of Visual Communication and Image Representation的Associate Editor、計算機學(xué)報副主編、人工智能與模式識別副主編,擔任過FG2013 / FG 2018 General Chair以及CVPR 2017 / 2019 / 2020, ICCV 2019等的Area Chair。


        陳熙霖博士先后獲得國家自然科學(xué)二等獎1項,國家科技進步二等獎4項,省部級科技進步獎九項。合作出版專著1本,在國內(nèi)外重要刊物和會議上發(fā)表論文200多篇。


        PAMITC 獎(PAMITC AWARDS)

        Longuet-Higgins 獎是 IEEE 計算機協(xié)會模式分析與機器智能(PAMI)技術(shù)委員會在每年的 CVPR 頒發(fā)的計算機視覺基礎(chǔ)貢獻獎,表彰十年前對計算機視覺研究產(chǎn)生了重大影響的 CVPR 論文。該獎項以理論化學(xué)家和認知科學(xué)家 H. Christopher Longuet-Higgins 命名。

        第一篇論文獲獎?wù)撐氖?strong>“Real-Time Human Pose Recognition in Parts from Single Depth Images”,發(fā)表于CVPR 2011,目前引用數(shù)4108,來自微軟。

        這篇論文提出了一種新方法,可以在不使用時間信息的情況下,從單張深度圖像中快速準確地預(yù)測身體關(guān)節(jié)的 3D 位置。

        研究人員采用目標識別方法,設(shè)計一個中間的身體部位表示步驟,將困難的姿勢估計問題映射到更簡單的每像素分類問題。龐大且高度多樣化的訓(xùn)練數(shù)據(jù)集允許分類器估計對姿勢、體型、服裝等保持不變的身體部位。最后,研究人員通過重新投影分類結(jié)果并找到局部模式來生成幾個身體關(guān)節(jié)的置信度評分 3D 建議。該系統(tǒng)在消費級硬件上以每秒 200 幀的速度運行。

        這項工作在當時的相關(guān)研究中實現(xiàn)了最先進的準確率,并展示了對精確整個骨架最近鄰匹配的改進泛化。

        論文鏈接:https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/BodyPartRecognition.pdf

        第二篇獲獎?wù)撐氖?strong>“Baby Talk: Understanding and Generating Simple Image Descriptions“,發(fā)表于CVPR 2011,目前引用數(shù)1159,來自石溪大學(xué)。

        這篇論文假設(shè)視覺描述語言為計算機視覺研究人員提供了關(guān)于世界的信息,以及關(guān)于人們?nèi)绾蚊枋鍪澜绲男畔ⅰ?/span>

        基于大量語言數(shù)據(jù),研究人員提出了一個從圖像自動生成自然語言描述的系統(tǒng),該系統(tǒng)利用從解析大量文本數(shù)據(jù)和計算機視覺識別算法中收集的統(tǒng)計數(shù)據(jù)。該系統(tǒng)在為圖像生成相關(guān)句子方面非常有效,是早期圖像到文本生成的重要工作。

        論文鏈接:http://acberg.com/papers/baby_talk.pdf

        去年,為了緬懷了一代 CV 宗師、84 歲華人計算機視覺泰斗 Thomas S. Huang(黃煦濤),CVPR大會成立了 Thomas S. Huang 紀念獎,該獎項的獲獎?wù)邔⒂?PAMITC 獎勵委員會選出,類似于羅森菲爾德獎獲獎?wù)邔⒉⒌玫较嗤莫劷稹?/span>

        黃煦濤先生在華人計算機界被譽為「計算機視覺之父」,他在圖像處理、模式識別等計算機視覺領(lǐng)域作出了開創(chuàng)性貢獻,為中國培養(yǎng)了許多杰出人才,是華人計算機視覺領(lǐng)域的一座燈塔。此外,他也是首位擔任CVPR程序主席(1992)的華人。

        今年也就是第一屆Thomas S. Huang 紀念獎的獲獎?wù)?,是MIT電子電氣工程與計算機科學(xué)教授Antonio Torralba。

        Antonio Torralba的研究領(lǐng)域包括場景理解和上下文驅(qū)動的目標識別、多感官知覺整合、數(shù)據(jù)集構(gòu)建以及神經(jīng)網(wǎng)絡(luò)表征的可視化和解釋。他目前的論文引用數(shù)為78736,h指數(shù)為111。

        個人主頁:https://groups.csail.mit.edu/vision/torralbalab/


        青年研究者獎(Young Researcher Awards)


        青年研究者獎的目的在于表彰年輕的科學(xué)家,鼓勵繼續(xù)做出開創(chuàng)性的工作。另外,此獎項的評選標準是研究者必須獲得博士學(xué)位的年限少于7年。

        今年獲獎的兩位學(xué)者分別是來自FAIR和MIT的科學(xué)家。

        • Georgia Gkioxari是 FAIR 研究科學(xué)家。她在加州大學(xué)伯克利分校獲得博士學(xué)位,導(dǎo)師是 Jitendra Malik 。她是PyTorch3D的開發(fā)者之一,主要研究領(lǐng)域是計算機視覺,并且是Mask R-CNN的作者之一(與何愷明合作),目前引用數(shù)為16000。

        個人主頁:https://gkioxari.github.io/

        • Phillip Isola是麻省理工學(xué)院 EECS 的助理教授,主要研究計算機視覺、機器學(xué)習(xí)和人工智能。

        他曾在 OpenAI 做了一年的訪問研究科學(xué)家,在此之前,他是加州大學(xué)伯克利分校 EECS 系的 Alyosha Efros 的博士后學(xué)者。他在 MIT 的大腦與認知科學(xué)專業(yè)完成了博士學(xué)位,導(dǎo)師是Ted Adelson 。他目前論文引用數(shù)為28056,其中引用最高的論文為“Image-to-image translation with conditional adversarial networks”(與朱俊彥合作),這篇論文研究了條件形式的圖像到圖像轉(zhuǎn)換,可以說是CycleGAN的前階段工作。

        個人主頁:http://web.mit.edu/phillipi/

        該年度獎項旨在表彰對計算機視覺做出杰出研究貢獻的年輕研究人員。


        本屆委員會:R. Zabih (主席), S. Lazebnik, G. Medioni, N. Paragios, S. Seitz


        END



        雙一流大學(xué)研究生團隊創(chuàng)建,專注于目標檢測與深度學(xué)習(xí),希望可以將分享變成一種習(xí)慣!

        整理不易,點贊三連↓

        瀏覽 83
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            91麻豆精品国产91 | 日日美逼 | 色五月婷婷丁香五月 | 国产香蕉网 | 成人网站www污污污免费网站 | 日韩精品成人无码免费 | 空姐一级毛片免费观看 | 欧美国产精品无码三级在线观看 | 涩涩短视频 | 国模在线 |