1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        CVPR 2020 論文合集-動(dòng)作識(shí)別篇

        共 6530字,需瀏覽 14分鐘

         ·

        2020-10-15 15:56

        點(diǎn)擊上方AI算法與圖像處理”,選擇加"星標(biāo)"或“置頂”

        重磅干貨,第一時(shí)間送達(dá)

        來(lái)源:我愛計(jì)算機(jī)視覺


        本文盤點(diǎn)所有CVPR 2020?動(dòng)作識(shí)別(Action Recognition?相關(guān)論文,該方向也常被稱為視頻分類(Video Classification?。從后面的名字可以看出該任務(wù)就是對(duì)含人體動(dòng)作的視頻進(jìn)行分類。

        (關(guān)于動(dòng)作檢測(cè)、分割、活動(dòng)識(shí)別等方向?qū)⒃诤罄m(xù)文章整理)


        該部分既包含基于普通視頻的動(dòng)作識(shí)別,也包含基于深度圖和基于骨架的動(dòng)作識(shí)別。


        因?yàn)橐曨l既包含空域信息,又包含時(shí)域信息,所以時(shí)空信息的融合、特征提取是該領(lǐng)域的重要方向。


        因?yàn)橐曨l往往數(shù)據(jù)量大,信息冗余,是典型的計(jì)算密集型任務(wù),以往的方法往往(如3D CNN)計(jì)算代價(jià)很高,提高(訓(xùn)練/推斷)速度也是不少論文研究的方向。


        特別值得一提的是斯坦福大學(xué)、MIT、谷歌發(fā)表的兩篇基于視頻的無(wú)監(jiān)督表示學(xué)習(xí),不僅可用于動(dòng)作識(shí)別,其可以看作為通用的視覺特征提取方法,相信會(huì)對(duì)未來(lái)的計(jì)算機(jī)視覺研究產(chǎn)生重要影響。


        大家可以在:

        http://openaccess.thecvf.com/CVPR2020.py

        按照題目下載這些論文。


        如果想要下載所有CVPR 2020論文,請(qǐng)點(diǎn)擊這里:

        CVPR 2020 論文全面開放下載,含主會(huì)和workshop


        ?? 動(dòng)作識(shí)別(Action Recognition)


        細(xì)粒度動(dòng)作識(shí)別的多模態(tài)域適應(yīng)技術(shù),使用RGB與光流數(shù)據(jù),解決動(dòng)作識(shí)別在不同數(shù)據(jù)集上訓(xùn)練和測(cè)試性能下降的問(wèn)題。
        Multi-Modal Domain Adaptation for Fine-Grained Action Recognition
        作者 |?Jonathan Munro, Dima Damen
        單位 |?布里斯托大學(xué)



        時(shí)間金字塔網(wǎng)絡(luò)(TPN)用于動(dòng)作識(shí)別,可方便“即插即用”到2D和3D網(wǎng)絡(luò)中,顯著改進(jìn)動(dòng)作識(shí)別的精度。

        Temporal Pyramid Network for Action Recognition

        作者 |?Ceyuan Yang, Yinghao Xu, Jianping Shi, Bo Dai, Bolei Zhou

        單位 | 香港中文大學(xué);商湯

        代碼?|?Temporal Pyramid Network for Action Recognition

        主頁(yè) |?https://decisionforce.github.io/TPN/




        提出motion excitation (ME) 模塊 和 multiple temporal aggregation (MTA) 模塊用于捕獲短程和長(zhǎng)程時(shí)域信息,提高動(dòng)作識(shí)別的速度和精度。

        TEA: Temporal Excitation and Aggregation for Action Recognition

        作者 |?Yan Li, Bin Ji, Xintian Shi, Jianguo Zhang, Bin Kang, Limin Wang

        單位 | 騰訊;南京大學(xué);南方科技大學(xué)



        提取視頻特征往往需要計(jì)算密集的3D CNN操作,該文發(fā)明一種 Gate-Shift Module (GSM) 模塊利用分組空間選通方法控制時(shí)空分解交互,大大降低了視頻動(dòng)作識(shí)別算法復(fù)雜度。

        Gate-Shift Networks for Video Action Recognition

        作者 |?Swathikiran Sudhakaran, Sergio Escalera, Oswald Lanz

        單位 | FBK,Trento, Italy;巴塞羅那大學(xué)

        代碼 |?https://github.com/swathikirans/GSM



        高效視頻識(shí)別的擴(kuò)展架構(gòu),降低參數(shù)量減少計(jì)算量

        X3D: Expanding Architectures for Efficient Video Recognition

        作者?|?Christoph Feichtenhofer

        單位 |?FAIR

        代碼 |?https://github.com/facebookresearch/SlowFast


        ???3D CNN的正則化


        該文提出一種簡(jiǎn)單有效的針對(duì)3D CNN 的正則化方法:Random Mean Scaling (RMS),防止過(guò)擬合。

        Regularization on Spatio-Temporally Smoothed Feature for Action Recognition

        作者 |?Jinhyung Kim, Seunghwan Cha, Dongyoon Wee, Soonmin Bae, Junmo Kim

        單位 | KAIST;卡內(nèi)基梅隆大學(xué);Clova AI, NAVER Corp



        ?? 結(jié)合視覺、語(yǔ)音、文本的動(dòng)作識(shí)別


        動(dòng)作識(shí)別的跨模態(tài)監(jiān)督信息提?。ㄎ谋?語(yǔ)音-視覺識(shí)別的結(jié)合)

        該文研究了一個(gè)非常有意思的問(wèn)題,通過(guò)電影視頻中語(yǔ)音與對(duì)應(yīng)臺(tái)詞構(gòu)建一個(gè)動(dòng)作識(shí)別的分類器,然后用此模型對(duì)大規(guī)模的視頻數(shù)據(jù)集進(jìn)行了弱監(jiān)督標(biāo)注,使用此標(biāo)注數(shù)據(jù)訓(xùn)練的模型在動(dòng)作識(shí)別問(wèn)題中取得了superior的精度。

        Speech2Action: Cross-Modal Supervision for Action Recognition

        作者 |?Arsha Nagrani, Chen Sun, David Ross, Rahul Sukthankar, Cordelia Schmid, Andrew?Zisserman

        單位 | VGG, Oxford;谷歌;DeepMind



        面對(duì)視頻分類中巨大的數(shù)據(jù)冗余,該文提出圖像-音頻對(duì)的概念,圖像表示了視頻中絕大部分表觀信息,音頻表示了視頻中的動(dòng)態(tài)信息,找到這些圖像-音頻對(duì)后再選擇一部分用于視頻分類,精度達(dá)到SOTA,還大大提高了動(dòng)作識(shí)別的速度。

        Listen to Look: Action Recognition by Previewing Audio

        作者 |?Ruohan Gao, Tae-Hyun Oh, Kristen Grauman, Lorenzo Torresani

        單位 | 得克薩斯大學(xué)奧斯汀分校;FAIR

        代碼 |?https://github.com/facebookresearch/Listen-to-Look





        ?? 動(dòng)作識(shí)別中的時(shí)空信息融合


        如何在動(dòng)作識(shí)別中進(jìn)行更好的時(shí)空信息融合是涉及更好的動(dòng)作識(shí)別算法的關(guān)鍵,該文提出在概率空間理解、分析時(shí)空融合策略,大大提高分析效率,并提出新的融合策略,實(shí)驗(yàn)證明該策略大大提高了識(shí)別精度。

        Spatiotemporal Fusion in 3D CNNs: A Probabilistic View

        作者 |?Yizhou Zhou,?Xiaoyan Sun,?Chong Luo,?Zheng-Jun Zha,?Wenjun Zeng

        單位 |?中國(guó)科學(xué)技術(shù)大學(xué);微軟亞洲研究院



        ?? 視頻模型訓(xùn)練策略


        何愷明團(tuán)隊(duì)作品。該文提出一種多網(wǎng)格訓(xùn)練策略訓(xùn)練視頻分類模型,大大降低訓(xùn)練時(shí)間,精度得以保持,甚至還有提高。

        A Multigrid Method for Efficiently Training Video Models

        作者 |?Chao-Yuan Wu,?Ross Girshick,?Kaiming He,?Christoph Feichtenhofer,?Philipp Krahenbuhl

        單位 |?得克薩斯大學(xué)奧斯汀分校;FAIR

        代碼|?https://github.com/facebookresearch/SlowFast

        解讀 |?https://zhuanlan.zhihu.com/p/105287699


        ?? 少樣本視頻分類


        李飛飛團(tuán)隊(duì)作品。該文提出動(dòng)作基因組(Action?Genome)的概念,將動(dòng)作看作時(shí)空?qǐng)鼍皥D的組合,在少樣本的動(dòng)作識(shí)別問(wèn)題中提高了精度。

        Action Genome: Actions As Compositions of Spatio-Temporal Scene Graphs

        作者 |?Jingwei Ji,?Ranjay Krishna,?Li Fei-Fei,?Juan Carlos Niebles

        單位 |?斯坦福大學(xué)


        通過(guò)視頻信號(hào)的時(shí)序校正模塊提高少樣本的視頻分類精度

        Few-Shot?Video Classification?via Temporal Alignment

        作者 |?Kaidi Cao,?Jingwei Ji,?Zhangjie Cao,?Chien-Yi Chang,?Juan Carlos Niebles

        單位 | 斯坦福大學(xué)




        ?? 基于視頻的無(wú)監(jiān)督表示學(xué)習(xí)


        無(wú)監(jiān)督嵌入的視頻表示學(xué)習(xí)。因?yàn)橐曨l中含有豐富的動(dòng)態(tài)結(jié)構(gòu)信息,而且無(wú)處不在,所以是無(wú)監(jiān)督視覺表示學(xué)習(xí)的最佳素材。本文在視頻中學(xué)習(xí)視覺嵌入,使得在嵌入空間相似視頻距離近,而無(wú)關(guān)視頻距離遠(yuǎn)。在大量視頻中所學(xué)習(xí)的視覺表示可大幅提高動(dòng)作識(shí)別、圖像分類的精度。

        (感覺這個(gè)工作很有價(jià)值,代碼開源,值得follow)

        Unsupervised Learning From Video With Deep Neural Embeddings

        作者 |?Chengxu Zhuang,?Tianwei She,?Alex Andonian,?Max Sobol Mark,?Daniel Yamins

        單位 |?斯坦福大學(xué);MIT

        代碼 |?https://github.com/neuroailab/VIE



        同上一篇,同樣是希望在大規(guī)模視頻數(shù)據(jù)中學(xué)習(xí)視覺表示。

        多模多任務(wù)的無(wú)監(jiān)督表示學(xué)習(xí),跨模態(tài)通過(guò)蒸餾進(jìn)行表示共享。
        該自監(jiān)督方法打敗了ImageNet數(shù)據(jù)集上訓(xùn)練的有標(biāo)注數(shù)據(jù)訓(xùn)練的模型。
        Evolving Losses for Unsupervised Video Representation Learning
        作者 |?AJ Piergiovanni,?Anelia Angelova,?Michael S. Ryoo
        單位 |?谷歌


        ?? 合成動(dòng)作識(shí)別


        用于識(shí)別訓(xùn)練集沒有的,對(duì)操作物體進(jìn)行替換的動(dòng)作

        Something-Else: Compositional Action Recognition With Spatial-Temporal Interaction Networks

        作者 |?Joanna Materzynska, Tete Xiao, Roei Herzig, Huijuan Xu, Xiaolong Wang, Trevor Darrell

        單位 | 牛津大學(xué);伯克利;以色列特拉維夫大學(xué)

        代碼 |?https://github.com/joaanna/something_else

        主頁(yè) |?https://joaanna.github.io/something_else/



        ?? 深度視頻的動(dòng)作識(shí)別


        3DV: 3D Dynamic Voxel for Action Recognition in Depth Video

        作者 |?Yancheng Wang, Yang Xiao, Fu Xiong, Wenxiang Jiang, Zhiguo Cao, Joey Tianyi Zhou, Junsong Yuan

        單位 | 華中科技大學(xué);曠視;A*STAR等

        代碼?|?https://github.com/3huo/3DV-Action



        ???基于骨架的動(dòng)作識(shí)別


        Skeleton-Based的動(dòng)作識(shí)別,基于圖卷積方法

        Disentangling and Unifying Graph Convolutions for Skeleton-Based Action Recognition

        作者 |?Ziyu Liu, Hongwen Zhang, Zhenghao Chen, Zhiyong Wang, Wanli Ouyang

        單位 | 悉尼大學(xué);國(guó)科大&CASIA;悉尼大學(xué)計(jì)算機(jī)視覺研究小組

        代碼?|?https://github.com/kenziyuliu/ms-g3d



        Skeleton-Based動(dòng)作識(shí)別,Shift Graph卷積網(wǎng)絡(luò)方法

        Skeleton-Based Action Recognition With Shift Graph Convolutional Network

        作者 |?Ke Cheng, Yifan Zhang, Xiangyu He, Weihan Chen, Jian Cheng, Hanqing Lu

        單位 | 中科院;國(guó)科大等

        代碼?|?https://github.com/kchengiva/Shift-GCN



        無(wú)監(jiān)督Skeleton-Based的動(dòng)作識(shí)別。該文提出一種編碼器-解碼器的RNN模型,可進(jìn)行無(wú)監(jiān)督的聚類,而此聚類結(jié)果可關(guān)聯(lián)動(dòng)作的類別,即也可以可以堪為預(yù)測(cè)。

        此無(wú)監(jiān)督方法在基于骨架的動(dòng)作識(shí)別中取得了與監(jiān)督學(xué)習(xí)方法相相近的精度!

        (也許表明:人體動(dòng)作本身類間差異就足夠大?)

        PREDICT & CLUSTER: Unsupervised Skeleton Based Action Recognition

        作者 |?Kun Su, Xiulong Liu, Eli Shlizerman

        單位 |?華盛頓大學(xué)

        代碼 |?https://github.com/shlizee/Predict-Cluster



        語(yǔ)義引導(dǎo)的神經(jīng)網(wǎng)絡(luò),用于Skeleton-Based人類動(dòng)作識(shí)別,SGN 方案僅需非常小的參數(shù)量(僅0.69M)就實(shí)現(xiàn)了很高的識(shí)別精度。

        Semantics-Guided Neural Networks for Efficient Skeleton-Based Human Action Recognition

        作者 | Pengfei Zhang,?Cuiling Lan,?Wenjun Zeng,?Junliang Xing,?Jianru Xue,?Nanning Zheng

        單位 | 西安交通大學(xué);微軟亞洲研究院;中科院自動(dòng)化所

        代碼 | https://github.com/microsoft/SGN

        解讀?|?CVPR 2020丨微軟亞洲研究院精選論文一覽



        上下文感知的圖卷積,用于Skeleton-Based動(dòng)作識(shí)別

        Context Aware Graph Convolution for Skeleton-Based Action Recognition

        作者 |?Xikun Zhang, Chang Xu, Dacheng Tao

        單位 | UBTECH Sydney AI Centre;悉尼大學(xué)



        ?? 數(shù)據(jù)集


        面向細(xì)粒度動(dòng)作分析的層級(jí)化高質(zhì)量數(shù)據(jù)集

        FineGym: A Hierarchical Video Dataset for Fine-Grained Action Understanding

        作者 |?Dian Shao, Yue Zhao, Bo Dai, Dahua Lin

        單位 | 香港中文大學(xué)與商湯聯(lián)合實(shí)驗(yàn)室?

        代碼/數(shù)據(jù)?|?https://sdolivia.github.io/FineGym/

        備注 | CVPR2020?Oral ,評(píng)審滿分論文

        解讀?|?https://zhuanlan.zhihu.com/p/130720627

        ?



        下載1:OpenCV黑魔法


        AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù):OpenCV黑魔法,即可下載小編精心編寫整理的計(jì)算機(jī)視覺趣味實(shí)戰(zhàn)教程



        下載2 CVPR2020

        AI算法與圖像處公眾號(hào)后臺(tái)回復(fù):CVPR2020即可下載1467篇CVPR?2020論文
        個(gè)人微信(如果沒有備注不拉群!
        請(qǐng)注明:地區(qū)+學(xué)校/企業(yè)+研究方向+昵稱


        覺得有趣就點(diǎn)亮在看吧


        瀏覽 77
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評(píng)論
        圖片
        表情
        推薦
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            黄视频在线免费 | 91探花在线播放 | 三人交free性欧美zz0 一边吻一边摸双乳的电影 bdsm性折磨bdsm电击 | 一级A婬片试看60分钟 | 午夜成人做愛视频 | 色婷婷久久久swag精品 | 午夜福利99 | 在线观看黄色 | 辣+高h+浓+np+肉+黄在线 | 污视频网站免费 |