CVPR 2021 論文大盤點(diǎn)-文本圖像篇

來源 | OpenCV中文網(wǎng)
編輯 | 極市平臺(tái)
極市導(dǎo)讀
昨日進(jìn)行了《CVPR 2021 論文大盤點(diǎn)-超分辨率篇》,今天我們繼續(xù)“文本檢測與識(shí)別相關(guān)論文”的盤點(diǎn)。 >>加入極市CV技術(shù)交流群,走在計(jì)算機(jī)視覺的最前沿
本文收集文本檢測與識(shí)別相關(guān)論文,包含任意形狀文本檢測、場景文本識(shí)別、手寫文本識(shí)別、文本分割、文本圖像檢索、視頻文本識(shí)別等,有趣的方向很多,共計(jì) 17 篇。
大家可以在 https://openaccess.thecvf.com/CVPR2021?day=all 按照題目下載這些論文。
用于任意形狀文本檢測
Fourier Contour Embedding for Arbitrary-Shaped Text Detection
任意形狀的文本檢測所面臨的主要挑戰(zhàn)之一是設(shè)計(jì)一個(gè)好的文本實(shí)例表示法,好使網(wǎng)絡(luò)可以學(xué)習(xí)不同的文本幾何差?,F(xiàn)有的大多數(shù)方法在圖像空間域中通過掩碼或直角坐標(biāo)系中的輪廓點(diǎn)序列來模擬文本實(shí)例。
問題:掩碼表示法可能會(huì)導(dǎo)致昂貴的后處理,而點(diǎn)序列表示法對(duì)具有高度彎曲形狀的文本的建模能力可能有限。
方案:作者指出在傅里葉域?qū)ξ谋緦?shí)例進(jìn)行建模,并提出Fourier Contour Embedding(FCE)方法,將任意形狀的文本輪廓表示為compact signatures。進(jìn)一步用骨干網(wǎng)、特征金字塔網(wǎng)絡(luò)(FPN)和反傅里葉變換(IFT)和非最大抑制(NMS)的簡單后處理來構(gòu)建FCENet。與以前的方法不同,F(xiàn)CENet 首先預(yù)測文本實(shí)例的 compact Fourier signatures,然后在測試過程中通過 IFT 和 NMS 重建文本輪廓。
結(jié)果:實(shí)驗(yàn)表明,即使是高度彎曲的形狀,在擬合場景文本的輪廓方面是準(zhǔn)確和魯棒的也驗(yàn)證了 FCENet 在任意形狀文本檢測方面的有效性和良好的通用性。FCENet 在 CTW1500 和 Total-Text 上優(yōu)于最先進(jìn)的(SOTA)方法,特別是在具有挑戰(zhàn)性的高度彎曲的文本子集上。
作者 | Yiqin Zhu, Jianyong Chen, Lingyu Liang, Zhanghui Kuang, Lianwen Jin, Wayne Zhang
單位 | 華南理工大學(xué);商湯;琶洲實(shí)驗(yàn)室;上海交通大學(xué);上海AI實(shí)驗(yàn)室
論文 | https://arxiv.org/abs/2104.10442

Progressive Contour Regression for Arbitrary-Shape Scene Text Detection
問題:當(dāng)前最先進(jìn)的場景文本檢測方法通常從自下而上的角度用局部像素或組件對(duì)文本實(shí)例進(jìn)行建模,因此,對(duì)噪聲很敏感,并依賴于復(fù)雜的啟發(fā)式后處理,特別是對(duì)于任意形狀的文本。
該研究提出一個(gè)新的用于檢測任意形狀的場景文本框架:Progressive Contour Regression(PCR),在 CTW1500、Total-Text、ArT 和 TD500多個(gè)公共基準(zhǔn)上取得了最先進(jìn)的性能。包括彎曲的、波浪形的、長的、定向的和多語言的場景文本。
具體來說,利用輪廓信息聚合來豐富輪廓特征表示,可以抑制冗余和嘈雜的輪廓點(diǎn)的影響,對(duì)任意形狀的文本產(chǎn)生更準(zhǔn)確的定位。同時(shí),整合一個(gè)可靠的輪廓定位機(jī)制,通過預(yù)測輪廓的置信度來緩解假陽性。
作者 | Pengwen Dai, Sanyi Zhang, Hua Zhang, Xiaochun Cao
單位 | 中科院;國科大;鵬城實(shí)驗(yàn)室;天津大學(xué)
論文 | https://openaccess.thecvf.com/content/CVPR2021/papers/Dai_Progressive_Contour_Regression_for_Arbitrary-Shape_Scene_Text_Detection_CVPR_2021_paper.pdf
代碼 | https://github.com/dpengwen/PCR

TextOCR: Towards large-scale end-to-end reasoning for arbitrary-shaped scene text
本文介紹一個(gè)在 TextVQA 圖像上收集的大型任意場景文本識(shí)別數(shù)據(jù)集 TextOCR,以及一個(gè)端到端的模型 PixelM4C,該模型通過將文本識(shí)別模型作為一個(gè)模塊,可以直接在圖像上進(jìn)行場景文本推理。
TextOCR,大型且多樣化,來自 TextVQA 的 28,134 幅自然圖像,有 100 萬個(gè)任意形狀的單詞標(biāo)注(比現(xiàn)有的數(shù)據(jù)集大3倍),每張圖片有 32 個(gè)單詞。作為訓(xùn)練數(shù)據(jù)集,在多個(gè)數(shù)據(jù)集上提高了 OCR 算法的精度 ;作為測試數(shù)據(jù)集,為社區(qū)提供新的挑戰(zhàn)。
在TextOCR上進(jìn)行訓(xùn)練,可以提供更好的文本識(shí)別模型,在大多數(shù)文本識(shí)別基準(zhǔn)上超過最先進(jìn)的水平。此外,在 PixelM4C 中使用 TextOCR 訓(xùn)練的文本識(shí)別模塊,可以使用它的不同特征,甚至有可能提供反饋,這使得 PixelM4C超越了 TextVQA 的現(xiàn)有最先進(jìn)方法。
通過 TextOCR 數(shù)據(jù)集和 PixelM4C 模型,在連接 OCR 和基于 OCR 的下游應(yīng)用方面邁出了一步,并從直接在 TextOCR 上訓(xùn)練的 TextVQA 結(jié)果中所看到的改進(jìn),希望該研究能夠同時(shí)推動(dòng)這兩個(gè)領(lǐng)域的發(fā)展。
作者 | Amanpreet Singh, Guan Pang, Mandy Toh, Jing Huang, Wojciech Galuba, Tal Hassner
單位 | Facebook
論文 | https://arxiv.org/abs/2105.05486
主頁 | https://textvqa.org/textocr

場景文本識(shí)別
What If We Only Use Real Datasets for Scene Text Recognition? Toward Scene Text Recognition With Fewer Labels
本次工作的研究目的是使用更少的標(biāo)簽來運(yùn)用 STR(場景文本識(shí)別) 模型。作者用只占合成數(shù)據(jù) 1.7% 的真實(shí)數(shù)據(jù)來充分地訓(xùn)練 STR 模型。通過使用簡單的數(shù)據(jù)增廣和引入半監(jiān)督和自監(jiān)督的方法,利用數(shù)百萬真實(shí)的無標(biāo)簽數(shù)據(jù),進(jìn)一步提高性能。作者稱該工作是邁向更少標(biāo)簽的 STR 的墊腳石,并希望這項(xiàng)工作能促進(jìn)未來關(guān)于這個(gè)主題的工作。
作者 | Jeonghun Baek, Yusuke Matsui, Kiyoharu Aizawa
單位 | 東京大學(xué)
論文 | https://arxiv.org/abs/2103.04400
代碼 | https://github.com/ku21fan/STR-Fewer-Labels

Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition
提出 ABINet,用于場景本文識(shí)別,它具有自主性、雙向性以及迭代性。其中自主性是提出阻斷視覺和語言模型之間的梯度流動(dòng),以執(zhí)行明確的語言建模;雙向性表現(xiàn)在,提出一種基于雙向特征表示的新型 bidirectional cloze network(BCN)作為語言模型;迭代性是提出一種語言模型迭代校正的執(zhí)行方式,可以有效地緩解噪聲輸入的影響。此外,基于迭代預(yù)測的集合,提出一種自訓(xùn)練方法,可以有效地從未標(biāo)記的圖像中學(xué)習(xí)。
結(jié)果:實(shí)驗(yàn)結(jié)果顯明,ABINet 在低質(zhì)量圖像上具有優(yōu)勢,并在幾個(gè)主流基準(zhǔn)上取得了最先進(jìn)的結(jié)果。此外,用集合自訓(xùn)練法訓(xùn)練的 ABINet 向?qū)崿F(xiàn)人類水平的識(shí)別水平又進(jìn)了一步。
作者 | Shancheng Fang, Hongtao Xie, Yuxin Wang, Zhendong Mao, Yongdong Zhang
單位 | 中國科學(xué)技術(shù)大學(xué)
論文 | https://arxiv.org/abs/2103.06495
代碼 | https://github.com/FangShancheng/ABINet
備注 | CVPR 2021 Oral

MOST: A Multi-Oriented Scene Text Detector with Localization Refinement
問題:改善在極端長寬比和不同尺度的文本實(shí)例時(shí)的文本檢測性能。
方案:Text Feature Alignment Module(TFAM),根據(jù)最初的原始檢測結(jié)果動(dòng)態(tài)地調(diào)整特征的感受野;Position-Aware Non-Maximum Suppression(PA-NMS)模塊,選擇性地集中可靠的原始檢測,并排除不可靠的檢測。此外,還提出 Instance-wise IoU 損失,用于平衡訓(xùn)練,以處理不同尺度的文本實(shí)例。
將此與 EAST 相結(jié)合,在各種文本檢測的標(biāo)準(zhǔn)基準(zhǔn)上實(shí)現(xiàn)了最先進(jìn)或有競爭力的性能,同時(shí)可以保持快速的運(yùn)行速度。
作者 | Minghang He, Minghui Liao, Zhibo Yang, Humen Zhong, Jun Tang, Wenqing Cheng, Cong Yao, Yongpan Wang, Xiang Bai
單位 | 華中科技大學(xué);阿里;南大
論文 | https://arxiv.org/abs/2104.01070

Dictionary-guided Scene Text Recognition
本次研究,作者提出一種新的語言感知方法來解決場景文本識(shí)別中的視覺模糊性問題。該方法在訓(xùn)練和推理階段都可以利用字典的力量,可以解決許多條件下的模糊性。另外,創(chuàng)建一個(gè)用于越南場景文本識(shí)別的新數(shù)據(jù)集:VinText,它在從多個(gè)類似字符中辨別一個(gè)字符方面帶來了新的挑戰(zhàn)。
在 TotalText、ICDAR13、ICDAR15 和新收集的 VinText 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果證明了該字典整合方法的優(yōu)點(diǎn)。
作者 | Nguyen Nguyen, Thu Nguyen, Vinh Tran, Minh-Triet Tran, Thanh Duc Ngo, Thien Huu Nguyen, Minh Hoa
單位 | VinAI研究等
論文 | https://openaccess.thecvf.com/content/CVPR2021/papers/Nguyen_Dictionary-Guided_Scene_Text_Recognition_CVPR_2021_paper.pdf
代碼 | https://github.com/VinAIResearch/dict-guided

Primitive Representation Learning for Scene Text Recognition
與常用的基于 CTC 和基于注意力的方法不同,作者通過學(xué)習(xí)原始表征并形成可用于并行解碼的視覺文本表征,提出一個(gè)新的場景文本識(shí)別框架。又提出一個(gè) pooling aggregator 和一個(gè) weighted aggregator,從 CNN 輸出的特征圖中學(xué)習(xí)原始表征,并使用 GCN 將原始表征轉(zhuǎn)換為視覺文本表征。所提出的原始表征學(xué)習(xí)方法可以被整合到基于注意力的框架中。并在英文和中文場景文本識(shí)別任務(wù)的實(shí)驗(yàn)結(jié)果證明了所提出方法的有效性和高效率。
作者 | Ruijie Yan, Liangrui Peng, Shanyu Xiao, Gang Yao
單位 | 清華大學(xué)
論文 | https://arxiv.org/abs/2105.04286

文本識(shí)別與檢測
Implicit Feature Alignment: Learn to Convert Text Recognizer to Text Spotter
本次工作提出一個(gè)簡單而有效新范式:IFA,將 text recognizer 轉(zhuǎn)變?yōu)?detection-free text spotter,利用神經(jīng)網(wǎng)絡(luò)的可學(xué)習(xí)對(duì)齊特性,可以很容易地集成到當(dāng)前主流的文本識(shí)別器中。得到一種全新的推理機(jī)制:IFAinference。使普通的文本識(shí)別器能夠處理多行文本。
具體來說,作者將 IFA 整合到兩個(gè)最流行的文本識(shí)別流中(基于注意力和基于CTC),分別得到兩種新的方法:ADP 和 ExCTC。此外,還提出基于Wasserstein 的 Hollow Aggregation Cross-Entropy(WH-ACE)來抑制負(fù)面噪音,以幫助訓(xùn)練 ADP 和 ExCTC。
實(shí)驗(yàn)結(jié)果表明 IFA 在端到端文檔識(shí)別任務(wù)中取得了最先進(jìn)的性能,同時(shí)保持了最快的速度,而 ADP 和 ExCTC 在不同應(yīng)用場景的角度上相互補(bǔ)充。
作者 | Tianwei Wang, Yuanzhi Zhu, Lianwen Jin, Dezhi Peng, Zhe Li, Mengchao He, Yongpan Wang, Canjie Luo
單位 | 華南理工大學(xué);阿里等
論文 | https://arxiv.org/abs/2106.05920

Sequence-to-Sequence Contrastive Learning for Text Recognition
本次工作提出一個(gè)對(duì)比性學(xué)習(xí)方法:SeqCLR,用于文本識(shí)別。將每個(gè)特征圖看作是一系列的獨(dú)立實(shí)例,得到 sub-word 級(jí)上的對(duì)比學(xué)習(xí),例如每個(gè)圖像提取幾個(gè)正面的配對(duì)和多個(gè)負(fù)面的例子。另外,為獲得有效的文本識(shí)別視覺表征,進(jìn)一步提出新的增強(qiáng)啟發(fā)式方法、不同的編碼器架構(gòu)和自定義投影頭。
在手寫文本和場景文本上的實(shí)驗(yàn)表明,當(dāng)用學(xué)到的表征訓(xùn)練文本解碼器時(shí),所提出方法優(yōu)于非序列對(duì)比法。此外,當(dāng)監(jiān)督量減少時(shí),與監(jiān)督訓(xùn)練相比,SeqCLR 明顯提高了性能,而當(dāng)用 100% 的標(biāo)簽進(jìn)行微調(diào)時(shí),SeqCLR 在標(biāo)準(zhǔn)手寫文本識(shí)別基準(zhǔn)上取得了最先進(jìn)的結(jié)果。
作者 | Aviad Aberdam, Ron Litman, Shahar Tsiper, Oron Anschel, Ron Slossberg, Shai Mazor, R. Manmatha, Pietro Perona
單位 | 以色列理工學(xué)院;亞馬遜等
論文 | https://arxiv.org/abs/2012.10873

Self-attention based Text Knowledge Mining for Text Detection
本文提出 STKM,可以進(jìn)行端到端訓(xùn)練,以獲得一般的文本知識(shí),用于下游文本檢測任務(wù)。是首次嘗試為文本檢測提供通用的預(yù)訓(xùn)練模型。并證明 STKM 可以在不同的基準(zhǔn)上以很大的幅度提高各種檢測器的性能。
作者 | Qi Wan, Haoqin Ji, Linlin Shen
單位 | 深圳市人工智能與機(jī)器人研究院;深圳大學(xué)
論文 | https://openaccess.thecvf.com/content/CVPR2021/papers/Wan_Self-Attention_Based_Text_Knowledge_Mining_for_Text_Detection_CVPR_2021_paper.pdf
代碼 | https://github.com/CVI-SZU/STKM

A Multiplexed Network for End-to-End, Multilingual OCR
研究問題:當(dāng)前的文本檢測方法主要集中在拉丁字母語言上,甚至經(jīng)常只有不區(qū)分大小寫的英文字符。
提出方案:E2E-Multiplexed Multilingual Mask TextSpotter,在 word 級(jí)上進(jìn)行腳本識(shí)別,并以不同的識(shí)別頭處理不同的腳本,同時(shí)保持一個(gè)統(tǒng)一的損失,以及優(yōu)化腳本識(shí)別和多個(gè)識(shí)別頭。
結(jié)果:實(shí)驗(yàn)結(jié)果表明,所提出方法在端到端識(shí)別任務(wù)中優(yōu)于參數(shù)數(shù)量相似的single-head 模型,并在 MLT17 和 MLT19 聯(lián)合文本檢測和腳本識(shí)別基準(zhǔn)上取得了最先進(jìn)的結(jié)果。
作者 | Jing Huang, Guan Pang, Rama Kovvuri, Mandy Toh, Kevin J Liang, Praveen Krishnan, Xi Yin, Tal Hassner
單位 | Facebook
論文 | https://arxiv.org/abs/2103.15992

TAP: Text-Aware Pre-training for Text-VQA and Text-Caption
本次工作提出 Text-Aware Pre-training(TAP),用于 Text-VQA 和 Text-Caption 兩個(gè)任務(wù)。目的是閱讀和理解圖像中的場景文本,分別用于回答問題和生成圖像字幕。與傳統(tǒng)的視覺語言預(yù)訓(xùn)練不同的是,傳統(tǒng)的視覺語言預(yù)訓(xùn)練不能捕捉到場景文本及其與視覺和文本模態(tài)的關(guān)系。而 TAP 則明確地將場景文本(由OCR引擎生成)納入預(yù)訓(xùn)練中。
通過masked language modeling(MLM), image-text(contrastive) matching(ITM)和relative(spatial)position prediction (RPP)三個(gè)預(yù)訓(xùn)練任務(wù),TAP 可以幫助模型在三種模式中學(xué)習(xí)更好的對(duì)齊表示:文本字、視覺目標(biāo)和場景文本。由于這種對(duì)齊的表征學(xué)習(xí),在相同的下游任務(wù)數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,與非 TAP 基線相比,TAP 將TextVQA 數(shù)據(jù)集的絕對(duì)準(zhǔn)確率提高了 +5.4%。
此外,作者還創(chuàng)建一個(gè)基于 Conceptual Caption 數(shù)據(jù)集的大規(guī)模數(shù)據(jù)集:OCR-CC,包含 140 萬個(gè)場景文本相關(guān)的圖像-文本對(duì)。在 OCR-CC 數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練后,所提出方法在多個(gè)任務(wù)上以較大的幅度超過了現(xiàn)有技術(shù)水平,即在 TextVQA 上的準(zhǔn)確率為 +8.3%,在 ST-VQA 上的準(zhǔn)確率為+8.6%,在 TextCaps 上的 CIDEr 得分為 +10.2。
作者 | Zhengyuan Yang, Yijuan Lu, Jianfeng Wang, Xi Yin, Dinei Florencio, Lijuan Wang, Cha Zhang, Lei Zhang, Jiebo Luo
單位 | 羅切斯特大學(xué);微軟
論文 | https://arxiv.org/abs/2012.04638

場景文本檢索
Scene Text Retrieval via Joint Text Detection and Similarity Learning
場景文本檢索的目的是定位和搜索圖像庫中的所有文本實(shí)例,這些文本與給定的查詢文本相同或相似。這樣的任務(wù)通常是通過將查詢文本與由端到端場景文本識(shí)別器輸出的識(shí)別詞相匹配來實(shí)現(xiàn)。
本次工作,作者通過直接學(xué)習(xí)查詢文本和自然圖像中每個(gè)文本實(shí)例之間的跨模態(tài)相似性來解決這個(gè)問題。具體來說,建立一個(gè)端到端的可訓(xùn)練網(wǎng)絡(luò),來共同優(yōu)化場景文本檢測和跨模態(tài)相似性學(xué)習(xí)的程序。這樣一來,場景文本檢索就可以通過對(duì)檢測到的文本實(shí)例與學(xué)習(xí)到的相似性進(jìn)行排序來簡單地進(jìn)行。
在三個(gè)基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)表明,所提出方法始終優(yōu)于最先進(jìn)的場景文 spotting/檢索方法。特別是,所提出的聯(lián)合檢測和相似性學(xué)習(xí)的框架取得了明顯優(yōu)于分離方法的性能。
作者 | Hao Wang, Xiang Bai, Mingkun Yang, Shenggao Zhu, Jing Wang, Wenyu Liu
單位 | 華中科技大學(xué);華為
論文 | https://arxiv.org/abs/2104.01552
代碼 | https://github.com/lanfeng4659/STR-TDSL

手寫文本識(shí)別
MetaHTR: Towards Writer-Adaptive Handwritten Text Recognition
本文介紹一個(gè) writer-adaptive HTR 問題,即模型在推理過程中只用很少的樣本就能適應(yīng)新的書寫風(fēng)格。
作者 | Ayan Kumar Bhunia, Shuvozit Ghose, Amandeep Kumar, Pinaki Nath Chowdhury, Aneeshan Sain, Yi-Zhe Song
單位 | 薩里大學(xué)等
論文 | https://arxiv.org/abs/2104.01876

文本分割
Rethinking Text Segmentation: A Novel Dataset and A Text-Specific Refinement Approach
文本分割是許多現(xiàn)實(shí)世界中與文本相關(guān)任務(wù)的先決條件,例如文本樣式的遷移和場景文本擦除。但由于缺乏高質(zhì)量的數(shù)據(jù)集和專門的調(diào)查,該先決條件在許多工作中被作為一種假設(shè),并在很大程度上被忽視。
基于上述原因,作者提出 TextSeg,一個(gè)大規(guī)模的細(xì)致標(biāo)注的文本數(shù)據(jù)集,包含六種類型的標(biāo)注:word- and character-wise bounding polygons, masks 和 transcriptions。還設(shè)計(jì)一個(gè) Text Refinement Network (TexRNet),是一種全新的文本分割方法,能夠適應(yīng)文本的獨(dú)特屬性,一些往往給傳統(tǒng)分割模型帶來負(fù)擔(dān)的屬性,如非凸形邊界、多樣化的紋理等。設(shè)計(jì)有效的網(wǎng)絡(luò)模塊(即關(guān)鍵特征池和基于注意力的相似性檢查)和損失(即 trimap loss 和 glyph discriminator)來解決這些挑戰(zhàn),例如,不同的紋理和任意的尺度/形狀。
在 TextSeg 數(shù)據(jù)集以及其他現(xiàn)有的數(shù)據(jù)集上的實(shí)驗(yàn)證明,與其他最先進(jìn)的分割方法相比,TexRNet 始終能將文本分割性能提高近 2%。
作者 | Xingqian Xu, Zhifei Zhang, Zhaowen Wang, Brian Price, Zhonghao Wang, Humphrey Shi
單位 | UIUC;Adobe;俄勒岡大學(xué)
論文 | https://arxiv.org/abs/2011.14021
代碼 | https://github.com/SHI-Labs/Rethinking-Text-Segmentation

視頻文本檢測
Semantic-Aware Video Text Detection
一些現(xiàn)有的視頻文本檢測方法都是通過外觀特征來對(duì)文本進(jìn)行追蹤,這些特征又很容易受到視角和光照變化的影響。而與外觀特征相比,語義特征是匹配文本實(shí)例的更有力線索。
本次工作提出一個(gè)端到端的可訓(xùn)練的視頻文本檢測器,是基于語義特征來跟蹤文本。
首先,引入一個(gè)新的字符中心分割分支來提取語義特征,它編碼字符的類別和位置。然后,提出一個(gè)新的 appearance-semanticgeometry 描述器來跟蹤文本實(shí)例,其中語義特征可以提高對(duì)外觀變化的魯棒性。
另外,為了克服字符級(jí)標(biāo)注的不足,又提出一個(gè)弱監(jiān)督字符中心檢測模塊,它只使用字級(jí)標(biāo)注的真實(shí)圖像來生成字符級(jí)標(biāo)簽。
在三個(gè)視頻文本基準(zhǔn) ICDAR 2013 Video、Minetto 和 RT-1K,以及兩個(gè)中文場景文本基準(zhǔn) CASIA10K 和 MSRA-TD500 上取得了最先進(jìn)的性能。
作者 | Wei Feng, Fei Yin, Xu-Yao Zhang, Cheng-Lin Liu
單位 | 中科院;國科大
論文 | https://openaccess.thecvf.com/content/CVPR2021/papers/Feng_Semantic-Aware_Video_Text_Detection_CVPR_2021_paper.pdf

- END -
如果覺得有用,就請(qǐng)分享到朋友圈吧!
公眾號(hào)后臺(tái)回復(fù)“CVPR21檢測”獲取CVPR2021目標(biāo)檢測論文下載~

# CV技術(shù)社群邀請(qǐng)函 #

備注:姓名-學(xué)校/公司-研究方向-城市(如:小極-北大-目標(biāo)檢測-深圳)
即可申請(qǐng)加入極市目標(biāo)檢測/圖像分割/工業(yè)檢測/人臉/醫(yī)學(xué)影像/3D/SLAM/自動(dòng)駕駛/超分辨率/姿態(tài)估計(jì)/ReID/GAN/圖像增強(qiáng)/OCR/視頻理解等技術(shù)交流群
每月大咖直播分享、真實(shí)項(xiàng)目需求對(duì)接、求職內(nèi)推、算法競賽、干貨資訊匯總、與 10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動(dòng)交流~

