點(diǎn)擊上方“CVer”，選擇加"星標(biāo)"置頂

重磅干貨，第一時(shí)間送達(dá)

導(dǎo)讀

OCR 方向的工程師，一定需要知道這個(gè) OCR 開源項(xiàng)目：PaddleOCR

短短幾個(gè)月，累計(jì) Star 數(shù)量已超過8.5K；

頻頻登上 Github Trending 日榜月榜；

稱它為 OCR 方向目前最火的 repo 絕對(duì)不為過；

最近，它又帶來四大新發(fā)布與升級(jí)。

核心內(nèi)容先睹為快：

全新發(fā)布數(shù)據(jù)合成工具 Style-Text：可以批量合成大量與目標(biāo)場(chǎng)景類似的圖像，在多個(gè)場(chǎng)景驗(yàn)證，效果均提升15%以上。
全新發(fā)布半自動(dòng)數(shù)據(jù)標(biāo)注工具 PPOCRLabel：有了它數(shù)據(jù)標(biāo)注工作事半功倍，相比 labelimg 標(biāo)注效率提升60%以上，社區(qū)小規(guī)模測(cè)試，好評(píng)如潮。
多語言識(shí)別模型效果升級(jí)：在開源測(cè)試集評(píng)估，中文、英文、韓語、法語、德語、日文識(shí)別效果均優(yōu)于 EasyOCR。
PP-OCR 開發(fā)體驗(yàn)再升級(jí)：支持動(dòng)態(tài)圖開發(fā)（訓(xùn)練調(diào)試更方便），靜態(tài)圖部署（預(yù)測(cè)效率更高），魚與熊掌可以兼得。

PaddleOCR 歷史表現(xiàn)回顧

先看下 PaddleOCR 自去年6月開源以來，短短幾個(gè)月在 GitHub 上的表現(xiàn)：

6月，8.6M 超輕量模型發(fā)布，GitHub Trending 全球趨勢(shì)榜日榜第一。
8月，開源 CVPR 2020頂會(huì) SOTA 算法，再上 GitHub 趨勢(shì)榜單！
10月，發(fā)布 PP-OCR 算法，開源 3.5M 超超輕量模型，再下 Paperswithcode 趨勢(shì)榜第一。

這個(gè)含金量，廣大的 GitHub 開發(fā)者們自然懂，3.5M 超超輕量模型的效果圖大家直接看，絕對(duì)杠杠的。

火車票、表格、金屬銘牌、翻轉(zhuǎn)圖片、外語都是妥妥的，3.5M 的模型能達(dá)到這個(gè)識(shí)別精度，絕對(duì)是良心之作了！

傳送門

Github：https://github.com/PaddlePaddle/PaddleOCR

那么最近的12月份更新，又給大家?guī)砟男@喜呢？

全新發(fā)布 OCR 數(shù)據(jù)合成工具：Style-Text

相比于傳統(tǒng)的數(shù)據(jù)合成算法， Style-Text 可以實(shí)現(xiàn)特殊背景下的圖片風(fēng)格遷移，只需要少許目標(biāo)場(chǎng)景圖像，就可以合成大量數(shù)據(jù)，效果展示如下：

1、相同背景批量數(shù)據(jù)合成

2、相同文字批量數(shù)據(jù)合成

3、圖片分離前景背景

除了拉風(fēng)的效果，采用這樣的合成數(shù)據(jù)和真實(shí)數(shù)據(jù)一起訓(xùn)練，可以顯著提升特殊場(chǎng)景的性能指標(biāo)，分別以兩個(gè)場(chǎng)景為例：

怎么樣，絕對(duì)是黑科技了吧。

這項(xiàng)能力核心算法是基于百度和華科合作研發(fā)的文本編輯算法《Editing Text in the Wild》:

https://arxiv.org/abs/1908.03047

不同于常用的基于 GAN 的數(shù)據(jù)合成工具， Style-Text 主要框架包括：

文本前景風(fēng)格遷移模塊
背景抽取模塊
融合模塊

經(jīng)過這樣三步，就可以迅速實(shí)現(xiàn)圖片文字風(fēng)格遷移啦。

超強(qiáng) OCR 數(shù)據(jù)標(biāo)注工具：PPOCRLabel

除了數(shù)據(jù)合成，數(shù)據(jù)標(biāo)注也一直是深度學(xué)習(xí)開發(fā)者關(guān)注的重點(diǎn)，無論是從成本還是時(shí)間上面，提高標(biāo)注效率，降低標(biāo)注成本太重要了。

PPOCRLabel 通過內(nèi)置高質(zhì)量的 PPOCR 中英文超輕量預(yù)訓(xùn)練模型，可以實(shí)現(xiàn) OCR 數(shù)據(jù)的高效標(biāo)注。

CPU 機(jī)器運(yùn)行也是完全沒問題的。

話不多說，直接看 PPOCRLabel 效果演示：

用法也是非常的簡(jiǎn)單，標(biāo)注效率提升60%-80%是妥妥的。

只能說，真的太香了。

最好的多語言模型效果

簡(jiǎn)單對(duì)比一下目前主流 OCR 方向開源 repo 的核心能力：

▲ 中英文模型性能及功能對(duì)比

其中，部分多語言模型性能及功能（F1-Score）對(duì)比（僅 EasyOCR 提供）。

值得一提的是，目前已經(jīng)有全球開發(fā)者通過 PR 或者 issue 的方式為 PaddleOCR 提供多語言的字典和語料，在 PaddleOCR 上已經(jīng)完成了全球主流語言的廣泛覆蓋：包括中文簡(jiǎn)體、中文繁體、英文、法文、德文、韓文、日文、意大利文、西班牙文、葡萄牙文、俄羅斯文、阿拉伯文、印地文、維吾爾文、波斯文、烏爾都文、塞爾維亞文（latin）、歐西坦文、馬拉地文、尼泊爾文、塞爾維亞文、保加利亞文、烏克蘭文、白俄羅斯文、泰盧固文、卡納達(dá)文、泰米爾文，也歡迎更多開發(fā)者可以參與共建。

PP-OCR 開發(fā)體驗(yàn)再升級(jí)

動(dòng)態(tài)圖和靜態(tài)圖是深度學(xué)習(xí)框架常用的兩種模式。在動(dòng)態(tài)圖模式下，代碼編寫運(yùn)行方式符合 Python 程序員的習(xí)慣，易于調(diào)試，但在性能方面， Python 執(zhí)行開銷較大，與 C++有一定差距。

相比動(dòng)態(tài)圖，靜態(tài)圖在部署方面更具有性能的優(yōu)勢(shì)。靜態(tài)圖程序在編譯執(zhí)行時(shí)，預(yù)先搭建好的神經(jīng)網(wǎng)絡(luò)可以脫離 Python 依賴，在 C++端被重新解析執(zhí)行，而且擁有整體網(wǎng)絡(luò)結(jié)構(gòu)也能進(jìn)行一些網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化。

飛槳?jiǎng)討B(tài)圖中新增了動(dòng)態(tài)圖轉(zhuǎn)靜態(tài)圖的功能，支持用戶使用動(dòng)態(tài)圖編寫組網(wǎng)代碼。預(yù)測(cè)部署時(shí)，飛槳會(huì)對(duì)用戶代碼進(jìn)行分析，自動(dòng)轉(zhuǎn)換為靜態(tài)圖網(wǎng)絡(luò)結(jié)構(gòu)，兼顧了動(dòng)態(tài)圖易用性和靜態(tài)圖部署性能兩方面優(yōu)勢(shì)。

良心出品的中英文文檔教程

別的不需要多說了，大家訪問 GitHub 點(diǎn)過 star 之后自己體驗(yàn)吧：

https://github.com/PaddlePaddle/PaddleOCR

掃描下方二維碼報(bào)名

立即加入技術(shù)交流群

下周更有三節(jié)深度技術(shù)公開課等你來參加

玩轉(zhuǎn) PaddleOCR 就差這三節(jié)課啦~~

官網(wǎng)地址

https://www.paddlepaddle.org.cn

PaddleOCR 項(xiàng)目地址

GitHub: https://github.com/PaddlePaddle/PaddleOCR

Gitee: https://gitee.com/paddlepaddle/PaddleOCR

點(diǎn)擊“閱讀原文”，查看更多詳情

霸榜Github：又一款OCR神器面世！