1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        GitHub Star 13.9k,頂級(jí)項(xiàng)目全新開源表格識(shí)別算法

        共 3325字,需瀏覽 7分鐘

         ·

        2021-08-11 14:42

        1

        導(dǎo) 讀



        相信大家在工作生活中經(jīng)常會(huì)遇到表格識(shí)別的問題,比如導(dǎo)師說,把下面 PDF 文件里面的表格取出來整理成 Excel 表。



        也可能會(huì)遇到,公司領(lǐng)導(dǎo)或者客戶發(fā)來一張截圖,需要里面的表格取出來轉(zhuǎn)成 Excel 表。


        這種情況下你會(huì)怎么做呢,新建一個(gè) Excel 一個(gè)一個(gè)數(shù)據(jù)敲么,辛辛苦苦半天趕出來,領(lǐng)導(dǎo)還會(huì)來一句,怎么這么慢,簡直郁悶死……



        別著急,只要稍微會(huì)一點(diǎn) Python 代碼,這個(gè)開源項(xiàng)目神器拯救你!

        2

        效果展示



        版面分析 + 表格識(shí)別





        如圖所示,針對(duì)一張完整的 PDF 圖片,這個(gè)開源項(xiàng)目可以對(duì)文檔圖片中的文本、表格、圖片、標(biāo)題與列表區(qū)域進(jìn)行分類。同時(shí)還可以利用表格識(shí)別技術(shù)完整地提取表格結(jié)構(gòu)信息,使得表格圖片變?yōu)榭删庉嫷?Excel 文件。


        不僅僅是 PDF 文件轉(zhuǎn) excel,如果編程能力再強(qiáng)一些,結(jié)合版面分析技術(shù),PDF 轉(zhuǎn) Word 都不在話下。


        而且使用也是非常方便,在完成 Python whl 包安裝之后,簡單幾行代碼即可完成快速試用。



        最終結(jié)果會(huì)輸出圖片文件夾,Excel 表和文字識(shí)別結(jié)果,確實(shí)是非常方便。

         

        傳送門:

        https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.2/ppstructure/README_ch.md


        3

        版面分析與表格識(shí)別核心技術(shù)概述



        不管是版面分析還是表格識(shí)別,現(xiàn)有方案可大致分為基于圖像處理的傳統(tǒng)方法和基于深度學(xué)習(xí)的方法。


        (1)傳統(tǒng)方法:版面分析比較著名的是 O’Gorman 在 1993 年 TPAMI 中發(fā)表的算法 Docstrum。通過自下而上的方法依次將圖像中的黑白連通域劃分為文字、文本行與文本塊,從而得到版面布局。表格識(shí)別的傳統(tǒng)方法通過腐蝕、膨脹等操作獲得表格線、劃分行列區(qū)域,然后將單元格與文本內(nèi)容相結(jié)合重構(gòu)為表格對(duì)象。但是傳統(tǒng)算法主要問題在于,對(duì)于版面布局分析和表格結(jié)構(gòu)的提取,圖像處理的方法依賴各種閾值和參數(shù)的選擇,對(duì)于不同場(chǎng)景下的文檔圖片難以保證泛化性。


        (2)深度學(xué)習(xí)方法:除了直接使用檢測(cè)模型來對(duì)版面內(nèi)容進(jìn)行分類以外,還融合了檢測(cè)、分割、圖神經(jīng)網(wǎng)絡(luò)、注意力機(jī)制等眾多前沿技術(shù)能力。依賴算法工程師對(duì)于深度神經(jīng)網(wǎng)絡(luò)的精心設(shè)計(jì),可以不再依賴閾值與參數(shù),具有更好的泛化性。


        4

        PP-Structure核心技術(shù)解讀



        • 版面分析技術(shù)
        PP-Structure 的版面分析技術(shù),主要是對(duì)圖片形式的文檔進(jìn)行版面分析,將文檔劃分為文字、標(biāo)題、表格、圖片以及列表 5 類區(qū)域(與 Layout-Parser 聯(lián)合使用)。其核心技術(shù)思路與 Layout-Parser 項(xiàng)目密切合作,參考了 Layout-Parser 的工程結(jié)構(gòu)設(shè)計(jì),配合 PaddleDetection 開源的高效檢測(cè)算法 PP-YOLO v2,在數(shù)據(jù)集 TableBank 和 PubLayNet 上 mAP 分別達(dá)到 93.6 和 96.2, NVIDIA Tesla P40 耗時(shí)僅需 66.6ms,且可以支持用戶根據(jù)自己的數(shù)據(jù)自定義訓(xùn)練。

        Layout-Parser 是開源的基于深度學(xué)習(xí)的文檔圖像分析工具箱,可用于布局檢測(cè),字符識(shí)別和許多其他文檔處理任務(wù),包含大量豐富模型,支持自定義 DL 模型,支持多個(gè)文檔布局檢測(cè)數(shù)據(jù)集。



        GitHub 地址:

        https://github.com/Layout-Parser/layout-parser


        • 表格識(shí)別技術(shù)
        表格識(shí)別技術(shù)則主要使用基于注意力機(jī)制的圖片描述模型 RARE,整體流程如下圖所示,對(duì)于其中的表格區(qū)域進(jìn)行表格識(shí)別處理。


        表格識(shí)別的難點(diǎn)主要在于表格結(jié)構(gòu)的提取,以及將表格信息與 OCR 信息融合。整體流程可以分為上下兩部分,其中上半部分(黑色支路)是普通的 OCR 過程,通過(1)文本檢測(cè)模塊對(duì)表格圖片進(jìn)行單行文字檢測(cè),獲得坐標(biāo),然后通過(2)文本識(shí)別模塊識(shí)別模型得到文字結(jié)果。

        而在下半部分的在藍(lán)色支路中,表格圖片首先經(jīng)過(3)表格結(jié)構(gòu)預(yù)測(cè)模塊,獲得每個(gè) Excel 單元格的四點(diǎn)坐標(biāo)與表格結(jié)構(gòu)信息。結(jié)合黑色支路文本檢測(cè)獲得的單行文字文本框 4 點(diǎn)坐標(biāo),共同輸入(4)Cell 坐標(biāo)聚合模塊,再通過(5)Cell 文本聚合模塊,將屬于同一單元格的文本拼接在一起。最后結(jié)合表格結(jié)構(gòu)信息,通過(6)Excel 導(dǎo)出模塊獲得 Excel 形式的表格數(shù)據(jù)。

        下面分別針每個(gè)模塊分別展開介紹。

        (1)文本檢測(cè)模塊 (2)文本識(shí)別模塊
        主要使用 PP-OCR 提供的檢測(cè)和識(shí)別算法。

        (3)表格結(jié)構(gòu)預(yù)測(cè)模塊,主要使用基于 Attention 的圖片描述模型 RARE,RARE 模型可以實(shí)現(xiàn):輸入一張圖片,通過帶有注意力機(jī)制的網(wǎng)絡(luò)輸出一段文字,描述圖片的內(nèi)容,而針對(duì)于表格圖片的圖片描述網(wǎng)絡(luò),輸入一張經(jīng)過版面分析的表格圖片,輸出的是一串 HTML 字符(如下圖所示)。表格的結(jié)構(gòu)通過 HTML 的結(jié)構(gòu)標(biāo)記表示,其中的內(nèi)容即為表格文本中的內(nèi)容。通過進(jìn)一步的 HTML 解析,可以獲得每個(gè)文本的單元格四點(diǎn)坐標(biāo)和表格結(jié)構(gòu)信息。


        (4)Cell 坐標(biāo)聚合模塊,主要用來解決如何將跨行單元格的文本重新拼接在一個(gè)單元格內(nèi)的問題。它通過計(jì)算由文本檢測(cè)算法獲得的文本框坐標(biāo)(紅色框)與表格結(jié)構(gòu)預(yù)測(cè)模塊得到的 Cell 坐標(biāo)(藍(lán)色框)之間的 IOU 和頂點(diǎn)距離來進(jìn)行單行到多行的聚合。使用 IOU 判斷哪些紅色框同屬于一個(gè)藍(lán)色框,使用頂點(diǎn)距離和 IOU 判斷紅色框的排列順序。



        (5)Cell 文本聚合模塊,根據(jù)已有的紅色文本框順序,按照從上到下從左到右順序利用(4)Cell 坐標(biāo)聚合模塊的結(jié)果將(2)文本識(shí)別結(jié)果和進(jìn)行拼接,這樣對(duì)于多行文本的單元格內(nèi)容即可拼接成一個(gè)字符串。


        (6)Excel 導(dǎo)出模塊,將(3)表格結(jié)構(gòu)預(yù)測(cè)結(jié)果 html 結(jié)果與(5)Cell 文本聚合模塊文本結(jié)果結(jié)合,最終導(dǎo)出為 Excel 輸出。


        以上所有內(nèi)容均在 PaddleOCR 項(xiàng)目開源,目前 star 數(shù)量超過 13.5k


        5

        相關(guān)延伸閱讀:PaddleOCR歷史表現(xiàn)回顧



        • 2020 年 6 月,8.6M 超輕量模型發(fā)布,GitHub Trending 全球趨勢(shì)榜日榜第一。

        • 2020 年 8 月,開源 CVPR2020 頂會(huì)算法,再上 GitHub 趨勢(shì)榜單!

        • 2020 年 10 月,發(fā)布 PP-OCR 算法,開源 3.5M 超超輕量模型,再下 Paperswithcode 趨勢(shì)榜第一

        • 2021 年 1 月,發(fā)布 Style-Text 文本合成算法,PPOCRLabel 數(shù)據(jù)標(biāo)注工具,star 數(shù)量突破 10000+,截至目前已經(jīng)達(dá)到 11.5k,在《Github 2020 數(shù)字洞察報(bào)告》中被評(píng)為中國 GithubTop20 活躍項(xiàng)目。

        • 2021 年 4 月,開源 AAAI 頂會(huì)論文 PGNet 端到端識(shí)別算法,Star 突破 13k

        • 2021 年 8 月,開源版面分析與表格識(shí)別算法



        文本檢測(cè)識(shí)別效果:



        這個(gè)最強(qiáng) OCR 項(xiàng)目,你值得擁有:

        https://github.com/PaddlePaddle/PaddleOCR



        8 月 12 日(周四)20:15-21:30 百度高級(jí)研發(fā)工程師將帶我們解讀文檔分析技術(shù) PP-Structure 及 PaddleOCR 應(yīng)用落地經(jīng)驗(yàn),歡迎大家踴躍報(bào)名直播課!

         

        掃描二維碼報(bào)名,立即加入交流群





        如果您想詳細(xì)了解更多飛槳的相關(guān)內(nèi)容,請(qǐng)參閱以下文檔。

        ?PaddleOCR 項(xiàng)目地址?

        GitHub:
        https://github.com/PaddlePaddle/PaddleOCR

        Gitee:

        https://gitee.com/paddlepaddle/PaddleOCR


        · 官網(wǎng)地址?
        https://www.paddlepaddle.org.cn/



        戳原文,更有料!
        瀏覽 64
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評(píng)論
        圖片
        表情
        推薦
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            靠逼视频在线播放 | 极品粉嫩小泬XXXXHD11 | 婷婷五月天丁香社 | 午夜中文字幕 | 国内夫妻做爱视频自拍 | www天天操 | 亚洲图片综合 | 一级a免一级a做免费线观看视频 | 水蜜桃网站在线观看 | 一本久色|