1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        Any2Excel基于 Python 的圖像內表格數(shù)據(jù)提取工具

        聯(lián)合創(chuàng)作 · 2023-09-30 15:48

        Any2Excel 是一款使用 Python 編寫的圖像內表格數(shù)據(jù)提取工具,可以高效識別 PDF 原件、掃描件、復印件、彩色(黑白)照片、截圖內的數(shù)據(jù)表格,提取后轉為 Excel 文件輸出。

        這是一款開源工具,我給它取名叫Any2Excel。顧名思義,往后的目標就是提取任意格式文件中的數(shù)據(jù)圖表到可被結構化處理的 Excel 文件。

        識別度高,操作簡單,使用場景廣泛。

        支持手機拍照、掃描件、原件、復印件等等。

        快速開始

        Python PIP 依賴

        pip install -r .\requirements.txt

        外部依賴

        poppler 安裝后將其bin路徑加入系統(tǒng)變量中

        配置騰訊云

        cp config+sample.yml config.yml后補全config.yml中的配置信息。

        工作原理

        • 將 PDF 按每頁轉為 JPG 圖像文件

        • 暫時只取 PDF 第一頁內容

        • 提交 OCR 識別這個圖像文件

        • 將識別結果轉為 Excel 導出

        • 清除 Excel 文件的全部樣式

        命令行(CLI)

        PDF 轉 Excel

        cd PDF2Excel
        python3 pdf2excel.py test.pdf

        圖片 轉 Excel

        cd PDF2Excel
        python3 image2excel.py capture.jpg

        可視化拖拽

        將需要轉換的 PDF 文件/圖片文件,拖拽到程序上就會自動執(zhí)行

        輸出文件

        *.xlsx 包含了樣式的 Excel 文件,可能會因為樣式過多而文件過大。

        *.xls 移除了樣式的 Excel 文件,推薦。

        配置

        config.yml 內包含了騰訊云的相關鑒權信息

        瀏覽 116
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        編輯 分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        編輯 分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            极品97尤物被啪到呻吟喷水 | 伊人精品网站 | 天天色天天色 | 老色批影院| 无码97| 久久日韩精品一区二区 | 亚洲第一页综合 | 中国美女一级特黄大片片 | 91麻豆影视 | 狠狠躁天天躁夜夜躁婷婷 |