1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        用Python 從 PDF 抽取 Excel 2.0

        共 627字,需瀏覽 2分鐘

         ·

        2022-06-28 09:55

        前些天向大家介紹了我開發(fā)的從PDF抽取表格小工具的使用方法(??點(diǎn)擊直達(dá)),有同學(xué)反饋說有一些問題:

        • 一頁P(yáng)DF有多張表,只能抽取第一個(gè)
        • 有些表格線條是透明的,無法抽取
        • 一頁一頁處理太麻煩,不能一次性抽取

        針對以上情況,我在原功能基礎(chǔ)上進(jìn)行了優(yōu)化,本文依舊不涉及代碼,具體實(shí)現(xiàn)過程我考慮在B站直播講解。

        這里就將優(yōu)化部分的使用方法介紹一下

        https://huggingface.co/spaces/beihai/PDF-Table-Extractor

        單頁P(yáng)DF包含多個(gè)表格

        這部分已經(jīng)做了代碼優(yōu)化,前端也有一點(diǎn)點(diǎn)變化

        選擇具體頁碼后,自動彈出抽取完成,下載的Excel包含多個(gè)sheet頁,對應(yīng)多張表格。

        表格線條是否透明

        有些 PDF 中的表格線條是透明的,比如下圖這種情況

        大家可以在線條是否透明下拉框選擇 True

        一鍵全頁抽取

        如果想要抽取一個(gè)PDF中所有的表格,在頁碼處填寫 all 即可。

        當(dāng)然,如果頁碼較多,如此操作會很慢,需要耐心等待。

        也可以填頁碼區(qū)間,比如1-3頁就填1-3,第十頁到最后一頁,可以填10-end

        如果某些表格沒有被提取,可以重新選擇表格線條是否透明重跑一下。

        以上。歡迎三連。

        另。

        直播暫定周日晚,歡迎來波關(guān)注,屆時(shí)會在動態(tài)發(fā)預(yù)告。


        推薦閱讀

        我逃到國企了

        再也不接私活了

        機(jī)器學(xué)習(xí)基礎(chǔ):用 Lasso 做特征選

        機(jī)器學(xué)習(xí)自動補(bǔ)全代(hán)碼(shù)神器

        用 Python 開發(fā)了一個(gè) PDF 抽取表格的小工具

        瀏覽 52
        點(diǎn)贊
        評論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評論
        圖片
        表情
        推薦
        點(diǎn)贊
        評論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            久久久天堂国产精品女人 | chineselesbianxxxxhd | 成年人视频网 | 女技师三级做爰按摩 | 国产香蕉97碰碰碰视频 | 美女露出强行男生揉网站 | 国产一级婬片A片AA片 | 综合黄色| 久久xxx | 91久久婷婷国产一区二区三区 |