1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        Python-文字識別

        共 656字,需瀏覽 2分鐘

         ·

        2022-02-09 17:41

        首先還是要安裝tesseract OCR,即Optical Character Recognition,光學(xué)字符識別,谷歌開發(fā)的,在免費(fèi)庫中還是非常友好的,應(yīng)用場景比較多,比如在爬取數(shù)據(jù)時可以識別驗證碼等,我是因為有一大批掃描文件需要轉(zhuǎn)換成Excel,研究了一下,中間也遇到了很多問題,接下來可以帶大家入個門。

        第一步需要下載tesseract OCR安裝包(百度網(wǎng)上很多資源,如果搜到CSDN分析的文章里邊的下載地址還是比較靠譜的,如果懶得百度可以后臺私信無償發(fā)你),還是注意安裝位置,后邊要設(shè)置環(huán)境變量



        第二步下載語言包,可以搜索已經(jīng)訓(xùn)練好的現(xiàn)成的語言包(GitHub官方搜索下載,如果下載不下來可以百度或者后臺私信無償發(fā))下載后解壓好,放在安裝好的文件夾下



        第三步配置環(huán)境變量,右擊我的電腦,屬性,高級系統(tǒng)設(shè)置,直接上圖以下是我安裝的位置



        另外系統(tǒng)變量也加上



        第四步安裝Python的兩個庫(打開cmd 輸入:pip install pytesseract和pip install pillow)如果安裝成功,可以輸入pip list

        ,可以看到下圖的安裝包。



        最后的最后打開jupyter notebook,或者你的pycharm

        輸入代碼,就成了



        不過筆者掃描件都是表格,tesseract,識別失敗,最后用Python調(diào)用百度AI做的的識別,但是表格線和文字都黏在一起了,效果并不理想,如果清晰地表格和文字應(yīng)該是沒問題的,以后有空再把代碼分享出來。

        VX“生活是個啥”“degreeoffree910”

        瀏覽 21
        點贊
        評論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            国产精品久久久久久久白晢女i | 操逼的网站。 | 日本护士献身取精aaa电影在线 | 国产成人精品自拍 | 五月激情淫网 | 乳色吐息在线观看视频 | 男男动漫肉全程无删减视频名 | 我要看国产一级片 | 夜夜躁狠狠躁日日躁麻豆老人 | 三级久久久久久久久高潮 |