1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        Python--文字識(shí)別--Tesseract

        共 1280字,需瀏覽 3分鐘

         ·

        2022-02-09 17:41

        1.介紹

        Tesseract 是一個(gè) OCR 庫(kù),目前由 Google 贊助(Google 也是一家以 OCR 和機(jī)器學(xué)習(xí)技術(shù)聞名于世的公司)。Tesseract 是目前公認(rèn)最優(yōu)秀、最精確的開(kāi)源 OCR 系統(tǒng)。 除了極高的精確度,Tesseract 也具有很高的靈活性。它可以通過(guò)訓(xùn)練識(shí)別出任何字體,也可以識(shí)別出任何 Unicode 字符。

        2.安裝

        以下所有都是在mac上安裝實(shí)現(xiàn)的

        //安裝tesseract的同時(shí)安裝訓(xùn)練工具
        brew install --with-training-tools tesseract
        
        //安裝tesseract的同時(shí)安裝所有語(yǔ)言,語(yǔ)言包比較大,如果安裝的話時(shí)間較長(zhǎng),建議不安裝,按需選擇
        brew install  --all-languages tesseract
        
        //安裝tesseract,并安裝訓(xùn)練工具和語(yǔ)言
        brew install --all-languages --with-training-tools tesseract 
        
        //只安裝tesseract,不安裝訓(xùn)練工具
        brew install  tesseract


        3.下載語(yǔ)言庫(kù)


        下載地址:tesseract-ocr/tessdata

        默認(rèn)自帶的是英語(yǔ)

        根據(jù)自己的需求選擇所要的語(yǔ)言庫(kù),在這里我們選擇的是簡(jiǎn)體中文所以選擇的庫(kù)是:chi_sim.traineddata

        將文件拷貝到到:/usr/local/Cellar/tesseract/(你下載的版本號(hào))/share/tessdata目錄下。


        4.Tesseract的命令行使用

        一般使用:

        //默認(rèn)使用eng文字庫(kù), imgName是圖片的地址,result識(shí)別結(jié)果
        tesseract imgName result

        指定語(yǔ)言:

        //指定使用簡(jiǎn)體中文
        tesseract -l chi_sim imgName result
        
        //查看本地存在的語(yǔ)言庫(kù)
        tesseract --list-langs

        指定多語(yǔ)言:

        //指定多語(yǔ)言,用+號(hào)相連
        tesseract -l chi_sim+eng imgName result


        5.Tesseract在Python中使用


        通過(guò) pip 安裝支持Python 版本的 Tesseract庫(kù)

        pip install pytesseract

        通過(guò)Python代碼的簡(jiǎn)單實(shí)現(xiàn)

        import pytesseract
        from PIL import Image
        
        image = Image.open('/Users/admin/Desktop/test.jpg')
        text = pytesseract.image_to_string(image)
        print text

        是爬蟲(chóng)中的驗(yàn)證碼的識(shí)別,可以通過(guò)更換別人訓(xùn)練好的語(yǔ)言包來(lái)識(shí)別.如果想自己通過(guò)訓(xùn)練來(lái)獲得語(yǔ)言包也是可以的.

        6.Tesseract訓(xùn)練

        這里放個(gè)官方文檔,等我練好了再分享

        [tesseract-ocr/tesseract](tesseract-ocr/tesseract)


        [更多內(nèi)容](ztfDeveloper的博客 - CSDN博客)

        瀏覽 22
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評(píng)論
        圖片
        表情
        推薦
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            成人性爱视频在线观看 | 97超碰人人草 | 岳泄身了舒服了好紧 | 久久久久久做 | 天天干天天爽 | 中文在线观看视频 | 欧美一级片观看 | 久久国产乱子伦精品免费女,网站 | 狼友视频入口首页 | 男人天堂2024在线观看 |