欧美国产视频一区,国产高清激情,操逼视频软件,欧美的黄色录像,玖玖精品在线播放,色黄视频,国产做爱视频网站,欧美做受高潮6

Python--文字識(shí)別--Tesseract

共 1280字，需瀏覽 3分鐘

2022-02-09 17:41

1.介紹

Tesseract 是一個(gè) OCR 庫(kù),目前由 Google 贊助(Google 也是一家以 OCR 和機(jī)器學(xué)習(xí)技術(shù)聞名于世的公司)。Tesseract 是目前公認(rèn)最優(yōu)秀、最精確的開(kāi)源 OCR 系統(tǒng)。除了極高的精確度,Tesseract 也具有很高的靈活性。它可以通過(guò)訓(xùn)練識(shí)別出任何字體，也可以識(shí)別出任何 Unicode 字符。

2.安裝

以下所有都是在mac上安裝實(shí)現(xiàn)的

//安裝tesseract的同時(shí)安裝訓(xùn)練工具
brew install --with-training-tools tesseract

//安裝tesseract的同時(shí)安裝所有語(yǔ)言，語(yǔ)言包比較大，如果安裝的話時(shí)間較長(zhǎng)，建議不安裝，按需選擇
brew install  --all-languages tesseract

//安裝tesseract，并安裝訓(xùn)練工具和語(yǔ)言
brew install --all-languages --with-training-tools tesseract 

//只安裝tesseract，不安裝訓(xùn)練工具
brew install  tesseract

3.下載語(yǔ)言庫(kù)

下載地址:tesseract-ocr/tessdata

默認(rèn)自帶的是英語(yǔ)

根據(jù)自己的需求選擇所要的語(yǔ)言庫(kù)，在這里我們選擇的是簡(jiǎn)體中文所以選擇的庫(kù)是：chi_sim.traineddata

將文件拷貝到到：/usr/local/Cellar/tesseract/(你下載的版本號(hào))/share/tessdata目錄下。

4.Tesseract的命令行使用

一般使用:

//默認(rèn)使用eng文字庫(kù)， imgName是圖片的地址，result識(shí)別結(jié)果
tesseract imgName result

指定語(yǔ)言:

//指定使用簡(jiǎn)體中文
tesseract -l chi_sim imgName result

//查看本地存在的語(yǔ)言庫(kù)
tesseract --list-langs

指定多語(yǔ)言:

//指定多語(yǔ)言，用+號(hào)相連
tesseract -l chi_sim+eng imgName result

5.Tesseract在Python中使用

通過(guò) pip 安裝支持Python 版本的 Tesseract庫(kù)

pip install pytesseract

通過(guò)Python代碼的簡(jiǎn)單實(shí)現(xiàn)

import pytesseract
from PIL import Image

image = Image.open('/Users/admin/Desktop/test.jpg')
text = pytesseract.image_to_string(image)
print text

是爬蟲(chóng)中的驗(yàn)證碼的識(shí)別,可以通過(guò)更換別人訓(xùn)練好的語(yǔ)言包來(lái)識(shí)別.如果想自己通過(guò)訓(xùn)練來(lái)獲得語(yǔ)言包也是可以的.

6.Tesseract訓(xùn)練

這里放個(gè)官方文檔,等我練好了再分享

[tesseract-ocr/tesseract](tesseract-ocr/tesseract)

[更多內(nèi)容](ztfDeveloper的博客 - CSDN博客)

點(diǎn)贊

評(píng)論

舉報(bào)