Python--文字識(shí)別--Tesseract
共 1280字,需瀏覽 3分鐘
·
2022-02-09 17:41
1.介紹
Tesseract 是一個(gè) OCR 庫(kù),目前由 Google 贊助(Google 也是一家以 OCR 和機(jī)器學(xué)習(xí)技術(shù)聞名于世的公司)。Tesseract 是目前公認(rèn)最優(yōu)秀、最精確的開(kāi)源 OCR 系統(tǒng)。 除了極高的精確度,Tesseract 也具有很高的靈活性。它可以通過(guò)訓(xùn)練識(shí)別出任何字體,也可以識(shí)別出任何 Unicode 字符。
2.安裝
以下所有都是在mac上安裝實(shí)現(xiàn)的
//安裝tesseract的同時(shí)安裝訓(xùn)練工具
brew install --with-training-tools tesseract
//安裝tesseract的同時(shí)安裝所有語(yǔ)言,語(yǔ)言包比較大,如果安裝的話時(shí)間較長(zhǎng),建議不安裝,按需選擇
brew install --all-languages tesseract
//安裝tesseract,并安裝訓(xùn)練工具和語(yǔ)言
brew install --all-languages --with-training-tools tesseract
//只安裝tesseract,不安裝訓(xùn)練工具
brew install tesseract3.下載語(yǔ)言庫(kù)
默認(rèn)自帶的是英語(yǔ)
根據(jù)自己的需求選擇所要的語(yǔ)言庫(kù),在這里我們選擇的是簡(jiǎn)體中文所以選擇的庫(kù)是:chi_sim.traineddata
將文件拷貝到到:/usr/local/Cellar/tesseract/(你下載的版本號(hào))/share/tessdata目錄下。
4.Tesseract的命令行使用
一般使用:
//默認(rèn)使用eng文字庫(kù), imgName是圖片的地址,result識(shí)別結(jié)果
tesseract imgName result指定語(yǔ)言:
//指定使用簡(jiǎn)體中文
tesseract -l chi_sim imgName result
//查看本地存在的語(yǔ)言庫(kù)
tesseract --list-langs指定多語(yǔ)言:
//指定多語(yǔ)言,用+號(hào)相連
tesseract -l chi_sim+eng imgName result5.Tesseract在Python中使用
通過(guò) pip 安裝支持Python 版本的 Tesseract庫(kù)
pip install pytesseract通過(guò)Python代碼的簡(jiǎn)單實(shí)現(xiàn)
import pytesseract
from PIL import Image
image = Image.open('/Users/admin/Desktop/test.jpg')
text = pytesseract.image_to_string(image)
print text是爬蟲(chóng)中的驗(yàn)證碼的識(shí)別,可以通過(guò)更換別人訓(xùn)練好的語(yǔ)言包來(lái)識(shí)別.如果想自己通過(guò)訓(xùn)練來(lái)獲得語(yǔ)言包也是可以的.
6.Tesseract訓(xùn)練
這里放個(gè)官方文檔,等我練好了再分享
[tesseract-ocr/tesseract](tesseract-ocr/tesseract)
[更多內(nèi)容](ztfDeveloper的博客 - CSDN博客)
