zoro
0獲贊0關(guān)注0粉絲
Python-文字識別
首先還是要安裝tesseract OCR,即Optical Character Recognition,光學字符識別,谷歌開發(fā)的,在免費庫中還是非常友好的,應用場景比較多,比如在爬取數(shù)據(jù)時可以識別驗證碼等,我是因為有一大批掃描文件需要轉(zhuǎn)換成Excel,研究了一下,中間也遇到了很多問題,接下來可以帶大家入個門。
第一步需要下載tesseract OCR安裝包(百度網(wǎng)上很多資源,如果搜到CSDN分析的文章里邊的下載地址還是比較靠譜的,如果懶得百度可以后臺私信無償發(fā)你),還是注意安裝位置,后邊要設置環(huán)境變量
第二步下載語言包,可以搜索已經(jīng)訓練好的現(xiàn)成的語言包(GitHub官方搜索下載,如果下載不下來可以百度或者后臺私信無償
zoro
0
