python中使用pytesseract,遇到以下错误:pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it’s not in your path,本文主要介绍解决此错误的方法。
执行代码:
import cv2
import pytesseract
img = cv2.imread('1d.png')
print(pytesseract.image_to_string(img))
报错信息:
TesseractNotFoundError: tesseract is not installed or it's not in your PATH. See README file for more information.
问题原因:
使用pip安装了pytesseract
,但忘记安装tesseract二进制文件。
1、Linux上安装命令
sudo apt update
sudo apt install tesseract-ocr
sudo apt install libtesseract-dev
2、Mac安装命令
brew install tesseract
3、Windows上安装命令
1.下载二进制文件,安装
下载地址:https://github.com/UB-Mannheim/tesseract/wiki
安装版本:tesseract-ocr-w64-setup-v5.2.0.20220712.exe
安装地址:D:/Tesseract-OCR/
2.设置环境变量
path: …;D:\Tesseract-OCR;D:\Tesseract-OCR\testdata;
TESSDATA_PREFIX:D:\Tesseract-OCR\testdata
(不添加testdata后期可能会报错)
3.修改pytesseract.py(实战中并没有修改)
文件地址:D:\Python\Python39\Lib\site-packages\pytesseract\
tesseract_cmd = r’D:\Tesseract-OCR\tesseract.exe’
4.下载语言包
Tesseract默认是不支持中文的,如果想要识别中文或者其它语言需要下载相应的语言包,下载地址如下: https://tesseract-ocr.github.io/tessdoc/Data-Files ,进入网站后我们往下翻:
其中有两个中文语言包,一个Chinese-Simplified和Chinese-Traditional,它们分别是简体中文和繁体中文,我们选择需要的下载即可。下载完成后我们需要放到Tesseract的路径下的tessdata目录下,我们路径是D:\Tesseract-OCR\tessdata。