打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
pytesseract-谷歌 Tesseract OCR引擎包装的python库

Python-tesseract是用于python的光学字符识别(OCR)工具。也就是说,它将识别并“读取”图像中嵌入的文本。

  Python-tesseract是Google Tesseract-OCR Engine的包装。它也可以用作tesseract的独立调用脚本,因为它可以读取Pillow和Leptonica图像库支持的所有图像类型,包括jpeg,png,gif,bmp,tiff等。此外,如果将Python-tesseract用作脚本,它将打印识别的文本,而不是将其写入文件。

用法

快速开始

注意:测试图像位于tests/dataGit存储库的文件夹中。

先决条件:

Python-tesseract需要Python 2.7或Python 3.6+

您将需要Python Imaging Library(PIL)(或Pillow fork)。在Debian / Ubuntu下,这是python-imaging或python3-imaging软件包。

安装Google Tesseract OCR (有关如何在Linux,Mac OSX和Windows上安装引擎的附加信息)。您必须能够将tesseract命令作为tesseract调用。如果不是这种情况(例如,因为tesseract不在您的PATH中),则必须更改“ tesseract_cmd”变量pytesseract.pytesseract.tesseract_cmd。在Debian / Ubuntu下,您可以使用软件包tesseract-ocr。对于Mac OS用户。请安装自制软件包tesseract。

注:请确保您也已安装tessconfigs并configs从正方体-OCR / tessconfigs或通过OS包管理器。

  通过pip安装:pip install pytesseract

或者您也可以通过网盘下载pytesseract的源代码进行手动安装。

测试

要运行该项目的测试套件,请安装并运行tox。确保已tesseract 安装并且在PATH中。

pip install tox tox

pip install tox

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
Python3一行代码实现图片文字识别的示例
tesseract-OCR + pytesseract安装
Python爬虫实战入门一:工具准备
Python 识别验证码
详解Python安装tesserocr遇到的各种问题及解决办法
Python使用OCR识别中英文
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服