打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
Ubuntu下安装使用 tesseract
tesseract-ocr是开源的光学字符识别引擎,有Google的支持,支持很多种语言的识别,下面说一下 我在Ubuntu下安装步骤

其实官方文档上说的很细,下面列出其中的命令,

  1. sudo apt-get install autoconf automake libtool  
  2. sudo apt-get install libpng12-dev  
  3. sudo apt-get install libjpeg62-dev  
  4. sudo apt-get install libtiff4-dev  
  5. sudo apt-get install zlib1g-dev  

注意最后一个zlib1g-dev中的1g是数字1,而不是小写字母l,

  1. sudo apt-get install libleptonica-dev  

下载源文件包解压(目前是3.0),进入目录

  1. ./runautoconf  
  2. ./configure  
  3. make  
  4. sudo make install  

下载语言数据包解压:你可以在这找到更多的语言包

  1. gzip -d eng.traineddata.gz  

移动到数据包安装目录下,默认为 /usr/local/share/tessdata

  1. mv eng.traineddata /usr/local/share/tessdata  
  2.   
  3. export TESSDATA_PREFIX=/usr/local/share/  

安装图片格式转换工具,因为tesseract只识别tif格式的图片。

  1. apt-get install imagemagick  

你可以使用下面的命令转换图片

  1. convert a.jpg a.tif  

好了,测试一下吧

  1. tesseract <image> <outputbasename> [-l lang] [configs]  
  2.   
  3. tesseract a.tif a  
默认为英语,如果你要识别其它语言请使用-l 参数指定,如
  1. tesseract a.tif a -l chi_sim  
  2.   
  3. cat a.txt  

你将会看到识别出的文字,太棒了。好了,下面就可以用程序去调用识别文字了,

对于java你也可以使用tess4j封装的API,对于PHP你可以使用exec调用再对文件进行处理,

如果你遇到 lib **.so 找不到请运行

  1. sudo ldconfig  
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
ubuntu安装tesseract 进行OCR识别
Tesseract
用Python进行OCR图像识别,小白一定要收藏
利用jTessBoxEditor工具进行Tesseract3.02.02样本训练,提高识别率
Tesseract 训练介绍
Tesseract-ocr文字识别的初步研究一
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服