Ubuntu下安装使用 tesseract

打开APP

未登录

开通VIP，畅享免费电子书等14项超值服

开通VIP

首页

好书

留言交流

下载APP

联系客服

Ubuntu下安装使用 tesseract

userphoto

黄建校 >《linux》

2015.11.17

关注

tesseract-ocr是开源的光学字符识别引擎，有Google的支持，支持很多种语言的识别，下面说一下我在Ubuntu下安装步骤

其实官方文档上说的很细，下面列出其中的命令，

sudo apt-get install autoconf automake libtool
sudo apt-get install libpng12-dev
sudo apt-get install libjpeg62-dev
sudo apt-get install libtiff4-dev
sudo apt-get install zlib1g-dev

注意最后一个zlib1g-dev中的1g是数字1，而不是小写字母l,

sudo apt-get install libleptonica-dev

下载源文件包解压（目前是3.0），进入目录

./runautoconf
./configure
make
sudo make install

下载语言数据包解压：你可以在这找到更多的语言包

gzip -d eng.traineddata.gz

移动到数据包安装目录下，默认为 /usr/local/share/tessdata

mv eng.traineddata /usr/local/share/tessdata
export TESSDATA_PREFIX=/usr/local/share/

安装图片格式转换工具，因为tesseract只识别tif格式的图片。

apt-get install imagemagick

你可以使用下面的命令转换图片

convert a.jpg a.tif

好了，测试一下吧

tesseract <image> <outputbasename> [-l lang] [configs]
tesseract a.tif a

默认为英语，如果你要识别其它语言请使用-l 参数指定，如

tesseract a.tif a -l chi_sim
cat a.txt

你将会看到识别出的文字，太棒了。好了，下面就可以用程序去调用识别文字了，

对于java你也可以使用tess4j封装的API，对于PHP你可以使用exec调用再对文件进行处理，

如果你遇到 lib **.so 找不到请运行

sudo ldconfig

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。

打开APP，阅读全文并永久保存查看更多类似文章

猜你喜欢

类似文章

【热】打开小程序，算一算2024你的财运

ubuntu安装tesseract 进行OCR识别

用Python进行OCR图像识别，小白一定要收藏

利用jTessBoxEditor工具进行Tesseract3.02.02样本训练，提高识别率

Tesseract 训练介绍

Tesseract-ocr文字识别的初步研究一

更多类似文章 >>

生活服务

热点新闻

分享收藏导长图关注下载文章

绑定账号成功
后续可登录账号畅享VIP特权！

如果VIP功能使用有故障，
可点击这里联系客服！

联系客服