python3安装OCR识别库tesserocr过程图解

 更新时间:2020年04月02日 09:20:49   作者:广州萤火虫  
这篇文章主要介绍了python3安装OCR识别库tesserocr过程图解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

OCR简介

OCR,即Optical Character Recognition,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程,对应图形验证码来说,它们都是一些不规则的字符,这些字符是由字符稍加扭曲变换得到的内容,我们可以使用OCR技术来讲其转化为电子文本,然后将结果提取交给服务器,便可以达到自动识别验证码的过程。

window环境

环境材料准备

  • Window10
  • Python-3.7.3.tgz
  • tesserocr安装包

安装tesserocr

1、打开链接,https://digi.bib.uni-mannheim.de/tesseract/,见下图。


下载最新版的tesseract-ocr-w64-setup-v5.0.0.20190623.exe,然后安装,本人直接安装在C盘目录下。安装完毕后,如下图。


配置环境变量,有两个步骤。

在系统变量里,修改path,如下图。


在系统变量里,创建一个新的变量名为:TESSDATA_PREFIX,值为:C:\Program Files\Tesseract-OCR\tessdata(根据自己安装的tesserocr安装路径为准),如下图。


检查Tesseract-OCR是否安装完成,如下图。

Python3.7加载tesserocr

1、安装Python的OCR识别库

pip install Pillow
pip install pytesseract

2、python加载Window的tesserocr应用,要修改pytesseract三方库的pytesseract.py脚本。

打开pytesseract.py,将Window的tesserocr应用的tesserocr.exe绑定好。


3、到这里Python的绑定window的tesserocr应用已经完成。

读取验证码图片

from PIL import Image
import pytesseract


def read_text(text_path):
  """
  传入文本(jpg、png)的绝对路径,读取文本
  :param text_path:
  :return: 文本内容
  """
  # 验证码图片转字符串
  im = Image.open(text_path)
  # 转化为8bit的黑白图片
  imgry = im.convert('L')
  # 二值化,采用阈值分割算法,threshold为分割点
  threshold = 140
  table = []
  for j in range(256):
    if j < threshold:
      table.append(0)
    else:
      table.append(1)
  out = imgry.point(table, '1')
  # 识别文本
  text = pytesseract.image_to_string(out, lang="eng", config='--psm 6')
  return text


if __name__ == '__main__':
  print(read_text("d://v3.png"))

输出:

读取中文文本图片

1、因为OCR读取不同语言需要加载语言包,因此需要下载简体中文语言包。
从这个链接下载:https://github.com/tesseract-ocr/tessdata,下载红圈的简体中文包。然后将此文件放置window的安装目录下。如下两个图。


现在,我们来读取如下图片的中文文本内容。


代码如下:

from PIL import Image
import pytesseract


def read_text(text_path):
  """
  传入文本(jpg、png)的绝对路径,读取文本
  :param text_path:
  :return: 文本内容
  """
  # 验证码图片转字符串
  im = Image.open(text_path)
  # 转化为8bit的黑白图片
  imgry = im.convert('L')
  # 二值化,采用阈值分割算法,threshold为分割点
  threshold = 140
  table = []
  for j in range(256):
    if j < threshold:
      table.append(0)
    else:
      table.append(1)
  out = imgry.point(table, '1')
  # 识别文本,lang参数改为chi_sim,其他代码与上面的读取验证码代码一致。
  text = pytesseract.image_to_string(out, lang="chi_sim", config='--psm 6')
  return text
if __name__ == '__main__':
  print(read_text("d://v7.png"))

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

相关文章

  • python缩进区别分析

    python缩进区别分析

    这篇文章主要介绍了python缩进区别分析,需要的朋友可以参考下
    2014-02-02
  • python如何从文件读取数据及解析

    python如何从文件读取数据及解析

    这篇文章主要介绍了python如何从文件读取数据,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-09-09
  • Django之使用celery和NGINX生成静态页面实现性能优化

    Django之使用celery和NGINX生成静态页面实现性能优化

    这篇文章主要介绍了Django之使用celery和NGINX生成静态页面实现性能优化,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-10-10
  • 如何用Python合并lmdb文件

    如何用Python合并lmdb文件

    这篇文章主要为大家详细介绍了如何用Python合并lmdb文件,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-07-07
  • Django + Uwsgi + Nginx 实现生产环境部署的方法

    Django + Uwsgi + Nginx 实现生产环境部署的方法

    Django的部署可以有很多方式,采用nginx+uwsgi的方式是其中比较常见的一种方式。这篇文章主要介绍了Django + Uwsgi + Nginx 实现生产环境部署,感兴趣的小伙伴们可以参考一下
    2018-06-06
  • python实现栅栏加解密 支持密钥加密

    python实现栅栏加解密 支持密钥加密

    这篇文章主要为大家详细介绍了python实现栅栏加解密,支持密钥加密,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2019-03-03
  • Python函数值传递引用传递及形式参数和实际参数的区别

    Python函数值传递引用传递及形式参数和实际参数的区别

    这篇文章主要介绍了Python函数值传递引用传递及形式参数和实际参数的区别,具有一定的参考价值,需要的小伙伴可以参考一下,希望对你的学习有所帮助
    2022-05-05
  • python保留小数位的三种实现方法

    python保留小数位的三种实现方法

    本文给大家分享python保留小数位的三种方法,代码简单易懂,非常不错,具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-01-01
  • Python使用configparser库读取配置文件

    Python使用configparser库读取配置文件

    这篇文章主要介绍了Python使用configparser库读取配置文件,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-02-02
  • python中class(object)的含义是什么以及用法

    python中class(object)的含义是什么以及用法

    这篇文章主要介绍了python中class(object)的含义是什么以及用法说明,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-02-02

最新评论