Python通过Tesseract库实现文字识别

 更新时间:2020年03月05日 12:09:11   作者:骑着螞蟻流浪  
这篇文章主要介绍了Python通过Tesseract库实现文字识别,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

机器视觉

从Google的无人驾驶汽车到可以识别假钞的自动售卖机,机器视觉一直都是一个应用广泛且具有深远的影响和雄伟的愿景的领域。

这里我们将重点介绍机器视觉的一个分支:文字识别。介绍如何用一些Python库来识别和使用在线图片中的文字。

我们可以很轻松的阅读图片里的文字,但是机器阅读这些图片就会非常困难,利用这种人类用户可以正常读取但是大多数存贮器没法读取的图片,这时验证码(CAPTCHA)就出现了。验证码读取的难易程序也大不相同。

将图像翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR)。可以实现OCR的底层库并不多,目前很多库都是使用共同的几个底层OCR库,或者是在上面进行定制。

OCR库概述

在读取和处理图像、图像相差的机器学习以及创建图像等任务中,Python一直都是非常出色的语言。虽然有很多库可以进行图像处理,但是这里我们只介绍Tesseract库。

Tesseract

Tesseract是一个OCR库,目前由Google赞助。Tesseract是目前公认最优秀、最精确的开源OCR系统。除了极高的精确度,Tesseract也具有很高的灵活性。它可以通过训练识别出任何字体,也可以识别出任何Unicode字符。

安装Tesseract:Windows系统

  下载可执行安装文件安装即可。

安装pytesseract

Tesseract是一个Python的命令行工具,不是通过import语句导入的库。安装之后,要用tesseract命令在Python的外面运行,但我们可以通过pip安装支持Python版本的Tesseract库:

  pip install pytesseract

处理规范的文字

你要处理的大多数文字都是比较干净、格式规范的。格式霍英东的文字通常具有以下特点:

使用统一的标准字体(不包含手写体、草书或者十分“花哨”的字体),复印或者拍照但是字体清晰、没有多余的痕迹或者污点排列整齐,没有歪歪斜斜的字没有超出图片范围,也没有残缺不全,或紧紧贴在图片的边缘

文字的一些格式问题在图片预处理时可以进行解决。例如,可以把图片转换成灰度图,调整亮度和对比度,还可以根据需要进行裁剪和旋转,在这里不作介绍。

示例:

英文:

识别结果的准确率还是挺高的。

通过Python代码实现

英文:

中文:

运行结果

This is some text, written in Arial, that will be read by
Tesseract. Here are some symbols: !@#$%"&*()
******************************
中 华 人 民 共 和 国

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

相关文章

  • Python机器学习k-近邻算法(K Nearest Neighbor)实例详解

    Python机器学习k-近邻算法(K Nearest Neighbor)实例详解

    这篇文章主要介绍了Python机器学习k-近邻算法(K Nearest Neighbor),结合实例形式分析了k-近邻算法的原理、操作步骤、相关实现与使用技巧,需要的朋友可以参考下
    2018-06-06
  • Python+OpenCV 实现简单的高斯滤波(推荐)

    Python+OpenCV 实现简单的高斯滤波(推荐)

    这篇文章主要介绍了Python+OpenCV 实现简单的高斯滤波,在文中需要注意的是,这里我没有特判当sigma = 0的时候的情况,具体实现过程跟随小编一起看看吧
    2021-09-09
  • python排序算法之希尔排序

    python排序算法之希尔排序

    这篇文章主要介绍了python排序算法之希尔排序,希尔排序,又叫“缩小增量排序”,是对插入排序进行优化后产生的一种排序算法,需要的朋友可以参考下
    2023-04-04
  • 三分钟python搭建支付宝三方支付

    三分钟python搭建支付宝三方支付

    本文主要介绍了三分钟python搭建支付宝三方支付,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-12-12
  • 用vscode开发python的步骤详解

    用vscode开发python的步骤详解

    这篇文章主要介绍了用vscode开发python的步骤详解,本文分步骤给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2021-08-08
  • python 函数传参之传值还是传引用的分析

    python 函数传参之传值还是传引用的分析

    这篇文章主要介绍了python 函数传参之传值还是传引用的分析,需要的朋友可以参考下
    2017-09-09
  • 如何提取Playwright录制文件中的元素定位信息

    如何提取Playwright录制文件中的元素定位信息

    最近在学习Playwright自动化测试,本文主要介绍了如何提取Playwright录制文件中的元素定位信息,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-12-12
  • 教你如何使Python爬取酷我在线音乐

    教你如何使Python爬取酷我在线音乐

    这篇文章主要介绍了如何利用 Python 实现酷我在线音乐的爬取,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起了解一下
    2022-04-04
  • python使用Turtle库画画写名字

    python使用Turtle库画画写名字

    Turtle库是Python语言中一个很流行的绘制图像的函数库,本篇文章小编就带大家学习python利用Turtle库画画写名字的相关资料,需要的朋友可以参考下面文章的具体内容
    2021-09-09
  • Python实现将SQLite中的数据直接输出为CVS的方法示例

    Python实现将SQLite中的数据直接输出为CVS的方法示例

    这篇文章主要介绍了Python实现将SQLite中的数据直接输出为CVS的方法,涉及Python连接、读取SQLite数据库及转换CVS格式数据的相关操作技巧,需要的朋友可以参考下
    2017-07-07

最新评论