Tesseract.js使用纯js实现的OCR文字识别

更新时间：2023年10月21日 11:30:36 投稿：yin

Tesseract.js是流行的Tesseract OCR引擎的纯Javascript端口,这个库支持100多种语言,自动文本定位和脚本检测,一个简单的界面,用于阅读段落、单词和字符边界框,Tesseract.js既可以在浏览器中运行,也可以在带有NodeJS的服务器上运行

Tesseract.js是流行的Tesseract OCR引擎的纯Javascript端口。这个库支持100多种语言，自动文本定位和脚本检测，一个简单的界面，用于阅读段落、单词和字符边界框。Tesseract.js既可以在浏览器中运行，也可以在带有NodeJS的服务器上运行。

Tesseract简介

Tesseract 的最新版本第 4 版于 2018 年 10 月发布，它包含一个新的 OCR 引擎，该引擎使用基于长短期记忆(LSTM) 的神经网络系统，旨在产生更准确的结果。

Tesseract.js 一个几乎能识别出图片中所有语言的JS库。

官网：http://tesseract.projectnaptha.com/

git：https://github.com/naptha/tesseract.js

使用方法

先安装好tesseract

npm安装命令：npm install tesseract.js
安装好tesseract后，在node_modules中会出现两个文件夹

使用script标签导入js

从tesseract.js文件夹中获取tesseract.min.js和work.min.js两个文件

从tesseract.js-core文件夹中获取tesseract-core.wasm.js文件

准备一张带有文字的图片

提取图片文字

在不设置语言的情况下，默认为英文语言包

<!DOCTYPE html>
<html>
	<head>
		<meta charset="utf-8">
		<title>图片转文字</title>
		<script src="./js/tesseract.min.js" type="text/javascript" charset="utf-8"></script>
	</head>
	<body>
		<div id="text">
			
		</div>
		<script type="text/javascript">
			const {
				createWorker
			} = Tesseract;
			const worker = createWorker({
				workerPath: './js/worker.min.js',   // 从上面获取到的文件
				langPath: './lang-data',   // 语言包相对位置， 如果没有默认为英文
				corePath: './js/tesseract-core.wasm.js',   // 从上面获取到的文件
			});
			(async () => {
				await worker.load();  // 加载
				await worker.loadLanguage('eng');  // 加载英文的语言包
				await worker.initialize('eng');  // 加载英文的语言包
				const {
					data: {
						text
					}
				} = await worker.recognize('./img/4.png');  //需要解析的图片
				console.log(text);
				document.getElementById('text').innerText = text;
				await worker.terminate();
			})();
		</script>
	</body>
</html>

ps：在tesseract解析图片中的文字时，遇到不同国家的文字就可能解析出错。

tesseract.js识别中文

更改语言包关于语言包的下载，可以从码云上查找tessdata进行下载。
可提供参考地址：
https://tesseract-ocr.github.io/tessdoc/Data-Files
https://gitee.com/zealzheng/tessdata_fast?_from=gitee_search

这个tesseract.js的离线版本，只支持对英文的识别，不支持中文，如果你放一张中文的图片，会发现识别的结果是一堆乱码。
这里需要修改其中的代码，同时要去官网上下载对应的中文语言识别包。

1.下载中文识别包

tesseract.js的语言包下载地址为https://github.com/naptha/tessdata/tree/gh-pages/4.0.0
进入该网址，下载对应的中文语言包，具体名称为chi_sim.traineddata.gz

下载完成后，将该文件放到tesseract.js-offline-master\lang-data文件夹下，该文件夹存放了所有语言识别包文件。

2.修改相应的代码，实现识别中文

修改代码，程序逻辑很简单：

<!DOCTYPE html>
<html lang="en">
<head>
  <meta charset="UTF-8">
  <title>Tesseract.js Offline</title>
  <script src="../node_modules/tesseract.js/dist/tesseract.min.js"></script>
  <script>
    const { createWorker } = Tesseract;
    const worker = createWorker({
      workerPath: '../node_modules/tesseract.js/dist/worker.min.js',
      langPath: '../lang-data',
      corePath: '../node_modules/tesseract.js-core/tesseract-core.wasm.js',
      logger: m => console.log(m),
    });

    (async () => {
      await worker.load();
      await worker.loadLanguage('chi_sim');
      await worker.initialize('chi_sim');
      const { data: { text } } = await worker.recognize('./img/4.png');
      //这里我使用了我自己的图片目录，
      //在实际使用时需要改成你自己的图片路径
      console.log(text);
      await worker.terminate();
    })();
  </script>
</head>
<body>
</body>
</html>

总结

Tesseract 支持的图像格式是 jpg、png、bmp 和 pbm，它们只能作为元素（img、视频或画布）、文件对象 ( <input>)、blob 对象、图像的路径或 URL 和 base64 编码图像提供。语言以字符串形式提供，例如eng. 该+符号可用于连接多种语言，如eng+chi_tra. 语言参数用于确定要在图像处理中使用的训练语言数据。

到此这篇关于Tesseract.js使用纯js实现的OCR文字识别的文章就介绍到这了,更多相关Tesseract.js实现OCR文字识别内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

JavaScript添加随滚动条滚动窗体的方法
这篇文章主要介绍了JavaScript添加随滚动条滚动窗体的方法,涉及JavaScript事件响应及页面元素动态操作相关技巧,需要的朋友可以参考下
2016-02-02
JavaScript获取页面中超链接数量的方法
这篇文章主要介绍了JavaScript获取页面中超链接数量的方法,涉及JavaScript针对页面元素获取及运算的相关实现技巧,具有一定参考借鉴价值,需要的朋友可以参考下
2015-11-11
原生JS实现H5转盘游戏的示例代码
这篇文章主要介绍了如何利用原生JS实现转盘游戏，可以自由调整概率。文中的示例代码讲解详细，对我们学习JavaScript有一定帮助，需要的可以参考一下
2022-03-03
原生js实现对Ajax的封装(仿jquery)
这篇文章主要为大家详细介绍了原生js实现对Ajax的封装，模仿jquery，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2017-01-01
微信小程序实现滑动删除
这篇文章主要为大家详细介绍了微信小程序实现滑动删除，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2022-08-08
Javascript 浅拷贝、深拷贝的实现代码
Javascript中的对像赋值与Java中是一样的,都为引用传递.就是说,在把一个对像赋值给一个变量时,那么这个变量所指向的仍就是原来对像的地址.那怎么来做呢答案是克隆.
2008-12-12
JS input文本框禁用右键和复制粘贴功能的代码
由于项目要求，有些文本框需要禁用掉右键和复制粘贴的功能，昨天刚刚用JS实现。
2010-04-04
基于JavaScript实现类名的添加与移除
本文给大家分享javascript实现类名的添加与移除功能，需要的朋友参考下吧
2017-04-04
基于原生JS实现图片裁剪
要进行图片编辑，最重要要能够对图片进行裁剪。主要的实现分成两部分，一部分是前端利用js进行裁剪区域选择，第二部分是利用PHP进行后台处理。现在就跟大家分享一下。
2016-08-08
IE下双击checkbox反应延迟问题的解决方法
这篇文章主要介绍了IE下双击checkbox反应延迟问题的解决方法,需要的朋友可以参考下
2014-03-03