PaddleOCR 识别表情包文字示例详解

 更新时间:2022年08月20日 16:15:09   作者:OldBirds  
这篇文章主要为大家介绍了PaddleOCR 识别表情包文字示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪

引言

最近在做个表情包的小程序,涉及到表情包搜索功能。我们上传表情包的时候,只有一张图,怎么搜索?这个时候我们想到就是将表情包的文字提取出来,作为搜索的内容。那么这就需要用到 ocr 技术了。

经过几个 ocr 的库的使用,小编强烈推荐使用 PaddleOCR,一款文本识别效果不输于商用的Python库!

对于 PaddleOCR 本文不会过多介绍,可自行搜索。重点是如何使用 PaddleOCR 解决我的问题。

安装 PaddleOCR

pip install paddlepaddle
pip install paddleocr

我这边安装后的版本:

paddleocr==2.5.0.3
paddlepaddle==2.3.1

在 macOS 安装后,项目运行报错报错,忘了截图,应该是与 setuptools 版本有关,解决方式:

pip install --upgrade setuptools==59.8.0

完成这些配置后,我们就可以愉快的玩耍了。

本地处理

import hashlib
import io
from PIL import Image
from paddleocr import PaddleOCR
def get_gif_pic_path(url):
    '''下载图片,返回图片第一帧路径'''
    response = requests.get(url)
    filename = hashlib.md5(url.encode(encoding='utf-8')).hexdigest()
    img = Image.open(io.BytesIO(response.content))
    current = img.tell()
    img_path = f'bqb/{filename}_{current}.png'
    img.save(img_path)
    return img_path
def ocr_get_gif_text_sec(url) -> str:
    '''识别gif第一帧图片的文字'''
    img_path = get_gif_pic_path(url)
    ocr = PaddleOCR(use_angle_cls=True, lang='ch')
    result = ocr.ocr(img_path, cls=True)
    data = []
    for item in result:
        data.append(item[1][0])
    return ",".join(data)
ocr_get_gif_text_sec('https://xxxxxx')

由于 gif 是个动图,所以我们需要取出图片的第一帧进行识别,get_gif_pic_path实现了这个功能。ocr_get_gif_text_sec 从 gif 第一帧的图进行文字提取,返回的 result 是个数组,我们通过遍历进行提取出来。

提取 gif 图片的内容我们就完成了,两个函数的功能也比较简单。本文没做 gif 全部文字的提取,有兴趣可以挑战下。

在 flask 中处理

当我们想在上传图片的时候,进行对图片文字的处理怎么办?难道要将上传的图保存到路径再去识别么?这也是我在开发中遇到的一个问题,经过拆坑,答案是:不,你不需要。

思路:我们可以从表单中获取上传的图片的二进制,然后将这个二进制传给ocr.ocr(),那么ocr.ocr() 支持这个类型么?经过查看此函数源码,我们可以让它支持。

将图片二进制转化为 nparray 类型即可。下面是这个过程的具体代码

from paddleocr import PaddleOCR
import numpy as np
import cv2
@app.route('/v1/upload_img', methods=['POST'])
def api_v1_upload_img():
    if 'file' not in request.files:
        return "no file part"
    file = request.files['file']
    if file.filename == '':
        return "no selected file"
    if file:
        file_name = file.filename
        # 获取图片的二进制
        res = upload_image(bytes=file.read(), filename=file_name)
        return res
    else:
        return "no file"
def upload_image(bytes, filename = None, mime_type = None):
    ocr = PaddleOCR(use_angle_cls=True, lang="ch")
    ## 核心步骤
    np_arr = np.frombuffer(bytes, dtype=np.uint8)
    img = cv2.imdecode(np_arr, cv2.IMREAD_COLOR)
    # 进行识别
    result = ocr.ocr(img=img, cls=True)
    ocr_result = []
    for line in result:
        ocr_result.append(line[1][0].strip())
    img_content = ' '.join(ocr_result)
    return img_content   

api_v1_upload_img我们获取到图片二进制以及图片名,将这些作为参数传到upload_image,在upload_image中:

np_arr = np.frombuffer(bytes, dtype=np.uint8)
img = cv2.imdecode(np_arr, cv2.IMREAD_COLOR)

上面两行代码是这个需求的核心突破点。

还有一点就是建议不要将此识别功能部署到性能差的机器上,并发一下,完全扛不住,默默的留下两行眼泪。

以上就是PaddleOCR 识别表情包文字示例详解的详细内容,更多关于PaddleOCR识别表情包文字的资料请关注脚本之家其它相关文章!

相关文章

  • python读取视频流提取视频帧的两种方法

    python读取视频流提取视频帧的两种方法

    这篇文章主要为大家详细介绍了python读取视频流提取视频帧的两种方法,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-04-04
  • Python3.7基于hashlib和Crypto实现加签验签功能(实例代码)

    Python3.7基于hashlib和Crypto实现加签验签功能(实例代码)

    这篇文章主要介绍了Python3.7基于hashlib和Crypto实现加签验签功能,环境是基于python3.7,本文通过实例代码给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-12-12
  • 使用jupyter notebook直接打开.md格式的文件

    使用jupyter notebook直接打开.md格式的文件

    这篇文章主要介绍了使用jupyter notebook直接打开.md格式的文件,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-04-04
  • Python实现数据集划分(训练集和测试集)

    Python实现数据集划分(训练集和测试集)

    这篇文章主要为大家详细介绍了Python是如何实现数据集划分的,分为训练集和测试集,文中的实现方法讲解详细,感兴趣的小伙伴可以了解一下
    2023-05-05
  • python爬虫_微信公众号推送信息爬取的实例

    python爬虫_微信公众号推送信息爬取的实例

    下面小编就为大家带来一篇python爬虫_微信公众号推送信息爬取的实例。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-10-10
  • 教你用YOLOv5实现多路摄像头实时目标检测功能

    教你用YOLOv5实现多路摄像头实时目标检测功能

    目标检测是计算机视觉的研究方向之一,下面这篇文章主要给大家介绍了关于如何利用YOLOv5实现多路摄像头实时目标检测功能的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
    2022-03-03
  • Python callable函数使用方法详解

    Python callable函数使用方法详解

    这篇文章主要介绍了Python callable函数使用方法,一个可callable的对象是指可以被调用执行的对象,并且可以传入参数, 用另一个简单的描述方式,只要可以在一个对象的后面使用小括号来执行代码,那么这个对象就是callable对象,下面来详细介绍使用方法,需要的朋友可以参考下
    2024-10-10
  • python中pyplot基础图标函数整理

    python中pyplot基础图标函数整理

    在本篇文章里小编给大家整理的是一篇关于python中pyplot基础图标函数整理的相关知识点,有兴趣的朋友们可以参考下。
    2020-11-11
  • python基础之局部变量和全局变量

    python基础之局部变量和全局变量

    这篇文章主要介绍了python局部变量和全局变量,实例分析了Python中返回一个返回值与多个返回值的方法,需要的朋友可以参考下
    2021-10-10
  • Python之修改图片像素值的方法

    Python之修改图片像素值的方法

    今天小编就为大家分享一篇Python之修改图片像素值的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-07-07

最新评论