数据清洗之如何用一行Python代码去掉文本中的各种符号

 更新时间:2022年11月23日 10:31:16   作者:coder1479  
我们在处理文本的时候往往需要对标点符号进行处理,下面这篇文章主要给大家介绍了关于数据清洗之如何用一行Python代码去掉文本中的各种符号的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下

前言

在搜集了很多文本语料之后,会开始漫长的数据清洗过程,通常要不断迭代。

1. 问题描述

有些文本数据中,会包含一些特殊符号。

猜想可能是从某些富文本编辑器中直接粘贴到了网页。

如果要清除这些特殊符号,就需要专门的工具。

2. 相关知识

Unicode标准把符号分为四大类,分别是:

缩写详情
[Sc]Symbol, Currency
[Sk]Symbol, Modifier
[Sm]Symbol, Math
[So]Symbol, Other

一般需要清理掉的符号会是So类型的,但还是要根据自己的数据情况具体分析

3. 解决方案

在数据清洗过程中遇到的符号可能包括:杂项符号、几何形状、箭头、心形、星形、表情Emoji、货币符号等。

如果以上这些符号都要删除,可以用下面的代码。

text = "".join(ch for ch in text if unicodedata.category(ch)[0]!= 'S')

如果需要单独去除某一类,或者希望知道某个符号所属的具体类别,就需要到这个网站:

https://www.unicode.org/charts/charindex.html

查找对应的符号类型。

以箭头符号为例。

先用Arrow搜索上面的网页,找到纯粹的箭头项Arrows,对应的文档是:https://www.unicode.org/charts/PDF/U2190.pdf

找到自己需要的箭头,并查看对应的名字。

举例:箭头

RIGHTWARDS ARROW,然后用python提供的unicodedata标准库,查找这个符号的类别。

unicodedata.lookup('RIGHTWARDS ARROW')
'→'
unicodedata.category('→')
'Sm'

这样,就知道要查找的箭头符号,属于Sm类别(数学符号)。

举例:黑色方块

BLACK SQUARE ■ U+25A0

unicodedata.lookup('BLACK SQUARE')
'■'
unicodedata.category('■')
'So'

举例:黑色心形

unicodedata.lookup('BLACK HEART SUIT')
'♥'
unicodedata.category('♥')
'So'

举例:黑色星形

unicodedata.lookup('BLACK FOUR POINTED STAR')
'✦'
unicodedata.category('✦')
'So'

如果只需要去除杂项符号,可以用下面的python代码。

text = "".join(ch for ch in text if unicodedata.category(ch) != 'So')

另一个有用的网址:

https://www.fileformat.info/info/unicode/category/index.htm

总结

到此这篇关于数据清洗之如何用一行Python代码去掉文本中的各种符号的文章就介绍到这了,更多相关Python去掉文本各种符号内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python+pyftpdlib实现局域网文件互传

    Python+pyftpdlib实现局域网文件互传

    这篇文章主要介绍了Python+pyftpdlib实现局域网文件互传,需要的朋友可以参考下
    2020-08-08
  • Python灰度变换中位图切割分析实现

    Python灰度变换中位图切割分析实现

    灰度变换是指根据某种目标条件按一定变换关系逐点改变源图像中每个像素灰度值的方法。目的是改善画质,使图像显示效果更加清晰。图像的灰度变换处理是图像增强处理技术中的一种非常基础、直接的空间域图像处理方法,也是图像数字化软件和图像显示软件的一个重要组成部分
    2022-10-10
  • Python可执行文件反编译教程(exe转py)

    Python可执行文件反编译教程(exe转py)

    python的便利性,使得如今许多软件开发者、黑客都开始使用python打包成exe的方式进行程序的发布,那么Python如何反编译可执行文件,本文就来介绍一下,感兴趣的可以了解一下
    2021-12-12
  • Python实现从log日志中提取ip的方法【正则提取】

    Python实现从log日志中提取ip的方法【正则提取】

    这篇文章主要介绍了Python实现从log日志中提取ip的方法,涉及Python文件读取、数据遍历、正则匹配等相关操作技巧,需要的朋友可以参考下
    2018-03-03
  • Keras SGD 随机梯度下降优化器参数设置方式

    Keras SGD 随机梯度下降优化器参数设置方式

    这篇文章主要介绍了Keras SGD 随机梯度下降优化器参数设置方式,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-06-06
  • python dataframe实现统计行列中零值的个数

    python dataframe实现统计行列中零值的个数

    这篇文章主要介绍了python dataframe实现统计行列中零值的个数,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-02-02
  • python中的列表推导浅析

    python中的列表推导浅析

    这篇文章主要介绍了python中的列表推导,需要的朋友可以参考下
    2014-04-04
  • Python中判断语句入门指南(if elif else语句)

    Python中判断语句入门指南(if elif else语句)

    if elif else语句是Python中的控制语句,用于根据条件执行不同的操作,下面这篇文章主要给大家介绍了关于Python中判断语句入门指南(if elif else语句)的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
    2023-05-05
  • Python使用matplotlib绘制Logistic曲线操作示例

    Python使用matplotlib绘制Logistic曲线操作示例

    这篇文章主要介绍了Python使用matplotlib绘制Logistic曲线操作,结合实例形式详细分析了Python基于matplotlib库绘制Logistic曲线相关步骤与实现技巧,需要的朋友可以参考下
    2019-11-11
  • Python+OpenCV六种实时图像处理详细讲解

    Python+OpenCV六种实时图像处理详细讲解

    OpenCV常用的图像处理为阈值二值化、边缘检测、轮廓检测、高斯滤波、色彩转换、调节对比度。本文主要介绍了利用Python和OpenCV对实时图像进行上述六种操作的详细讲解,感兴趣的可以了解一下。
    2021-11-11

最新评论