python 特殊词汇过滤功能的实现

 更新时间:2022年07月25日 11:05:34   作者:Python 集中营  
这篇文章主要介绍了python 特殊词汇过滤功能的实现,这就利用了python其中一个功能强大之处可以方便集成很多的非标准库,本文给大家介绍的非常详细,需要的朋友可以参考下

python的其中一个强大之处就是它可以方便的集成很多的非标准库,今天在GitHub上溜达又发现了一个脏话处理神器,导入better_profanity库后,只需要几行代码就能搞定了,相当nice!

使用pip的方式将better_profanity非标准库安装好,这个库好像在清华大学的镜像站中没有,其他镜像站不知道有没有,于是下载时没有使用镜像站,默认到官方去下载即可。

pip install better_profanity
# 将处理模块直接导入到代码块中
from better_profanity import profanity

1、默认脏话库/敏感词库处理

默认情况下就只能处理英文的脏话。

censored_text = profanity.censor("you are bitch",'-')
print(censored_text)
# you are ----

可以看到其中bitch字符被认为是脏话已经处理成****字符了。

当然,还可以将处理后的脏话字符换成别的字符代替,比如下面这样处理。

censored_text = profanity.censor("you are bitch",'-')
print(censored_text)
# you are ----

这样****就被替换成了----。

2、自定义过滤信息处理

bad_words = ['Python', 'Java', 'Scala']  # 自定义过滤词汇
profanity.load_censor_words(bad_words)  # 加载自定义过滤词汇
censored_text = profanity.censor("Python is very Good !")  # 执行过滤
print(censored_text)
# **** is very Good !

可以发现,想要过滤的python字符已经成功过滤掉了。

3、contains_profanity函数

contains_profanity函数用来查看我们的语句中是否包含需要过滤的词汇,如果包含则会返回True,否则返回False。

bad_words = ['bitch', 'Java', 'Scala']  # 自定义过滤词汇
profanity.load_censor_words(bad_words)  # 加载自定义过滤词汇
censored_text = profanity.contains_profanity("you are bitch")
print(censored_text)
# True

结果为True,表示包含需要过滤的词汇信息。

4、load_censor_words_from_file函数

load_censor_words_from_file函数用于加载需要过滤词汇的文件。

profanity.load_censor_words_from_file('/usr/load/bad_words.txt')

加载完词汇文件之后,按照之前的逻辑处理即可。

词汇文件的定义格式,按照每个词汇独占一行的形式进行定义,文件格式使用.txt文本文档即可。

# bitch
# bitches
# bitchin
# bitching
# blowjob
# blowjobs
# blue waffle

到此这篇关于python 脏话处理、特殊词汇过滤的文章就介绍到这了,更多相关python 特殊词汇过滤内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python实现汽车管理系统

    python实现汽车管理系统

    这篇文章主要为大家详细介绍了python实现汽车管理系统,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-11-11
  • python中numpy矩阵的零填充的示例代码

    python中numpy矩阵的零填充的示例代码

    本文主要介绍了python中numpy矩阵的零填充的示例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2022-08-08
  • pandas数据处理之 标签列字符转数字的实现

    pandas数据处理之 标签列字符转数字的实现

    这篇文章主要介绍了pandas数据处理之 标签列字符转数字的实现方式,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-03-03
  • python中赋值语句的特点和形式

    python中赋值语句的特点和形式

    这篇文章主要介绍了python中赋值语句的特点和形式,文中介绍了多目标赋值的共享引用问题,多目标赋值其实是多个目标对同一个内存空间的引用,这里要分两种情况,当被引用对象是不可变对象时则不存在问题,感兴趣的朋友跟随小编一起看看吧
    2023-12-12
  • python制作图片缩略图

    python制作图片缩略图

    这篇文章主要为大家详细介绍了python制作图片缩略图的相关方法,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2019-04-04
  • Python调用http-post接口的实现方式

    Python调用http-post接口的实现方式

    这篇文章主要介绍了Python调用http-post接口的实现方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2023-08-08
  • Python FTP操作类代码分享

    Python FTP操作类代码分享

    这篇文章主要介绍了Python FTP操作类,实现自动下载、自动上传,并可以递归目录操作,需要的朋友可以参考下
    2014-05-05
  • Python获取文件夹下的所有文件路径小结

    Python获取文件夹下的所有文件路径小结

    在Python编程过程中,需要获取某一个文件目录下的所有文件,或获取文件目录下的所有指定后缀名的文件等,本文主要介绍了Python获取文件夹下的所有文件路径,感兴趣的可以了解一下
    2023-10-10
  • Python实现过迷宫小游戏示例详解

    Python实现过迷宫小游戏示例详解

    这篇文章主要介绍的是基于Python实现一个简单的过迷宫小游戏,文中的示例代码讲解详细,对我们学习Python有一定的帮助,感兴趣的可以学习一下
    2021-12-12
  • py2exe 编译ico图标的代码

    py2exe 编译ico图标的代码

    py2exe 编译ico图标的代码,需要的朋友可以参考下
    2013-03-03

最新评论