python 实现敏感词过滤的方法

 更新时间:2019年01月21日 10:08:57   作者:isoleo  
今天小编就为大家分享一篇python 实现敏感词过滤的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

Python客栈送红包、纸质书

如下所示:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
#!/usr/bin/python2.6 
# -*- coding: utf-8 -*-
import time
class Node(object):
  def __init__(self):
    self.children = None
  
# The encode of word is UTF-8
def add_word(root,word):
  node = root
  for i in range(len(word)):
    if node.children == None:
      node.children = {}
      node.children[word[i]] = Node()
  
    elif word[i] not in node.children:
      node.children[word[i]] = Node()
  
    node = node.children[word[i]]
  
def init(path):
  root = Node()
  fp = open(path,'r')
  for line in fp:
    line = line[0:-1]
    #print len(line)
    #print line
    #print type(line)
    add_word(root,line)
  fp.close()
  return root
  
# The encode of word is UTF-8
# The encode of message is UTF-8
def is_contain(message, root):
  for i in range(len(message)):
    p = root
    j = i
    while (j<len(message) and p.children!=None and message[j] in p.children):
      p = p.children[message[j]]
      j = j + 1
  
    if p.children==None:
      #print '---word---',message[i:j]
      return True
    
  return False
  
  
  
def dfa():
  print '----------------dfa-----------'
  root = init('/tmp/word.txt')
  
  #message = '不顾'
  print '***message***',len(message)
  start_time = time.time()
  for i in range(1000):
    res = is_contain(message,root)
    #print res
  end_time = time.time()
  print (end_time - start_time) 
  
def is_contain2(message,word_list):
  for item in word_list:
    if message.find(item)!=-1:
      return True
  return False
  
def normal():
  print '------------normal--------------'
  path = '/tmp/word.txt'
  fp = open(path,'r')
  word_list = []
  print '***message***',len(message)
  for line in fp:
    line = line[0:-1]
    word_list.append(line)
  fp.close()
  print 'The count of word:',len(word_list)
  start_time = time.time()
  for i in range(1000):
    res = is_contain2(message,word_list)
    #print res
  end_time = time.time()
  print (end_time - start_time) 
  
  
if __name__ == '__main__':
  dfa()
  normal()

测试结果:

1) 敏感词 100个

1
2
3
4
5
6
7
----------------dfa-----------
***message*** 224
0.325479984283
------------normal--------------
***message*** 224
The count of word: 100
0.107350111008

2) 敏感词 1000 个

1
2
3
4
5
6
7
----------------dfa-----------
***message*** 224
0.324251890182
------------normal--------------
***message*** 224
The count of word: 1000
1.05939006805

从上面的实验我们可以看出,在DFA 算法只有在敏感词较多的情况下,才有意义。在百来个敏感词的情况下,甚至不如普通算法

下面从理论上推导时间复杂度,为了方便分析,首先假定消息文本是等长的,长度为lenA;每个敏感词的长度相同,长度为lenB,敏感词的个数是m。

1) DFA算法的核心是构建一棵多叉树,由于我们已经假设,敏感词的长度相同,所以树的最大深度为lenB,那么我们可以说从消息文本的某个位置(字节)开始的某个子串是否在敏感词树中,最多只用经过lenB次匹配.也就是说判断一个消息文本中是否有敏感词的时间复杂度是lenA * lenB

2) 再来看看普通做法,是使用for循环,对每一个敏感词,依次在消息文本中进行查找,假定字符串是使用KMP算法,KMP算法的时间复杂度是O(lenA + lenB)

那么对m个敏感词查找的时间复杂度是 (lenA + lenB ) * m

综上所述,DFA 算法的时间复杂度基本上是与敏感词的个数无关的。

以上这篇python 实现敏感词过滤的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

蓄力AI

微信公众号搜索 “ 脚本之家 ” ,选择关注

程序猿的那些事、送书等活动等着你

原文链接:https://blog.csdn.net/isoleo/article/details/72379829

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权/违法违规/事实不符,请将相关资料发送至 reterry123@163.com 进行投诉反馈,一经查实,立即处理!

相关文章

  • Python多线程threading join和守护线程setDeamon原理详解

    Python多线程threading join和守护线程setDeamon原理详解

    这篇文章主要介绍了Python多线程threading join和守护线程setDeamon原理详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-03-03
  • Python回调函数用法实例详解

    Python回调函数用法实例详解

    这篇文章主要介绍了Python回调函数用法,以实例形式较为详细的分析了Python回调函数的定义、功能及相关使用技巧,需要的朋友可以参考下
    2015-07-07
  • python 中文件输入输出及os模块对文件系统的操作方法

    python 中文件输入输出及os模块对文件系统的操作方法

    这篇文章主要介绍了python 中文件输入输出及os模块对文件系统的操作方法,非常不错,具有一定的参考借鉴价值,需要的朋友可以参考下
    2018-08-08
  • Keras实现将两个模型连接到一起

    Keras实现将两个模型连接到一起

    这篇文章主要介绍了Keras实现将两个模型连接到一起,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-05-05
  • python中使用iterrows()对dataframe进行遍历的实例

    python中使用iterrows()对dataframe进行遍历的实例

    今天小编就为大家分享一篇python中使用iterrows()对dataframe进行遍历的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-06-06
  • 使用llama Index帮你训练pdf的示例详解

    使用llama Index帮你训练pdf的示例详解

    这篇文章主要为大家介绍了使用llama Index 帮你训练pdf,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-03-03
  • 图文详解感知机算法原理及Python实现

    图文详解感知机算法原理及Python实现

    感知机是二类分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别(取+1和-1二值)。本文将为大家详细讲讲感知机算法的原理及实现,需要的可以参考一下
    2022-08-08
  • 浅谈python爬虫使用Selenium模拟浏览器行为

    浅谈python爬虫使用Selenium模拟浏览器行为

    这篇文章主要介绍了浅谈python爬虫使用Selenium模拟浏览器行为,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-02-02
  • Python Selenium 之数据驱动测试的实现

    Python Selenium 之数据驱动测试的实现

    这篇文章主要介绍了Python Selenium 之数据驱动测试的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-08-08
  • Python自动化构建工具scons使用入门笔记

    Python自动化构建工具scons使用入门笔记

    这篇文章主要介绍了Python自动化构建工具scons使用入门笔记,本文讲解了安装scons、scons常用命令、scons使用示例等内容,需要的朋友可以参考下
    2015-03-03

最新评论