Java利用DFA算法实现敏感词管理

 更新时间:2024年11月08日 11:52:36   作者:xn_xy19  
我们在完成一些文章发布的功能是,可以使用第三方工具如阿里云的内容安全来进行文章的审核,但是这个第三方接口并不能过滤一些敏感词,所以本文就来讲讲如何通过DFA算法就行敏感词管理吧

我们在完成一些文章发布的功能是,可以使用第三方工具如阿里云的内容安全来进行文章的审核,但是这个第三方接口并不能过滤一些敏感词

因此这时候我们需要自己维护一套敏感词。

1.敏感词-过滤

技术选型

方案说明
数据库模糊查询效率太低
String.indexOf("")查找数据库量大的话也是比较慢
全文检索分词再匹配
DFA算法确定有穷自动机(一种数据结构)

2.DFA实现原理

DFA全称为:Deterministic Finite Automaton,即确定有穷自动机。

存储:一次性的把所有的敏感词存储到了多个map中,就是下图表示这种结构

检索的过程

3.实现步骤

3.1初始化敏感词库

private static int checkWord(String text, int beginIndex) {
        if (dictionaryMap == null) {
            throw new RuntimeException("字典不能为空");
        }
        boolean isEnd = false;
        int wordLength = 0;
        Map<String, Object> curMap = dictionaryMap;
        int len = text.length();
        // 从文本的第beginIndex开始匹配
        for (int i = beginIndex; i < len; i++) {
            String key = String.valueOf(text.charAt(i));
            // 获取当前key的下一个节点
            curMap = (Map<String, Object>) curMap.get(key);
            if (curMap == null) {
                break;
            } else {
                wordLength ++;
                if ("1".equals(curMap.get("isEnd"))) {
                    isEnd = true;
                }
            }
        }
        if (!isEnd) {
            wordLength = 0;
        }
        return wordLength;
    }

3.3获取匹配的关键词和命中的次数

 public static Map<String, Integer> matchWords(String text) {
        Map<String, Integer> wordMap = new HashMap<>();
        int len = text.length();
        for (int i = 0; i < len; i++) {
            int wordLength = checkWord(text, i);
            if (wordLength > 0) {
                String word = text.substring(i, i + wordLength);
                // 添加关键词匹配次数
                if (wordMap.containsKey(word)) {
                    wordMap.put(word, wordMap.get(word) + 1);
                } else {
                    wordMap.put(word, 1);
                }
 
                i += wordLength - 1;
            }
        }
        return wordMap;
    }

3.4测试

public static void main(String[] args) {
        List<String> list = new ArrayList<>();
        list.add("星期天");
        list.add("放假");
        list.add("加班");
        initMap(list);
        String content="我是一个好人,但是我星期天又要加班";
        Map<String, Integer> map = matchWords(content);
        System.out.println(map);
    }

到此这篇关于Java利用DFA算法实现敏感词管理的文章就介绍到这了,更多相关Java敏感词管理内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 基于Java实现的Dijkstra算法示例

    基于Java实现的Dijkstra算法示例

    这篇文章主要介绍了基于Java实现的Dijkstra算法示例,一个比较典型的算法示例,需要的朋友可以参考下
    2014-07-07
  • logback-spring.xml配置详解

    logback-spring.xml配置详解

    这篇文章主要介绍了logback-spring.xml详解,本文介绍了logback-spring.xml相关的知识与概念,结合实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2023-07-07
  • Java concurrency之AtomicLongArray原子类_动力节点Java学院整理

    Java concurrency之AtomicLongArray原子类_动力节点Java学院整理

    这篇文章主要介绍了Java concurrency之AtomicLongArray原子类的相关知识,感兴趣的朋友参考下吧
    2017-06-06
  • java动态代理示例分享

    java动态代理示例分享

    这篇文章主要介绍了java动态代理示例,需要的朋友可以参考下
    2014-02-02
  • Spring启动过程中实例化部分代码的分析之Bean的推断构造方法

    Spring启动过程中实例化部分代码的分析之Bean的推断构造方法

    这篇文章主要介绍了Spring启动过程中实例化部分代码的分析之Bean的推断构造方法,实例化这一步便是在doCreateBean方法的 instanceWrapper = createBeanInstance(beanName, mbd, args);这段代码中,本文通过实例代码给大家介绍的非常详细,需要的朋友参考下吧
    2022-09-09
  • SpringCache框架加载/拦截原理详解

    SpringCache框架加载/拦截原理详解

    这篇文章主要介绍了SpringCache框架加载/拦截原理详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-04-04
  • JavaWeb中异步交互的关键Ajax详解

    JavaWeb中异步交互的关键Ajax详解

    这篇文章主要给大家介绍了关于JavaWeb中异步交互关键Ajax的相关资料,在javaweb中,ajax是前后台交互的技术,可以实现异步请求,不用刷新整个页面就可以完成操作,需要的朋友可以参考下
    2023-07-07
  • Java实现截取字符串的操作详解

    Java实现截取字符串的操作详解

    在这篇文章中,小编将带大家一起学习一下在Java中把一个String截断到所需的字符数的几种方法,文中的方法简洁易懂,需要的可以参考一下
    2022-07-07
  • struts2简介_动力节点Java学院整理

    struts2简介_动力节点Java学院整理

    Struts2框架是MVC流程框架,适合分层开发,这篇文章主要为大家详细介绍了struts2简介的相关资料,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-09-09
  • SpringBoot关于自定义注解实现接口幂等性方式

    SpringBoot关于自定义注解实现接口幂等性方式

    这篇文章主要介绍了SpringBoot关于自定义注解实现接口幂等性方式,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-11-11

最新评论