springboot集成sensitive-word实现敏感词过滤的两种方案

 更新时间:2024年08月16日 15:24:40   作者:Mr朱墨  
敏感词过滤通常是指从文本中检测并移除或替换掉被认为是不适当、冒犯性或违反特定社区准则的词汇,这篇文章主要介绍了springboot集成sensitive-word实现敏感词过滤,需要的朋友可以参考下

敏感词过滤

敏感词过滤通常是指从文本中检测并移除或替换掉被认为是不适当、冒犯性或违反特定社区准则的词汇。这个过程常用于在线平台、论坛、社交媒体和聊天系统等,以确保交流环境的健康和积极.

方案一:正则表达式

实现敏感词过滤.只适合于敏感词较少、文本量较少的场合,并且无法处理同音字、错别字等,案例:

public static void main(String[] args) {
        String text = "这是一个包含敏感词汇的文本,例如色情、赌博等。";
        String[] sensitiveWords = {"色情", "赌博"};
        for (String word : sensitiveWords) {
            text = filterSensitiveWords(text, word);
        }
        System.out.println("过滤后的文本: " + text);
        testSensitiveWordFrame();
    }
    /**
     * 方案一:正则表达式实现敏感词过滤.只适合于敏感词较少、文本量较少的场合,并且无法处理同音字、错别字等.
     *
     * @param text
     * @param sensitiveWord
     * @return
     */
    public static String filterSensitiveWords(String text, String sensitiveWord) {
        Pattern pattern = Pattern.compile(sensitiveWord);
        Matcher matcher = pattern.matcher(text);
        return matcher.replaceAll("***");
    }

方案二:基于DFA算法的敏感词过滤工具框架-sensitive-word

 * 6W+ 词库,且不断优化更新
 * 基于 DFA 算法,性能较好
 * 基于 fluent-api 实现,使用优雅简洁
 * 支持敏感词的判断、返回、脱敏等常见操作
 * 支持全角半角互换
 * 支持英文大小写互换
 * 支持数字常见形式的互换
 * 支持中文繁简体互换
 * 支持英文常见形式的互换
 * 支持用户自定义敏感词和白名单
 * 支持数据的数据动态更新,实时生效

springboot集成sensitive-word

步骤一:引入pom

<dependency>
	<groupId>com.github.houbb</groupId>
	<artifactId>sensitive-word</artifactId>
	<version>0.2.0</version>
</dependency>

步骤二:自定义配置

@Configuration
public class MySensitiveWordBs {
    @Autowired
    private MyWordAllow myWordAllow;
    @Autowired
    private MyWordDeny myWordDeny;
    @Autowired
    private MyWordReplace myWordReplace;
    /**
     * 初始化引导类
     *
     * @return 初始化引导类
     * @since 1.0.0
     */
    @Bean
    public SensitiveWordBs sensitiveWordBs() {
        SensitiveWordBs sensitiveWordBs = SensitiveWordBs.newInstance()
//                .wordAllow(WordAllows.chains(WordAllows.defaults(), myWordAllow)) // 设置多个敏感词,系统默认和自定义
//                .wordDeny(WordDenys.chains(WordDenys.defaults(), myWordDeny))     // 设置多个敏感词,系统默认和自定义
                .wordAllow(WordAllows.chains(myWordAllow))  // 自定义
                .wordDeny(WordDenys.chains(myWordDeny))     // 自定义
                .wordReplace(myWordReplace)                                        // 自定义替换规则
                .ignoreCase(true)           // 忽略大小写
                .ignoreWidth(true)          // 忽略半角圆角
                .ignoreNumStyle(true)       // 忽略数字的写法
                .ignoreChineseStyle(true)   // 忽略中文的书写格式
                .ignoreEnglishStyle(true)   // 忽略英文的书写格式
                .ignoreRepeat(true)         // 忽略重复词
                .enableNumCheck(true)       // 是否启用数字检测。默认连续 8 位数字认为是敏感词
                .enableEmailCheck(true)     // 是有启用邮箱检测
                .enableUrlCheck(true)       // 是否启用链接检测
                .init();
        return sensitiveWordBs;
    }
}

步骤三:自定义敏感词+白名单

/**
 * 自定义非敏感词
 * 注意每一行为一个非敏感词,单行不能只包括空格,否则,也会把空格识别为非敏感词
 */
@Component
@Slf4j
public class MyWordAllow implements IWordAllow {
    @Override
    public List<String> allow() {
        List<String> allowWords = new ArrayList<>();
        try {
            ClassPathResource resource = new ClassPathResource("myAllowWords.txt");
            Path myAllowWordsPath = Paths.get(resource.getUrl().toURI());
            allowWords = Files.readAllLines(myAllowWordsPath, StandardCharsets.UTF_8);
        } catch (IOException ioException) {
            log.error("读取非敏感词文件错误:{}", ioException);
        } catch (URISyntaxException e) {
            throw new RuntimeException(e);
        }
        return allowWords;
    }
}
@Component
@Slf4j
public class MyWordDeny implements IWordDeny {
    @Override
    public List<String> deny() {
        List<String> denyWords = new ArrayList<>();
        try {
            ClassPathResource resource = new ClassPathResource("myDenyWords.txt");
            Path myAllowWordsPath = Paths.get(resource.getUrl().toURI());
            denyWords = Files.readAllLines(myAllowWordsPath, StandardCharsets.UTF_8);
        } catch (
                IOException ioException) {
            log.error("读取敏感词文件错误:{}", ioException);
        } catch (URISyntaxException e) {
            throw new RuntimeException(e);
        }
        return denyWords;
    }
}
/**
 * 自定义敏感词对应的替换值.
 * 场景说明:有时候我们希望不同的敏感词有不同的替换结果。比如【游戏】替换为【电子竞技】,【失业】替换为【灵活就业】。
 */
@Configuration
public class MyWordReplace implements IWordReplace {
    @Override
    public void replace(StringBuilder stringBuilder, final char[] rawChars, IWordResult wordResult, IWordContext wordContext) {
        String sensitiveWord = InnerWordCharUtils.getString(rawChars, wordResult);
        if ("zhupeng".equals(sensitiveWord)) {
            stringBuilder.append("朱鹏");
        } else {
            // 其他默认使用 * 代替
            int wordLength = wordResult.endIndex() - wordResult.startIndex();
            for (int i = 0; i < wordLength; i++) {
                stringBuilder.append('-');
            }
        }
    }
}

步骤四:核心方法测试

public class SensitiveWordController {
    @Autowired
    private MyWordReplace myWordReplace;
    @Autowired
    private SensitiveWordBs sensitiveWordBs;
    private static final String text = "五星红旗迎风飘扬,毛主席的画像屹立在天安门前,zhuzhuhzu";
    @GetMapping("/pattern")
    public void testSensitiveWord2() {
        String text = "这是一个包含敏感词汇的文本,例如色情、赌博等。";
        String[] sensitiveWords = {"色情", "赌博"};
        for (String word : sensitiveWords) {
            text = filterSensitiveWords(text, word);
        }
        System.out.println("过滤后的文本: " + text);
    }
    /**
     * 方案二:基于DFA算法的敏感词过滤工具框架-sensitive-word:https://github.com/houbb/sensitive-word
     * 6W+ 词库,且不断优化更新
     * 基于 DFA 算法,性能较好
     * 基于 fluent-api 实现,使用优雅简洁
     * 支持敏感词的判断、返回、脱敏等常见操作
     * 支持全角半角互换
     * 支持英文大小写互换
     * 支持数字常见形式的互换
     * 支持中文繁简体互换
     * 支持英文常见形式的互换
     * 支持用户自定义敏感词和白名单
     * 支持数据的数据动态更新,实时生效
     */
    @GetMapping("/filter")
    public void testSensitiveWord() {
        System.out.println("SensitiveWordHelper.contains(text) = " + SensitiveWordHelper.contains(text));
        System.out.println("SensitiveWordHelper.findAll(text) = " + SensitiveWordHelper.findAll(text));
        System.out.println("SensitiveWordHelper.replace(text,myWordReplace) = " + SensitiveWordHelper.replace(text, myWordReplace));
        // 如果自定义敏感词,不要使用SensitiveWordHelper的方法,要使用SensitiveWordBs
        System.out.println("sensitiveWordBs.contains(text) = " + sensitiveWordBs.contains(text));
        System.out.println("sensitiveWordBs.findAll(text) = " + sensitiveWordBs.findAll(text));
        System.out.println("sensitiveWordBs.replace(text) = " + sensitiveWordBs.replace(text));
    }
}

到此这篇关于springboot集成sensitive-word实现敏感词过滤的文章就介绍到这了,更多相关springboot敏感词过滤内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Java使用Sa-Token框架完成踢人下线功能

    Java使用Sa-Token框架完成踢人下线功能

    踢人下线是一个很常见的需求,本文主要介绍了Java使用Sa-Token框架完成踢人下线功能,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-05-05
  • Java代码实现随机生成汉字的方法

    Java代码实现随机生成汉字的方法

    今天小编就为大家分享一篇关于Java代码实现随机生成汉字的方法,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧
    2019-03-03
  • Java中接口的深入详解

    Java中接口的深入详解

    在Java语言中,接口由类来实现以便使用接口中的方法,这篇文章主要给大家介绍了关于Java中接口的相关资料,文中通过示例代码介绍的非常详细,需要的朋友可以参考下
    2021-11-11
  • Java实现世界上最快的排序算法Timsort的示例代码

    Java实现世界上最快的排序算法Timsort的示例代码

    Timsort 是一个混合、稳定的排序算法,简单来说就是归并排序和二分插入排序算法的混合体,号称世界上最好的排序算法。本文将详解Timsort算法是定义与实现,需要的可以参考一下
    2022-07-07
  • spring boot整合mongo查询converter异常排查记录

    spring boot整合mongo查询converter异常排查记录

    这篇文章主要为大家介绍了spring boot整合mongo查询时抛出converter异常的排查解决记录,有需要的朋友可以借鉴参考下,希望能够有所帮助
    2022-03-03
  • 解决SpringBoot自定义拦截器和跨域配置冲突的问题

    解决SpringBoot自定义拦截器和跨域配置冲突的问题

    这篇文章主要介绍了解决SpringBoot自定义拦截器和跨域配置冲突的问题,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2021-08-08
  • MyBatis XPathParser解析器使用范例详解

    MyBatis XPathParser解析器使用范例详解

    这篇文章主要介绍了关于MyBatis中解析器XPathParser的实际使用实践,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2022-07-07
  • java常用工具类之数据库连接类(可以连接多种数据库)

    java常用工具类之数据库连接类(可以连接多种数据库)

    这篇文章主要介绍了java常用工具类之数据库连接类,可以连接多种数据库,代码中包含详细注释,需要的朋友可以参考下
    2014-07-07
  • Mybatis-Plus通过SQL注入器实现批量插入的实践

    Mybatis-Plus通过SQL注入器实现批量插入的实践

    本文主要介绍了Mybatis-Plus通过SQL注入器实现批量插入的实践,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2022-08-08
  • java Gui实现肯德基点餐收银系统

    java Gui实现肯德基点餐收银系统

    这篇文章主要为大家详细介绍了java Gui实现肯德基点餐收银系统,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2019-01-01

最新评论