过滤敏感词工具类SensitiveFilter
- 网上过滤敏感词工具类有的存在挺多bug,这是我自己改用的过滤敏感词工具类,目前来说没啥bug,如果有bug欢迎在评论指出
- 使用前缀树
Trie实现的过滤敏感词,树节点用静态内部类表示了,都写在一个SensitiveFilter一个文件里了
package top.linzeliang.util;
import org.apache.commons.lang3.CharUtils;
import org.apache.commons.lang3.StringUtils;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.springframework.stereotype.Component;
import javax.annotation.PostConstruct;
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.util.HashMap;
import java.util.Map;
/**
* 敏感词过滤
*
* @Author: linzeliang
* @Date: 2021/12/8
*/
@Component
public class SensitiveFilter {
private static final Logger LOGGER = LoggerFactory.getLogger(SensitiveFilter.class);
/**
* 替换符
*/
private static final String REPLACEMENT = "*";
/**
* 根节点,根节点是不带值的
*/
private final TrieNode ROOT_NODE = new TrieNode();
/**
* 初始化前缀树,读取敏感词文件构造前缀树
*
* @date 2021/12/9
*/
@PostConstruct
private void init() {
try (
InputStream inputStream = this.getClass().getClassLoader().getResourceAsStream("sensitive-words.txt");
BufferedReader reader = new BufferedReader(new InputStreamReader(inputStream))
) {
String keyword;
// 每次读取一行
while ((keyword = reader.readLine()) != null) {
// 添加到前缀树
this.addKeyword(keyword);
}
} catch (IOException e) {
LOGGER.error("加载敏感词文件失败: " + e.getMessage());
}
}
/**
* 将一个敏感词添加到前缀树中
*
* @param keyword 敏感词
* @date 2021/12/9
*/
private void addKeyword(String keyword) {
TrieNode tempNode = ROOT_NODE;
for (int i = 0; i < keyword.length(); i++) {
//获取单个字符
char c = keyword.charAt(i);
// 先查询是否存在,就是是否有这个开头的敏感词
TrieNode subNode = tempNode.getSubNode(c);
// 如果子节点中不存在,就新建,并且添加到tempNode的子节点
if (null == subNode) {
subNode = new TrieNode();
tempNode.addSubNodes(c, subNode);
}
// 标记一下最后一个节点,即叶子节点
if (i == keyword.length() - 1) {
subNode.setKeywordEnd(true);
}
// 将指针指向子节点
tempNode = subNode;
}
}
/**
* 过滤敏感词
*
* @param text 待过滤文本
* @return java.lang.String
* @date 2021/12/9
*/
public String filter(String text) {
// 过滤文本为空返回 null
if (StringUtils.isBlank(text)) {
return null;
}
// 指针1,刚开始指向根节点
TrieNode tempNode = ROOT_NODE;
// 指针2
int start = 0;
// 指针3
int end = 0;
// 过滤结果
StringBuilder sb = new StringBuilder();
// 当指针3未到字符串末尾时,都进行过滤
while (end < text.length()) {
// 获取待过滤的每个字符
char c = text.charAt(end);
// 如果是无效符号就跳过
if (isSymbol(c) && end != text.length() - 1) {
// 若指针1处于根节点,就将此符号计入结果,让指针2向下走一步
if (tempNode == ROOT_NODE) {
sb.append(c);
start++;
}
// 无论符号在开头或中间,指针3都向下走一步
end++;
continue;
}
// 查看敏感字符对应的子节点是否存在
tempNode = tempNode.getSubNode(c);
// 如果没有敏感词对应的子节点,说明不包含,因此跳过这个字符
if (tempNode == null) {
// 以begin开头的字符串不是敏感词
sb.append(text.charAt(start));
// start 和 begin 都进入下一个位置
end = ++start;
// 重新指向根节点
tempNode = ROOT_NODE;
} else if (tempNode.isKeywordEnd()) {
// 遇到敏感词结束标识,即发现敏感词,将begin~position字符串替换掉
for (int i = start; i <= end; i++) {
sb.append(REPLACEMENT);
}
// 进入下一个位置
start = ++end;
// 重新指向根节点
tempNode = ROOT_NODE;
} else {
// 如果找到了敏感字符,但是又没结束,因此继续检查下一个字符
// 如果当前 start 字符到 end 末尾字符没有识别出敏感词,那么就从 start 的下一个开始进行查找
if (end < text.length() - 1) {
end++;
} else {
// 这里还是指向 start,并没有加 1,因为下一步循环就进入到 tempNode == null 判断里面了
// 因此 start 和 end 都会加 1,同时上一个字符也会被加入到sb中
end = start;
}
}
}
// 将最后一批字符计入结果
sb.append(text.substring(start));
return sb.toString();
}
/**
* 判断是否为符号
*
* @param c 待判断符号
* @return boolean
* @date 2021/12/9
*/
private boolean isSymbol(Character c) {
// 0x2E80~0x9FFF 是东亚文字范围
return !CharUtils.isAsciiAlphanumeric(c) && (c < 0x2E80 || c > 0x9FFF);
}
/**
* 前缀树节点
* 因为不需要用到外部类SensitiveFilter,所以设置成静态的就行,能提高性能
*/
private static class TrieNode {
/**
* 关键词结束标识符
*/
private boolean isKeywordEnd;
/**
* 存放子节点
* 因为子节点集合是固定的,只会往这个集合增删元素,而不会改变这个集合指针指向,所以使用final
*/
private final Map<Character, TrieNode> subNodes;
public TrieNode() {
this.isKeywordEnd = false;
this.subNodes = new HashMap<>();
}
public boolean isKeywordEnd() {
return isKeywordEnd;
}
public void setKeywordEnd(boolean keywordEnd) {
isKeywordEnd = keywordEnd;
}
/**
* 添加子节点
*
* @param c 节点名称
* @param node 节点
* @date 2021/12/9
*/
public void addSubNodes(Character c, TrieNode node) {
subNodes.put(c, node);
}
/**
* 获取子节点
*
* @param c 查询的字符
* @return top.linzeliang.community.util.SensitiveFilter.TrieNode
* @date 2021/12/9
*/
public TrieNode getSubNode(Character c) {
return subNodes.get(c);
}
}
}
过滤敏感词工具类SensitiveFilter的更多相关文章
- Java 敏感词过滤,Java 敏感词替换,Java 敏感词工具类
Java 敏感词过滤,Java 敏感词替换,Java 敏感词工具类 =========================== ©Copyright 蕃薯耀 2017年9月25日 http://www ...
- 【SpringBoot】前缀树 Trie 过滤敏感词
1.过滤敏感词 Spring Boot实践,开发社区核心功能 完成过滤敏感词 Trie 名称:Trie也叫做字典树.前缀树(Prefix Tree).单词查找树 特点:查找效率高,消耗内存大 应用:字 ...
- SpringBoot开发十四-过滤敏感词
项目需求-过滤敏感词 利用 Tire 树实现过滤敏感词 定义前缀树,根据敏感词初始化前缀树,编写过滤敏感词的方法 代码实现 我们首先把敏感词存到一个文件 sensitive.txt: 赌博 嫖娼 吸毒 ...
- web前端js过滤敏感词
web前端js过滤敏感词 这里是用文本输入框还有文本域绑定了失去焦点事件,然后再遍历敏感词数组进行匹配和替换. var keywords=["阿扁","呵呵", ...
- (转)两种高效过滤敏感词算法--DFA算法和AC自动机算法
原文:https://blog.csdn.net/u013421629/article/details/83178970 一道bat面试题:快速替换10亿条标题中的5万个敏感词,有哪些解决思路? 有十 ...
- PHP 扩展 trie-tree, swoole过滤敏感词方案
在一些app,web中评论以及一些文章会看到一些*等,除了特定的不显示外,我们会把用户输入的一些敏感字符做处理,具体显示为*还是其他字符按照业务区实现. 下面简单介绍下业务处理. 原文地址:小时刻个人 ...
- php过滤敏感词
<?php /** * 敏感词过滤工具类 * 使用方法 * echo FilterTools::filterContent("你妈的我操一色狼杂种二山食物"," ...
- [转]Filter实现处理中文乱码,转义html标签,过滤敏感词
原文地址:http://www.cnblogs.com/xdp-gacl/p/3952405.html 在filter中可以得到代表用户请求和响应的request.response对象,因此在编程中可 ...
- js 过滤敏感词 ,可将带有标点符号的敏感词过滤掉
function transSensitive(content) { // var Sensitive = H.getStorage("Sensitive");//敏感词数组 va ...
随机推荐
- C# 计算农历日期方法(2021版)
解决问题 旧版农历获取方法报错,会有 到 2021年 m数组越界了 if (LunarData[m] < 4095) 此方法可以解决 主体代码 public static class China ...
- 猿猿有责,维持整洁的 Git 提交记录,三个锦囊送给你
背景 大家都有学习如何规范简洁的编写代码,但却很少学习如何规范简洁的提交代码.现在大家基本上都用 Git 作为源码管理的工具,Git 提供了极大的灵活性,我们按照各种 workflow 来提交/合并 ...
- [atARC070F]HonestOrUnkind
考虑当$a\le b$时,构造两种方案,满足诚实的人不交,接下来要求对于任意询问,这两种方案的答案都有可能相同 考虑询问$(i,j)$,若$i$在两种方案中有一种不诚实,那么总可以让答案相同,又因为诚 ...
- [atARC096F]Sweet Alchemy
给定一棵有根树,记$f_{i}$表示$i$的父亲,每一个点有一个代价$c_{i}$ 给定常数$D$和$X$,再给每个点赋一个权值$v_{i}$($v_{i}\ge 0$),满足以下条件下最大化$\su ...
- [JS高程] 字符串模式匹配方法
目录 1. RegExp 对象 2. 字符串模式匹配方法 2.1 match() , search() 2.2 replace() 2.2.1 第二个参数为字符串的应用情况 2.2.2 第二个参数为函 ...
- 【论文阅读】Beyond OCR + VQA: 将OCR融入TextVQA的执行流程中形成更鲁棒更准确的模型
论文题目:Beyond OCR + VQA: Involving OCR into the Flow for Robust and Accurate TextVQA 论文链接:https://dl.a ...
- List集合与Set集合(ArrayList,LinkedList,Vector,HashSet,LinkedHashSet,可变参数)
List集合介绍及常用方法 import java.util.ArrayList; import java.util.Iterator; import java.util.List; /* java. ...
- bzoj4036 / P3175 [HAOI2015]按位或
bzoj4036 / P3175 [HAOI2015]按位或 是一个 min-max容斥 的板子题. min-max容斥 式子: $ \displaystyle max(S) = \sum_{T\su ...
- DP 优化方法大杂烩 & 做题记录 I.
标 * 的是推荐阅读的部分 / 做的题目. 1. 动态 DP(DDP)算法简介 动态动态规划. 以 P4719 为例讲一讲 ddp: 1.1. 树剖解法 如果没有修改操作,那么可以设计出 DP 方案 ...
- P5896 [IOI2016]aliens
*IX. P5896 [IOI2016]aliens DP 优化方法大杂烩,详解 wqs 二分及其注意事项,斜率优化等其它 DP 优化方法. **** 团队赛 T6,没想到是 IOI 原题.当时看出来 ...