敏感词系列
sensitive-word-admin 敏感词控台 v1.2.0 版本开源
sensitive-word-admin v1.3.0 发布 如何支持分布式部署?
01-开源敏感词工具入门使用
02-如何实现一个敏感词工具?违禁词实现思路梳理
03-敏感词之 StopWord 停止词优化与特殊符号
04-敏感词之字典瘦身
05-敏感词之 DFA 算法(Trie Tree 算法)详解
06-敏感词(脏词) 如何忽略无意义的字符?达到更好的过滤效果
v0.10.0-脏词分类标签初步支持
v0.11.0-敏感词新特性:忽略无意义的字符,词标签字典
v0.12.0-敏感词/脏词词标签能力进一步增强
v0.13.0-敏感词特性版本发布 支持英文单词全词匹配
v0.16.1-敏感词新特性之字典内存资源释放
v0.19.0-敏感词新特性之敏感词单个编辑,不必重复初始化
v0.20.0 敏感词新特性之数字全部匹配,而不是部分匹配
v0.21.0 敏感词新特性之白名单支持单个编辑,修正白名单包含黑名单时的问题
wordResultCondition-针对匹配词进一步判断
说明
支持版本:v0.13.0
有时候我们可能希望对匹配的敏感词进一步限制,比如虽然我们定义了【av】作为敏感词,但是不希望【have】被匹配。
就可以自定义实现 wordResultCondition 接口,实现自己的策略。
系统内置的策略在 WordResultConditions#alwaysTrue()
恒为真,WordResultConditions#englishWordMatch()
则要求英文必须全词匹配。
内置策略
WordResultConditions 工具类可以获取匹配策略
实现 | 说明 | 支持版本 |
---|---|---|
alwaysTrue | 恒为真 | |
englishWordMatch | 英文单词全词匹配 | v0.13.0 |
englishWordNumMatch | 英文单词/数字全词匹配 | v0.20.0 |
使用例子
原始的默认情况:
final String text = "cp cpm trade deficit totaled 695 billion yen, or $4.9 billion";
List<String> wordList = SensitiveWordBs.newInstance()
.wordDeny(new IWordDeny() {
@Override
public List<String> deny() {
return Arrays.asList("cp", "69");
}
})
.wordResultCondition(WordResultConditions.englishWordMatch())
.init()
.findAll(text);
Assert.assertEquals("[cp, 69]", wordList.toString());
会导致匹配 69,但这并不是我们预期的场景。
我们可以指定为英文数字必须全词匹配,主要是 wordResultCondition(WordResultConditions.englishWordNumMatch())
final String text = "cp cpm trade deficit totaled 695 billion yen, or $4.9 billion";
List<String> wordList = SensitiveWordBs.newInstance()
.wordDeny(new IWordDeny() {
@Override
public List<String> deny() {
return Arrays.asList("cp", "69");
}
})
.wordResultCondition(WordResultConditions.englishWordNumMatch())
.init()
.findAll(text);
Assert.assertEquals("[cp]", wordList.toString());
当然也可以根据自己的需要,自定义实现更加复杂的策略。
小结
传统的敏感词都是直接部分匹配的,但是这在很多场景不符合。所以可以将这部分条件判断放开,让用户自己定义。
开源代码
敏感词 https://github.com/houbb/sensitive-word
敏感词 https://github.com/houbb/sensitive-word-admin