周末空余时间撸了一个敏感词过滤功能,下边记录下实现过程。

敏感词,一方面是你懂的,另一方面是我们自己可能也要过滤一些人身攻击或者广告信息等,具体词库可以google下,有很多。

过滤敏感词,使用简单的循环str_replace是性能很低效的,还会随着词库的增加,性能指数下降,而且简单的替换,不能解决一些不是完全匹配的词。这时候就需要先构建一个字典树(trie),单纯的字典树占用空间较大,使用Double-Array Trie或者Ternary Search Tree可以在保证性能的同时节省一部分空间,但是敏感词基本不会很多,几千甚至上万个词基本没压力,所以就实现就选择先构建一个字典树,然后逐字做匹配。

代码不多,就贴到这里。

  1. 1
  2. 2
  3. 3
  4. 4
  5. 5
  6. 6
  7. 7
  8. 8
  9. 9
  10. 10
  11. 11
  12. 12
  13. 13
  14. 14
  15. 15
  16. 16
  17. 17
  18. 18
  19. 19
  20. 20
  21. 21
  22. 22
  23. 23
  24. 24
  25. 25
  26. 26
  27. 27
  28. 28
  29. 29
  30. 30
  31. 31
  32. 32
  33. 33
  34. 34
  35. 35
  36. 36
  37. 37
  38. 38
  39. 39
  40. 40
  41. 41
  42. 42
  43. 43
  44. 44
  45. 45
  46. 46
  47. 47
  48. 48
  49. 49
  50. 50
  51. 51
  52. 52
  53. 53
  54. 54
  55. 55
  56. 56
  57. 57
  58. 58
  59. 59
  60. 60
  61. 61
  62. 62
  63. 63
  64. 64
  65. 65
  66. 66
  67. 67
  68. 68
  69. 69
  70. 70
  71. 71
  72. 72
  73. 73
  74. 74
  75. 75
  76. 76
  77. 77
  78. 78
  79. 79
  80. 80
  81. 81
  82. 82
  83. 83
  84. 84
  85. 85
  86. 86
  87. 87
  88. 88
  89. 89
  90. 90
  91. 91
  92. 92
  93. 93
  94. 94
  95. 95
  96. 96
  97. 97
  98. 98
  99. 99
  100. 100
  101. 101
  102. 102
  103. 103
  104. 104
  105. 105
  106. 106
  107. 107
  108. 108
  109. 109
  110. 110
  111. 111
  112. 112
  113. 113
  114. 114
  115. 115
  116. 116
  117. 117
  118. 118
  119. 119
  120. 120
  121. 121
  1. <?php
  2. class SensitiveWordFilter
  3. {
  4. private $dict;
  5. private $dictPath;
  6. public function __construct($dictPath)
  7. {
  8. $this->dict = array();
  9. $this->dictPath = $dictPath;
  10. $this->initDict();
  11. }
  12. private function initDict()
  13. {
  14. $handle = fopen($this->dictPath, 'r');
  15. if (!$handle) {
  16. throw new RuntimeException('open dictionary file error.');
  17. }
  18. while (!feof($handle)) {
  19. $word = trim(fgets($handle, 128));
  20. if (empty($word)) {
  21. continue;
  22. }
  23. $uWord = $this->unicodeSplit($word);
  24. $pdict = &$this->dict;
  25. $count = count($uWord);
  26. for ($i = 0; $i < $count; $i++) {
  27. if (!isset($pdict[$uWord[$i]])) {
  28. $pdict[$uWord[$i]] = array();
  29. }
  30. $pdict = &$pdict[$uWord[$i]];
  31. }
  32. $pdict['end'] = true;
  33. }
  34. fclose($handle);
  35. }
  36. public function filter($str, $maxDistance = 5)
  37. {
  38. if ($maxDistance < 1) {
  39. $maxDistance = 1;
  40. }
  41. $uStr = $this->unicodeSplit($str);
  42. $count = count($uStr);
  43. for ($i = 0; $i < $count; $i++) {
  44. if (isset($this->dict[$uStr[$i]])) {
  45. $pdict = &$this->dict[$uStr[$i]];
  46. $matchIndexes = array();
  47. for ($j = $i + 1, $d = 0; $d < $maxDistance && $j < $count; $j++, $d++) {
  48. if (isset($pdict[$uStr[$j]])) {
  49. $matchIndexes[] = $j;
  50. $pdict = &$pdict[$uStr[$j]];
  51. $d = -1;
  52. }
  53. }
  54. if (isset($pdict['end'])) {
  55. $uStr[$i] = '*';
  56. foreach ($matchIndexes as $k) {
  57. if ($k - $i == 1) {
  58. $i = $k;
  59. }
  60. $uStr[$k] = '*';
  61. }
  62. }
  63. }
  64. }
  65. return implode($uStr);
  66. }
  67. public function unicodeSplit($str)
  68. {
  69. $str = strtolower($str);
  70. $ret = array();
  71. $len = strlen($str);
  72. for ($i = 0; $i < $len; $i++) {
  73. $c = ord($str[$i]);
  74. if ($c & 0x80) {
  75. if (($c & 0xf8) == 0xf0 && $len - $i >= 4) {
  76. if ((ord($str[$i + 1]) & 0xc0) == 0x80 && (ord($str[$i + 2]) & 0xc0) == 0x80 && (ord($str[$i + 3]) & 0xc0) == 0x80) {
  77. $uc = substr($str, $i, 4);
  78. $ret[] = $uc;
  79. $i += 3;
  80. }
  81. } else if (($c & 0xf0) == 0xe0 && $len - $i >= 3) {
  82. if ((ord($str[$i + 1]) & 0xc0) == 0x80 && (ord($str[$i + 2]) & 0xc0) == 0x80) {
  83. $uc = substr($str, $i, 3);
  84. $ret[] = $uc;
  85. $i += 2;
  86. }
  87. } else if (($c & 0xe0) == 0xc0 && $len - $i >= 2) {
  88. if ((ord($str[$i + 1]) & 0xc0) == 0x80) {
  89. $uc = substr($str, $i, 2);
  90. $ret[] = $uc;
  91. $i += 1;
  92. }
  93. }
  94. } else {
  95. $ret[] = $str[$i];
  96. }
  97. }
  98. return $ret;
  99. }
  100. }

使用方法

  1. 1
  2. 2
  3. 3
  4. 4
  5. 5
  6. 6
  7. 7
  8. 8
  9. 9
  10. 10
  11. 11
  12. 12
  13. 13
  14. 14
  15. 15
  16. 16
  17. 17
  18. 18
  19. 19
  20. 20
  1. <?php
  2. require 'SensitiveWordFilter.php';
  3. /*
  4. 初始化传入词库文件路径,词库文件每个词一个换行符。
  5. 如:
  6. 敏感1
  7. 敏感2
  8. 目前只支持UTF-8编码
  9. */
  10. $filter = new SensitiveWordFilter(__DIR__ . '/sensitive_words.txt');
  11. /*
  12. 第一个参数传入要过滤的字符串,第二个是匹配的字间距,
  13. 比如'枪支'是一个敏感词,想过滤'枪||||支'的时候,
  14. 就需要指定一个两个字的间距,可以根据情况设定,
  15. 超过指定间距就不会过滤。所有匹配的敏感词会被替换为'*'。
  16. */
  17. $filter->filter('这是一个敏感词', 10);

性能没有具体详细的做测试,不过一般场景足够,主要是吃CPU,词库可以把生成好的字典JSON编码后存到Redis或者Memcached中,下次使用直接取出还原。

PHP写WEB的话,不是Daemon这种,所以构建的数据结构不能方便的驻留内存,相比来说,C、C++、Java等可能更合适,如果对性能要求苛刻,可以用其他语言写个服务。当然,如果非要使用PHP,也可以使用Swoole封装服务。

用php实现一个敏感词过滤功能的更多相关文章

  1. Java实现敏感词过滤 - IKAnalyzer中文分词工具

    IKAnalyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包. 官网: https://code.google.com/archive/p/ik-analyzer/ 本用例借助 I ...

  2. java实现敏感词过滤(DFA算法)

    小Alan在最近的开发中遇到了敏感词过滤,便去网上查阅了很多敏感词过滤的资料,在这里也和大家分享一下自己的理解. 敏感词过滤应该是不用给大家过多的解释吧?讲白了就是你在项目中输入某些字(比如输入xxo ...

  3. 5分钟Serverless实践 | 构建无服务器的敏感词过滤后端系统

    前言 在上一篇“5分钟Serverless实践”系列文章中,我们介绍了什么是Serverless,以及如何构建一个无服务器的图片鉴黄Web应用,本文将延续这个话题,以敏感词过滤为例,介绍如何构建一个无 ...

  4. Java实现敏感词过滤

    敏感词.文字过滤是一个网站必不可少的功能,如何设计一个好的.高效的过滤算法是非常有必要的.前段时间我一个朋友(马上毕业,接触编程不久)要我帮他看一个文字过滤的东西,它说检索效率非常慢.我把它程序拿过来 ...

  5. 转:鏖战双十一-阿里直播平台面临的技术挑战(webSocket, 敏感词过滤等很不错)

    转自:http://www.infoq.com/cn/articles/alibaba-broadcast-platform-technology-challenges 鏖战双十一-阿里直播平台面临的 ...

  6. Java实现敏感词过滤(转)

    敏感词.文字过滤是一个网站必不可少的功能,如何设计一个好的.高效的过滤算法是非常有必要的.前段时间我一个朋友(马上毕业,接触编程不久)要我帮他看一个文字过滤的东西,它说检索效率非常慢.我把它程序拿过来 ...

  7. java web过滤器实际应用(解决中文乱码 html标签转义功能 敏感字符过滤功能)

    转载地址:http://www.cnblogs.com/xdp-gacl/p/3952405.html 在filter中可以得到代表用户请求和响应的request.response对象,因此在编程中可 ...

  8. 敏感词过滤的算法原理之DFA算法

    参考文档 http://blog.csdn.net/chenssy/article/details/26961957 敏感词.文字过滤是一个网站必不可少的功能,如何设计一个好的.高效的过滤算法是非常有 ...

  9. [原创] Trie树 php 实现敏感词过滤

    目录 背景 简介 存储结构 PHP 其他语言 字符串分割 示例代码 php 优化 缓存字典树 常驻服务 参考文章 背景 项目中需要过滤用户发送的聊天文本, 由于敏感词有将近2W条, 如果用 str_r ...

随机推荐

  1. 解决Can't connect to MySQL server on 'localhost' (10048)

    解决Can't connect to MySQL server on 'localhost' (10048) 您使用的是Windows操作系统,此错误与一个注册表键值TcpTimedWaitDelay ...

  2. ABAP 上传文件到内表

    http://www.cnblogs.com/jiangzhengjun/p/4265642.html http://www.xuebuyuan.com/1233478.html

  3. SQL表新增触发(触发器)

    ALTER TRIGGER [InsertStoreJITOnloadQuantity] ON [dbo].[Sourceing] After INSERT AS --登記計劃數量(新增時YN=0) ...

  4. JavaScript高级程序设计学习笔记--DOM

    DOM(文档对象模型)是针对HTML和XML文档的一个API(应用程序接口). Document类型 文档的子节点 虽然DOM标准规定Document节点的子节点可以是DocumentType,Ele ...

  5. [jquery]折叠指定条件的表格

    最近在做财务报表时候,一些表格要做特定折叠效果 这里通过2个自定义属性来对表格之间的属性作关联 date-head和date-num,输出表格时候,可以按照这2个自定义属性给某些带父子层级关系的内容指 ...

  6. mybatis 书写

    查询语句是使用 MyBatis 时最常用的元素之一 select元素配置细节如下 属性 描述 取值 默认 id 在这个模式下唯一的标识符,可被其它语句引用     parameterType 传给此语 ...

  7. 朴素贝叶斯算法的python实现

    朴素贝叶斯 算法优缺点 优点:在数据较少的情况下依然有效,可以处理多类别问题 缺点:对输入数据的准备方式敏感 适用数据类型:标称型数据 算法思想: 朴素贝叶斯比如我们想判断一个邮件是不是垃圾邮件,那么 ...

  8. C语言头文件组织与包含原则

    转自:http://www.cnblogs.com/clover-toeic/p/3728026.html 说明 本文假定读者已具备基本的C编译知识. 如非特殊说明,文中“源文件”指*.c文件,“头文 ...

  9. Asp.net中导出Excel文档(Gridview)

    主要思路,通过GridView来导出文档. 新建一个Aspx页面,页面创建GridView控件,后台绑定好数据源.然后load中直接打印即可导出 前台的GridView <asp:GridVie ...

  10. 三言两语之微信小程序开发初体验(1)

    一.前情   直接切入主题,微信发布了小程序,前端开发者表示,如果不会微信小程序的开发感觉就跟不上时代了,先解答几个容易出现歧义的问题 小程序就叫小程序,不叫应用号,因为apple不准,哈哈 小程序是 ...