[python每日一练]--0012:敏感词过滤 type2

题目链接：https://github.com/Show-Me-the-Code/show-me-the-code
代码github链接：https://github.com/wjsaya/python_spider_learn/tree/master/python_daily
个人博客地址：https://wjsaya.github.io
第 0012 题： 敏感词文本文件 filtered_words.txt，里面的内容和 0011题一样，当用户输入敏感词语，则用星号替换，例如当用户输入「北京是个好城市」，则变成「*是个好城市」。
1
2
3
4
北京
程序员
公务员
...

思路：

从文件解析敏感词、从终端获取用户输入。
根据敏感词对用户输入进行过滤。这里过滤需要考虑到输入内容不止一个需要过滤的词，所以稍微麻烦点：
1. 读取所有的屏蔽词，放进一个列表
2. 获取用户输入
3. 遍历屏蔽词列表，用屏蔽词检索用户输入
  - 如果有屏蔽词，将其替换为*
  - 如果没有，不进行操作
  - 返回处理后的用户输入
  - 用下一个屏蔽词对处理后的用户输入进行上述操作
4. 所有屏蔽词遍历完毕，输出过滤后字符串

敏感词列表(filtered_words.txt)

北京
程序员
公务员
领导
牛比
牛逼
你娘
你妈
love
sex
jiangge

代码：


# -*- coding: utf-8 -*- 
# @Author:	wjsaya(http://www.wjsaya.top) 
# @Date:	2018-08-10 12:33:32 
# @Last Modified by:	wjsaya(http://www.wjsaya.top) 
# @Last Modified time:	2018-08-13 23:02:29 

class ():
    '''fliter类 n
    传入敏感词文件 n
    获取用户输入，根据敏感词文件对输入进行过滤
    '''
    def __init__(self, fileName):
        dirty_dict = self.get_dirty(file)
        self.fliteredString = self.fliterMaster(dirty_dict)

    def get_dirty(self, fileName=''):
        '''解析文件获取敏感词，返回一个敏感词列表
        '''
        with open (fileName, 'r', encoding='utf-8') as f:
            re = f.readlines()

        for i in range(len(re)):
大专栏  [python每日一练]--0012:敏感词过滤 type2class="line">            re[i] = re[i].strip('n')

        return(re)

    def fliterMaster(self, dirty_dict):
        '''过滤主函数 n 
        获取用户输入，获取待屏蔽词典 n 
        遍历屏蔽词 ，进行过滤n
        返回屏蔽后字符串
        '''
        instr = input("不要输入敏感词哦：")
        self.originString = instr
        # instr = ("程序员很牛比，但是运维更牛逼")
        for i in dirty_dict:               
            inArray = self.str2array(instr)
            inDirtArray = self.str2array(i)

            pos_list = self.get_pos(inArray, inDirtArray[0])
            if pos_list is None:    # 未找到可能存在的屏蔽词，跳过过滤部分
                continue
            else:   # 可能有屏蔽词，交给fliterWorker进一步处理
                for tag in pos_list:
                    inArray = self.fliterWorker(tag, inArray, inDirtArray)
                instr = ''.join(inArray)
        
        return instr

    def str2array(self, instr):
        '''字符串单个拆分为数组
        '''
        redict = []
        for i in instr:
            redict.append(i)
        return redict

    def get_pos(self, instr, word):
        '''传入句子，传入词 n
        找出此词在居中的所有位置
        '''
        try:
            re = instr.index(word)
            resp = []
            resp.append(re)
            while(1):
                try:
                    re = instr.index(word, re+1, len(instr))
                    resp.append(re)
                except Exception as e:
                    break
            return resp

        except Exception as e:
            return None


    def fliterWorker(self, tag, inArray, inDirtArray):
        '''IN:字符数组；屏蔽词数组；可能存在屏蔽词的位置 n
        OUT:替换完毕之后的字符数组
        '''
        resp = ""
        resp_temp = "" 
        for i in range(tag):    # 0-pos不变，从pos开始向后匹配
            resp += inArray[i]

        for i in range(len(inDirtArray)):
            if inArray[tag+i] == inDirtArray[i]:
            # 字符数组和屏蔽词数组从左向右匹配，如果匹配到一个，resp_temp追加一个*
            # 任一过滤词没匹配到，resp_temp直接置为空
                resp_temp += "*"
            else:
                resp_temp = ''
                break

        if resp_temp == '': # resp_temp为空，直接返回原字符数组
            return inArray

        else:   # resp_temp非空，则有匹配，把resp_temp加到原字符数组
            resp += resp_temp
            for i in range(tag+len(inDirtArray), len(inArray)):
                # resp_temp加完之后，把原句剩下的内容追加
                resp += inArray[i]
        return resp


if __name__ == '__main__':
    file = 'filtered_words.txt'
    fliter1 = fliter(file)
    print("未过滤字符串为：" + fliter1.originString)
    print("过滤后字符串为：" + fliter1.fliteredString)

效果图：

[python每日一练]--0012:敏感词过滤 type2的更多相关文章

DFA和trie特里实现敏感词过滤（python和c语言）
今天的项目是与完成python开展,需要使用做关键词检查,筛选分类,使用前c语言做这种事情.有了线索,非常高效,内存小了,检查快. 到达python在,第一个想法是pip基于外观的c语言python特 ...
8.2 前端检索的敏感词过滤的Python实现（针对元搜索）
对于前端的搜索内容进行控制,比如敏感词过滤,同样使用socket,这里使用Python语言做一个demo.这里不得不感叹一句,socket真是太神奇了,可以跨语言把功能封装,为前端提供服务. 下面就是 ...
Python 每日一练（4）
引言今天继续是python每日一练的几个专题,主要涵盖简单的敏感词识别以及图片爬虫敏感词识别这个敏感词的识别写的感觉比较简单,总的概括之后感觉功能可以简略成if filter_words in ...
超强敏感词过滤算法第二版可以忽略大小写、全半角、简繁体、特殊符号、HTML标签干扰
上一篇发一个高性能的敏感词过滤算法可以忽略大小写.全半角.简繁体.特殊符号干扰改进主要有几点: 用BitArray取代Dictionary用空间换时间性能进一步提升大概会增加词库的 6k* ...
5分钟构建无服务器敏感词过滤后端系统（基于FunctionGraph）
摘要:开发者通过函数工作流,无需配置和管理服务器,以无服务器的方式构建应用,便能开发出一个弹性高可用的后端系统.托管函数具备以毫秒级弹性伸缩.免运维.高可靠的方式运行,极大地提高了开发和运维效率,减小 ...
基于DFA算法、RegExp对象和vee-validate实现前端敏感词过滤
面临敏感词过滤的问题,最简单的方案就是对要检测的文本,遍历所有敏感词,逐个检测输入的文本是否包含指定的敏感词. 很明显上面这种实现方法的检测时间会随着敏感词库数量的增加而线性增加.系统会因此面临性能和 ...
java实现敏感词过滤（DFA算法）
小Alan在最近的开发中遇到了敏感词过滤,便去网上查阅了很多敏感词过滤的资料,在这里也和大家分享一下自己的理解. 敏感词过滤应该是不用给大家过多的解释吧?讲白了就是你在项目中输入某些字(比如输入xxo ...
用php实现一个敏感词过滤功能
周末空余时间撸了一个敏感词过滤功能,下边记录下实现过程. 敏感词,一方面是你懂的,另一方面是我们自己可能也要过滤一些人身攻击或者广告信息等,具体词库可以google下,有很多. 过滤敏感词,使用简单的 ...
浅析敏感词过滤算法(C++)
为了提高查找效率,这里将敏感词用树形结构存储,每个节点有一个map成员,其映射关系为一个string对应一个TreeNode. STL::map是按照operator<比较判断元素是否相同,以及 ...

随机推荐

计量经济与时间序列_滞后算子和超前算子L的定义
1. 为了使计算简单,引入滞后算子的概念: 2. 定义LYt = Yt-1 , L2Yt = Yt-2,... , LsYt = Yt-s. 3. 也就是把每一期具体滞后哪一期的k提到L的 ...
架构之道(3) - 令後端的吐血和喊FUCK的次数锐减
「那个产品经理不会技术,整天在需求,真操他妈的.」这是很多产品经理遇到的一句话,如果你把顾客阶段完成了,回到自己的团队,遇到个技术大牛这麽说,那就表示,自己作为产品经理的功力还不够. 等我慢现解释, ...
八、Shell脚本高级编程实战第八部
一.使用for循环在/oldboy目录下创建10个文件名为oldboy-x的文件 #!/bin/sh[ ! -d /oldboy ] && mkdir -p /oldbfor i in ...
如何将本地未提交的更改合并到另一个Git分支？
如何在Git中执行以下操作? 我当前的分支是branch1,我做了一些本地更改. 但是,我现在意识到我实际上是要将这些更改应用于branch2. 有没有办法应用/合并这些更改,以便它们成为branch ...
Java零基础学习详解
01DButils工具类的介绍个三个核心类 * A: DButils工具类的介绍个三个核心类 * a: 概述 * DBUtils是java编程中的数据库操作实用工具,小巧简单实用. * DBUtils ...
[CTS2019]无处安放（提交答案）
由于蒟蒻太菜没报上CTS,只能在家打VP. 感觉这题挺有意思的,5h中有3h在玩这题,获得74分的“好”成绩. 说说我的做法吧: subtask1~3:手玩,不知道为什么sub2我只能玩9分,但9和1 ...
1051: [HAOI2006]受欢迎的牛（tarjan强连通分量+缩点）
题目大意:CodeVs2822的简单版本传送门 $Tarjan$强连通分量+缩点,若连通块的个数等于一则输出n:若缩点后图中出度为0的点个数为1,输出对应连通块内的点数:否则输出0: 代码中注释部分 ...
JSP详细解析
原文地址: http://www.cnblogs.com/rollenholt/archive/2011/07/04/2097376.html http://www.cnblogs.com/jy024 ...
系统学习javaweb3----HTML语言3（结束）
说明:昨天是北方小年,需要做的事情有点多,需要祭灶,扫尘.包饺子,吃糖瓜儿,学习时间有点少,所以今天将两天的知识综合一下发出. 自我感觉:虽然感觉大致都了解了HTML语言,但是感觉自己面对程序还是无从 ...
django框架进阶-CSRF认证
############################################### """ django中csrf的实现机制 #第一步:django第一次响应 ...

[python每日一练]--0012:敏感词过滤 type2

思路：

代码：

效果图：

[python每日一练]--0012:敏感词过滤 type2的更多相关文章

随机推荐

热门专题