#encoding:UTF-8  

import re
temp = "想做/ 兼_职/学生_/ 的 、加,我Q: 8 8. 8 8. !!?? 8 8 。8. 8。 8 有,惊,喜,哦"
temp = temp.decode("utf8")
string = re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——!,。?、~@#¥%……&*()]+".decode("utf8"), "".decode("utf8"),temp)
print string # def is_chinese(uchar):
# """判断一个unicode是否是汉字"""
# if uchar >= u'\u4e00' and uchar<=u'\u9fa5':
# return True
# else:
# return False # def is_number(uchar):
# """判断一个unicode是否是数字"""
# if uchar >= u'\u0030' and uchar<=u'\u0039':
# return True
# else:
# return False # def is_alphabet(uchar):
# """判断一个unicode是否是英文字母"""
# if (uchar >= u'\u0041' and uchar<=u'\u005a') or (uchar >= u'\u0061' and uchar<=u'\u007a'):
# return True
# else:
# return False # def is_other(uchar):
# """判断是否非汉字,数字和英文字符"""
# if not (is_chinese(uchar) or is_number(uchar) or is_alphabet(uchar)):
# return True
# else:
# return False # def B2Q(uchar):
# """半角转全角"""
# inside_code=ord(uchar)
# if inside_code<0x0020 or inside_code>0x7e: #不是半角字符就返回原来的字符
# return uchar
# if inside_code==0x0020: #除了空格其他的全角半角的公式为:半角=全角-0xfee0
# inside_code=0x3000
# else:
# inside_code+=0xfee0
# return unichr(inside_code) # def Q2B(uchar):
# """全角转半角"""
# inside_code=ord(uchar)
# if inside_code==0x3000:
# inside_code=0x0020
# else:
# inside_code-=0xfee0
# if inside_code<0x0020 or inside_code>0x7e: #转完之后不是半角字符返回原来的字符
# return uchar
# return unichr(inside_code) # def stringQ2B(ustring):
# """把字符串全角转半角"""
# return "".join([Q2B(uchar) for uchar in ustring]) # def uniform(ustring):
# """格式化字符串,完成全角转半角,大写转小写的工作"""
# return stringQ2B(ustring).lower() # def string2List(ustring):
# """将ustring按照中文,字母,数字分开"""
# retList=[]
# utmp=[]
# for uchar in ustring:
# if is_other(uchar):
# if len(utmp)==0:
# continue
# else:
# retList.append("".join(utmp))
# utmp=[]
# else:
# utmp.append(uchar)
# if len(utmp)!=0:
# retList.append("".join(utmp))
# return retList # if __name__=="__main__":
# #test Q2B and B2Q
# for i in range(0x0020,0x007F):
# print Q2B(B2Q(unichr(i))),B2Q(unichr(i)) # #test uniform
# ustring=u'中国 人名a高频A'
# ustring=uniform(ustring)
# ret=string2List(ustring)
# raw_input()

python文本过滤的更多相关文章

  1. 【python cookbook】【字符串与文本】12.文本过滤和清理

    问题:例如清除在web页面表单中填入了pýtĥöñis这样的文本 解决方法:str.translate()方法 s = 'p\xfdt\u0125\xf6\xf1\x0cis\tawesome\r\n ...

  2. 改写《python基础教程》中的一个例子

    一.前言 初学python,看<python基础教程>,第20章实现了将文本转化成html的功能.由于本人之前有DIY一个markdown转html的算法,所以对这个例子有兴趣.可仔细一看 ...

  3. 产品经理学Python:参数传递方式

    这是关于Python的第5篇文章,主要介绍下参数传递方式和如何设计自己的函数. (一) 本篇主要介绍2种参数传递方式. 位置参数 调用函数时,根据函数定义的参数位置来传递参数. def right_t ...

  4. python书籍推荐:Python Cookbook第三版中文

    所属网站分类: 资源下载 > python电子书 作者:熊猫烧香 链接:http://www.pythonheidong.com/blog/article/44/ 来源:python黑洞网 内容 ...

  5. 值得Python小白学习的书 简单推荐几本吧

    于我个人而言,我很喜欢Python,当然我也有很多的理由推荐你去学python.我只说两点.一是简单,二是写python薪资高.我觉得这俩理由就够了,对不对.买本书,装上pycharm,把书上面的例子 ...

  6. 【Python】统计个人新浪微博词频并给出相应的柱状图

    Python爬虫视频教程零基础小白到scrapy爬虫高手-轻松入门 https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.482434a6E ...

  7. python学习笔记——提取网页中的信息正则表达式re

    被用来检索\替换那些符合某个模式(规则)的文本,对于文本过滤或规则匹配,最强大的就是正则表达式,是python爬虫里必不可少的神兵利器. 1 正则表达式re基本规则 [0-9] 任意一个数字,等价\d ...

  8. 朴素贝叶斯文本分类实现 python cherry分类器

    贝叶斯模型在机器学习以及人工智能中都有出现,cherry分类器使用了朴素贝叶斯模型算法,经过简单的优化,使用1000个训练数据就能得到97.5%的准确率.虽然现在主流的框架都带有朴素贝叶斯模型算法,大 ...

  9. Python入门:参数传递方式

    这是关于Python的第5篇文章,主要介绍下参数传递方式和如何设计自己的函数. (一) 本篇主要介绍2种参数传递方式. 位置参数 调用函数时,根据函数定义的参数位置来传递参数. def right_t ...

随机推荐

  1. OpenModelica仿真

    复杂产品通常涉及机械.控制.电子.液压.气动和软件等多学科领域,其设计过程需要进行仿真,以满足对成本.质量.性能等的要求.目前各个学科和领域都已经有了比较成熟的仿真软件,但大部分仿真软件仅适用于本学科 ...

  2. Usage: AddDimensionedImage imageFile outputFile eclipse 运行程序出错

    关于这个在eclipse中运行java程序的错,首先确认你的jdk,jre是否完整,并且与你的eclipse的位数相同,当然我相信这个错误大家应该都会去检查到. 第二个关于addDimensioned ...

  3. Cocos2d-x 核心概念 - 导演(Director)

    导演类(Director) 用于管理场景对象,采用的是单例模式(单例模式能保存一致的配置信息,方便管理场景对象) 获得导演实例的语句如下 local director = cc.Director:ge ...

  4. 动态代理proxy与CGLib的区别

    什么是代理? 静态代理与动态代理 静态代理实例 JDK动态代理实例 CGLib 简介 CGLib 与JDK动态代理的区别 代理模式是Java中常见的一种模式,英文名字叫走Proxy或者Surrogat ...

  5. /boot/grub/device.map【设备映射】

    grub-install 安装 GRUB 在第一个硬盘的 MBR: # grub-install '(hd0)' grub-install 会先搜寻设备对应的文件(/boot/grub/device. ...

  6. Pod 的安装

    1.如果之前已经安装过的 gem list --local | grep cocoapods 会看到如下输出: cocoapods (1.1.1)cocoapods-deintegrate (1.0. ...

  7. sql 删除数据库表 外键

    --/第1步**********删除所有表的外键约束*************************/   DECLARE c1 cursor for select 'alter table ['+ ...

  8. 写日志 log 到文件夹

    using System;using System.Collections.Generic;using System.Linq;using System.Text;using System.Threa ...

  9. i.Windows下APR安装过程

    1.下载安装native Windows下的APR安装和配置比较简单,可以直接下载Tomcat-native的二进制的版本包: 下载之后的目录结构为: tcnative-1.dll这个库已经包含了AP ...

  10. IO流中SequenceInputStream类

    SequenceInputStream类: 不断的读取InputStream流对象,对于使用Enumeration对象的情况,该类将持续读取所有InputStream对象中的内容,直到到达最后一个In ...