随意观看


工具准备

  • python3.6
  • 正则表达式(别的语言思路一样,容易借鉴)

python正则表达式:flags的应用

这里主要介绍一下re.compile(pattern[, flags])里面的flags用法

标识符 作用
re.I 忽略大小写
re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境
re.M 多行模式
re.S ' . '并且包括换行符在内的任意字符(注意:' . '不包括换行符)
re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库

特别强调re.Ire.S的用法

  1. 众所周知,html标签是大小写不敏感的,所以我们需要re.I
  2. 其次html中<style>..</style><sript>..</scipt>等一些标签里面是包含换行符的。而我们为了保留原来文本的特点包括换行符,所以需要re.S.可以匹配换行符

清洗全角和半角字符

实现字符的清洗工作,否则,jieba词库会将全角数字全部分开。而且,清洗后的半角文本更适合观看

小姿势

中文文字永远是全角,只有英文字母、数字键、符号键才有全角半角的概念,一个字母或数字占一个汉字的位置叫全角,占半个汉字的位置叫半角

全角半角转换说明

  1. 全角字符unicode编码从65281~65374 (十六进制 0xFF01 ~ 0xFF5E)
  2. 半角字符unicode编码从33~126 (十六进制 0x21~ 0x7E)
  3. 空格比较特殊,全角为 12288(0x3000),半角为 32(0x20)

代码实现

def Q2B(_char):#全角转半角
if 65281<=ord(_char)<=65374:
_char = chr(ord(_char)-65248)
elif ord(_char)==12288:
_char = chr(32)
return _char def isQ(Char):
return True if (65281<=ord(Char)<=65374 or ord(Char)==12288) else False def B2Q(_char):#半角转全角
if 33<=ord(_char)<=126:
_char = chr(ord(_char)+65248)
elif ord(_char)==32:
_char = chr(12288)
return _char def isB(Char):
return True if (33<=ord(Char)<=126 or ord(Char)==32) else False

网页字符实体

标准的html代码中的文本内容是不会出现'<'/' '等这些字符的。现在很多工具都会将网页文本内容处理成标准形式再发布。我们这里讨论的就是标准的html代码及文本内容

html字符实体查询地址

为了方便讨论,我们这里取了几个常用的作为示范,并且构造以下dict

html_char = {}
html_char['&quot;'] = html_char['"']='"'
html_char['&apos;'] = html_char['''] = "'"
html_char['&amp;'] = html_char['&'] = '&'
html_char['&lt;'] = html_char['<'] = '<'
html_char['&gt;'] = html_char['>'] = '>'
html_char['&nbsp;'] = html_char[' ']= ' '

Code实现

难点重点就在这里,做了很多准备工作,幸好python比较方便,其他语言的玩家可以借鉴一下思路

正则Code实现去标签[1]

    ...
#CDATA 部分由 "<![CDATA[" 开始,由 "]]>" 结束:
cdata_rule = re.compile(r'<![CDATA[.*]]>',re.I | re.S) #去除脚本(随时会出现)
script_rule = re.compile(r'<script.*?</script>',re.I | re.S) #取出<head>..</head>和中间的内容,style也在里面,不需要再写了
head_rule = re.compile(r'<head.*?/head>',re.I | re.S) #为了以防一些文本不是全部截取html代码,还是写一下以防万一
style_rule = re.compile(r'<style.*?/style>',re.I | re.S) #处理注释
comment_rule = re.compile(r'<!.*?>',re.I | re.S) #处理换行
br_rule = re.compile(r'<br\s*?/{0,1}>',re.I) #html标签
html_rule = re.compile(r'<.*?/{0,1}>',re.I)
...

正则Code实现去字符实体

    ...
global html_char
letter_char = re.compile(r'&[a-z]+;',re.I)
for char in letter_char.findall(raw):
raw = re.sub(char,html_char[char],raw) number_char = re.compile(r'&#\d+;',re.I)
for char in number_char.findall(raw):
raw = re.sub(char,html_char[char],raw)
...

全部代码(含测试文本)

import re

html_char = {}
html_char['&quot;'] = html_char['"']='"'
html_char['&apos;'] = html_char['''] = "'"
html_char['&amp;'] = html_char['&'] = '&'
html_char['&lt;'] = html_char['<'] = '<'
html_char['&gt;'] = html_char['>'] = '>'
html_char['&nbsp;'] = html_char[' ']= ' ' def Q2B(_char):#全角转半角
if 65281<=ord(_char)<=65374:
_char = chr(ord(_char)-65248)
elif ord(_char)==12288:
_char = chr(32)
return _char def isQ(Char):
return True if (65281<=ord(Char)<=65374 or ord(Char)==12288) else False def B2Q(_char):#半角转全角
if 33<=ord(_char)<=126:
_char = chr(ord(_char)+65248)
elif ord(_char)==32:
_char = chr(12288)
return _char def isB(Char):
return True if (33<=ord(Char)<=126 or ord(Char)==32) else False #定义一个装饰器,可有可无
def log(clean_html):
def info(*args, **kw):
print("The text after processing:")
return clean_html(*args, **kw)
return info @log
def clean_html(html_str,special_char=None,to_char=None): #这里留个接口,处理特殊字符串
if special_char:
special_rule = re.compile('|'.join(set(special_char)))
if not to_char:
to_char = '' #CDATA 部分由 "<![CDATA[" 开始,由 "]]>" 结束:
cdata_rule = re.compile(r'<![CDATA[.*]]>',re.I | re.S) #去除脚本(随时会出现)
script_rule = re.compile(r'<script.*?</script>',re.I | re.S) #取出<head>..</head>和中间的内容,style也在里面,不需要再写了
head_rule = re.compile(r'<head.*?/head>',re.I | re.S) #为了以防一些文本不是全部截取html代码,还是写一下以防万一
style_rule = re.compile(r'<style.*?/style>',re.I | re.S) #处理注释
comment_rule = re.compile(r'<!.*?>',re.I | re.S) #处理换行
br_rule = re.compile(r'<br\s*?/{0,1}>',re.I) #html标签
html_rule = re.compile(r'<.*?/{0,1}>',re.I) if special_char:
raw = special_rule.sub(to_char,html_str)
else:
raw = html_str raw = cdata_rule.sub('',raw)
raw = script_rule.sub('',raw)
raw = head_rule.sub('',raw)
raw = style_rule.sub('',raw)
raw = comment_rule.sub('',raw)
raw = br_rule.sub('\n',raw)
raw = html_rule.sub('',raw) global html_char
letter_char = re.compile(r'&[a-z]+;',re.I)
for char in letter_char.findall(raw):
raw = re.sub(char,html_char[char],raw) number_char = re.compile(r'&#\d+;',re.I)
for char in number_char.findall(raw):
raw = re.sub(char,html_char[char],raw) raw_list = list(raw)
for i in range(len(raw_list)):
if isQ(raw_list[i]):
raw_list[i] = Q2B(raw_list[i])
raw = ''.join(raw_list) return raw def test():
test_html = """ <div id="sidebar"> <div id="tools">
<h5 id="tools_example"><a href="/example/xmle_examples.asp">&nbsp;XML 实例,特殊字符:15(处理之后应该没有了)</a></h5>
<h5 id="tools_quiz"><a href="/xml/xml_quiz.asp"><XML 测验&gt;</a></h5>
<h3>'vevev'</h3>
</div> <div id="ad">
<script type="text/javascript"><!--
google_ad_client = "ca-pub-3381531532877742";
/* sidebar-160x600 */
google_ad_slot = "3772569310";
google_ad_width = 160;
google_ad_height = 600;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
</div> </div>
""" print(clean_html(test_html,'】15')) if __name__=='__main__':
test()

进一步

其他脚本引用

在python的其他程序中,可以直接from clean_html import clean_html进行方便的调用(假设这个脚本名字为clean_html.py)

完善

  1. 补充字符实体(可以用爬虫爬下来,有空弄一下)
  2. html标签可能因为前端框架不同而有所差异(虽然不大)。但是都有规律,如<Vue>..</Vue>等,有规律,正则表达式就容易构建了

  1. 代码备注以标明作用 ↩︎

自己动手实现html去标签和文本提取的更多相关文章

  1. 用Ueditor存入数据库带HTML标签的文本,从数据库取出来后,anjular用ng-bind-html处理带HTML标签的文本

    ng.module('index-filters', []) .filter('trustHtml', function ($sce) { return function (input) { retu ...

  2. pre标签内文本自动换行

    pre标签内文本自动换行 给pre标签添加一个css样式 pre { white-space: pre-wrap; /* css-3 */ white-space: -moz-pre-wrap; /* ...

  3. jQuery-对标签元素 文本操作-属性操作-文档的操作

    一.对标签元素文本操作 1.1 对标签中内容的操作 // js var div1 = document.getElementById("div1"); div1.innerText ...

  4. [Swift通天遁地]二、表格表单-(11)创建星期选项表单和拥有浮动标签的文本框

    ★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★➤微信公众号:山青咏芝(shanqingyongzhi)➤博客园地址:山青咏芝(https://www.cnblogs. ...

  5. 实验一 HTML基本标签及文本处理

    实验一 HTML基本标签及文本处理 [实验目的] 1.掌握利用因特网进行信息游览.搜索,下载网页.图片.文字和文件: 2.对给定的网站,能指出网站的链接结构.目录结构.页面布局方式: 3.掌握HTML ...

  6. R语言与医学统计图形-【16】ggplot2几何对象之标签与文本

    ggplot2绘图系统--添加标签与文本.数学表达式.条形图文本.注释 1. 文本与标签添加 geom_label的文本将以标签形式出现,即文本会带有一个背景色. geom_text则是纯文本形式展示 ...

  7. POI教程之第二讲:创建一个时间格式的单元格,处理不同内容格式的单元格,遍历工作簿的行和列并获取单元格内容,文本提取

    第二讲 1.创建一个时间格式的单元格 Workbook wb=new HSSFWorkbook(); // 定义一个新的工作簿 Sheet sheet=wb.createSheet("第一个 ...

  8. R+OCR︱借助tesseract包实现图片文本提取功能

    2016年11月,Jeroen Ooms在CRAN发布了tesseract包,实现了R语言对简单图片的文本提取.分析功能. 利用开源OCR引擎进行图片处理,目前可以识别超过100种语言,R语言可以借助 ...

  9. lucene索引查看工具luke和文本提取工具Tika

    luke可以方便的查看lucene的索引信息,当然也可以查看solr和es中的索引信息(基于lucene实现). 查看索引前,要注意lucene版本的问题,高版本的lucene用低版本的luke工具就 ...

随机推荐

  1. druid 连接kafuk

    java -Xmx256m -Duser.timezone=UTC -Dfile.encoding=UTF-8 -Ddruid.realtime.specFile=examples/indexing/ ...

  2. [USACO11NOV]牛的障碍Cow Steeplechase

    洛谷传送门 题目描述: 给出N平行于坐标轴的线段,要你选出尽量多的线段使得这些线段两两没有交点(顶点也算),横的与横的,竖的与竖的线段之间保证没有交点,输出最多能选出多少条线段. 因为横的与横的,竖的 ...

  3. 原生JS跨浏览器事件封装处理

    引子:用javascript给元素绑定事件,我们可以用addEventListener这个方法,然而这个方法有兼容问题,比如在IE浏览器上面就无效,在IE上面要用attachEvent这个方法 一.a ...

  4. git远程库代码版本回滚方法

    最近使用git时, 造成了远程库代码需要回滚到之前版本的情况,为了解决这个问题查看了很多资料. 问题产生原因: 提交了错误的版本到远程库. 以下是解决的方法, 供大家参考: 1.对本地代码库进行回滚 ...

  5. git 分支的创建与提交

    我们在开发的过程中会遇到很多团队协作的问题,怎么来解决团队合作呢,就是靠分支来管理代码.一般来说一个功能就要创建一个分支,这样才能减少代码的冲突,给开发带来很大的方便. 首先需要克隆代码 git cl ...

  6. 机器学习笔记-1 Linear Regression(week 1)

    1.Linear Regression with One variable Linear Regression is supervised learning algorithm, Because th ...

  7. 【WPF】学习笔记(二)——依旧是一个电子签名板

    这篇博客呢,主要谈谈在实现电子签名功能中踩过的几个坑:1.System.BadImageFormatException异常:2.无法加载DLL“###.dll”,: 找不到指定的模块. (异常来自 H ...

  8. TreeSet对非自然顺序元素的排序

    /* 1. 往TreeSet添加元素的时候,如果元素本身具备了自然顺序的特性,那么就按照元素自然顺序的特性进行排序存储. 2. 往TreeSet添加元素的时候,如果元素本身不具备自然顺序的特性,那么该 ...

  9. java.util.NoSuchElementException: None.get的解决方法

    在Java中用null表示无值返回.在Java 里,null 是一个关键字,不是一个对象,所以对它调用任何方法都是非法的 笔者就常在类型转换时见到空指针错误,便是由null的特殊性导致的 而在scal ...

  10. linux防火墙基本操作

    1.查看防火墙运行状态 # firewall-cmd --state 或者 # systemctl status firewalld.service .关闭防火墙 # systemctl stop f ...