随意观看

工具准备
全角和半角字符
网页字符实体
Code实现
之后...

工具准备

python3.6
正则表达式(别的语言思路一样，容易借鉴)

python正则表达式：flags的应用

这里主要介绍一下`re.compile(pattern[, flags])`里面的flags用法

标识符	作用
re.I	忽略大小写
re.L	表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境
re.M	多行模式
re.S	' . '并且包括换行符在内的任意字符（注意：' . '不包括换行符）
re.U	表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库

特别强调`re.I`和`re.S`的用法

众所周知，html标签是大小写不敏感的，所以我们需要re.I
其次html中<style>..</style>、<sript>..</scipt>等一些标签里面是包含换行符的。而我们为了保留原来文本的特点包括换行符，所以需要re.S。让.可以匹配换行符

清洗全角和半角字符

实现字符的清洗工作，否则，jieba词库会将全角数字全部分开。而且，清洗后的半角文本更适合观看

小姿势

中文文字永远是全角，只有英文字母、数字键、符号键才有全角半角的概念,一个字母或数字占一个汉字的位置叫全角，占半个汉字的位置叫半角

全角半角转换说明

全角字符unicode编码从65281~65374 （十六进制 0xFF01 ~ 0xFF5E）
半角字符unicode编码从33~126 （十六进制 0x21~ 0x7E）
空格比较特殊，全角为 12288（0x3000），半角为 32（0x20）

代码实现

def Q2B(_char):#全角转半角

    if 65281<=ord(_char)<=65374:

        _char = chr(ord(_char)-65248)

    elif ord(_char)==12288:

        _char = chr(32)

    return _char

def isQ(Char):

    return True if (65281<=ord(Char)<=65374 or ord(Char)==12288) else False

def B2Q(_char):#半角转全角

    if 33<=ord(_char)<=126:

        _char = chr(ord(_char)+65248)

    elif ord(_char)==32:

        _char = chr(12288)

    return _char

def isB(Char):

    return True if (33<=ord(Char)<=126 or ord(Char)==32) else False

网页字符实体

标准的html代码中的文本内容是不会出现'<'/' '等这些字符的。现在很多工具都会将网页文本内容处理成标准形式再发布。我们这里讨论的就是标准的html代码及文本内容

html字符实体查询地址

为了方便讨论，我们这里取了几个常用的作为示范，并且构造以下dict

html_char = {}

html_char['&quot;'] = html_char['"']='"'

html_char['&apos;'] = html_char['''] = "'"

html_char['&amp;'] = html_char['&'] = '&'

html_char['&lt;'] = html_char['<'] = '<'

html_char['&gt;'] = html_char['>'] = '>'

html_char['&nbsp;'] = html_char[' ']= ' '

Code实现

难点重点就在这里，做了很多准备工作，幸好python比较方便，其他语言的玩家可以借鉴一下思路

正则Code实现去标签^[1]

    ...

    #CDATA 部分由 "<![CDATA[" 开始，由 "]]>" 结束：

    cdata_rule = re.compile(r'<![CDATA[.*]]>',re.I | re.S)

    #去除脚本（随时会出现）

    script_rule = re.compile(r'<script.*?</script>',re.I | re.S)

    #取出<head>..</head>和中间的内容，style也在里面，不需要再写了

    head_rule = re.compile(r'<head.*?/head>',re.I | re.S)

    #为了以防一些文本不是全部截取html代码，还是写一下以防万一

    style_rule = re.compile(r'<style.*?/style>',re.I | re.S)

    #处理注释

    comment_rule = re.compile(r'<!.*?>',re.I | re.S)

    #处理换行

    br_rule = re.compile(r'<br\s*?/{0,1}>',re.I)

    #html标签

    html_rule = re.compile(r'<.*?/{0,1}>',re.I)

    ...

正则Code实现去字符实体

    ...

    global html_char

    letter_char = re.compile(r'&[a-z]+;',re.I)

    for char in letter_char.findall(raw):

        raw = re.sub(char,html_char[char],raw)

    number_char = re.compile(r'&#\d+;',re.I)

    for char in number_char.findall(raw):

        raw = re.sub(char,html_char[char],raw)

    ...

全部代码（含测试文本）

import re

html_char = {}

html_char['&quot;'] = html_char['"']='"'

html_char['&apos;'] = html_char['''] = "'"

html_char['&amp;'] = html_char['&'] = '&'

html_char['&lt;'] = html_char['<'] = '<'

html_char['&gt;'] = html_char['>'] = '>'

html_char['&nbsp;'] = html_char[' ']= ' '

def Q2B(_char):#全角转半角

    if 65281<=ord(_char)<=65374:

        _char = chr(ord(_char)-65248)

    elif ord(_char)==12288:

        _char = chr(32)

    return _char

def isQ(Char):

    return True if (65281<=ord(Char)<=65374 or ord(Char)==12288) else False

def B2Q(_char):#半角转全角

    if 33<=ord(_char)<=126:

        _char = chr(ord(_char)+65248)

    elif ord(_char)==32:

        _char = chr(12288)

    return _char

def isB(Char):

    return True if (33<=ord(Char)<=126 or ord(Char)==32) else False

#定义一个装饰器，可有可无

def log(clean_html):

    def info(*args, **kw):

        print("The text after processing:")

        return clean_html(*args, **kw)

    return info

@log

def clean_html(html_str,special_char=None,to_char=None):

    #这里留个接口，处理特殊字符串

    if special_char:

        special_rule = re.compile('|'.join(set(special_char)))

        if not to_char:

            to_char = ''

    #CDATA 部分由 "<![CDATA[" 开始，由 "]]>" 结束：

    cdata_rule = re.compile(r'<![CDATA[.*]]>',re.I | re.S)

    #去除脚本（随时会出现）

    script_rule = re.compile(r'<script.*?</script>',re.I | re.S)

    #取出<head>..</head>和中间的内容，style也在里面，不需要再写了

    head_rule = re.compile(r'<head.*?/head>',re.I | re.S)

    #为了以防一些文本不是全部截取html代码，还是写一下以防万一

    style_rule = re.compile(r'<style.*?/style>',re.I | re.S)

    #处理注释

    comment_rule = re.compile(r'<!.*?>',re.I | re.S)

    #处理换行

    br_rule = re.compile(r'<br\s*?/{0,1}>',re.I)

    #html标签

    html_rule = re.compile(r'<.*?/{0,1}>',re.I)

    if special_char:

        raw = special_rule.sub(to_char,html_str)

    else:

        raw = html_str

    raw = cdata_rule.sub('',raw)

    raw = script_rule.sub('',raw)

    raw = head_rule.sub('',raw)

    raw = style_rule.sub('',raw)

    raw = comment_rule.sub('',raw)

    raw = br_rule.sub('\n',raw)

    raw = html_rule.sub('',raw)

    global html_char

    letter_char = re.compile(r'&[a-z]+;',re.I)

    for char in letter_char.findall(raw):

        raw = re.sub(char,html_char[char],raw)

    number_char = re.compile(r'&#\d+;',re.I)

    for char in number_char.findall(raw):

        raw = re.sub(char,html_char[char],raw)

    raw_list = list(raw)

    for i in range(len(raw_list)):

        if isQ(raw_list[i]):

            raw_list[i] = Q2B(raw_list[i])

    raw = ''.join(raw_list)

    return raw

def test():

    test_html = """

    <div id="sidebar">

    <div id="tools">

    <h5 id="tools_example"><a href="/example/xmle_examples.asp">&nbsp;XML 实例,特殊字符：１５（处理之后应该没有了）</a></h5>

    <h5 id="tools_quiz"><a href="/xml/xml_quiz.asp"><XML 测验&gt;</a></h5>

    <h3>'ｖｅｖｅｖ'</h3>

    </div>

    <div id="ad">

    <script type="text/javascript"><!--

    google_ad_client = "ca-pub-3381531532877742";

    /* sidebar-160x600 */

    google_ad_slot = "3772569310";

    google_ad_width = 160;

    google_ad_height = 600;

    //-->

    </script>

    <script type="text/javascript"

    src="http://pagead2.googlesyndication.com/pagead/show_ads.js">

    </script>

    </div>

    </div>

    """

    print(clean_html(test_html,'】１５'))

if __name__=='__main__':

    test()

进一步

其他脚本引用

在python的其他程序中，可以直接from clean_html import clean_html进行方便的调用(假设这个脚本名字为clean_html.py)

完善

补充字符实体(可以用爬虫爬下来，有空弄一下)
html标签可能因为前端框架不同而有所差异（虽然不大）。但是都有规律，如<Vue>..</Vue>等，有规律，正则表达式就容易构建了

代码备注以标明作用 ↩︎

自己动手实现html去标签和文本提取的更多相关文章

用Ueditor存入数据库带HTML标签的文本，从数据库取出来后，anjular用ng-bind-html处理带HTML标签的文本
ng.module('index-filters', []) .filter('trustHtml', function ($sce) { return function (input) { retu ...
pre标签内文本自动换行
pre标签内文本自动换行给pre标签添加一个css样式 pre { white-space: pre-wrap; /* css-3 */ white-space: -moz-pre-wrap; /* ...
jQuery-对标签元素文本操作-属性操作-文档的操作
一.对标签元素文本操作 1.1 对标签中内容的操作 // js var div1 = document.getElementById("div1"); div1.innerText ...
[Swift通天遁地]二、表格表单-(11)创建星期选项表单和拥有浮动标签的文本框
★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★➤微信公众号:山青咏芝(shanqingyongzhi)➤博客园地址:山青咏芝(https://www.cnblogs. ...
实验一　HTML基本标签及文本处理
实验一 HTML基本标签及文本处理 [实验目的] 1．掌握利用因特网进行信息游览.搜索,下载网页.图片.文字和文件: 2．对给定的网站,能指出网站的链接结构.目录结构.页面布局方式: 3．掌握HTML ...
R语言与医学统计图形-【16】ggplot2几何对象之标签与文本
ggplot2绘图系统--添加标签与文本.数学表达式.条形图文本.注释 1. 文本与标签添加 geom_label的文本将以标签形式出现,即文本会带有一个背景色. geom_text则是纯文本形式展示 ...
POI教程之第二讲：创建一个时间格式的单元格，处理不同内容格式的单元格，遍历工作簿的行和列并获取单元格内容，文本提取
第二讲 1.创建一个时间格式的单元格 Workbook wb=new HSSFWorkbook(); // 定义一个新的工作簿 Sheet sheet=wb.createSheet("第一个 ...
R+OCR︱借助tesseract包实现图片文本提取功能
2016年11月,Jeroen Ooms在CRAN发布了tesseract包,实现了R语言对简单图片的文本提取.分析功能. 利用开源OCR引擎进行图片处理,目前可以识别超过100种语言,R语言可以借助 ...
lucene索引查看工具luke和文本提取工具Tika
luke可以方便的查看lucene的索引信息,当然也可以查看solr和es中的索引信息(基于lucene实现). 查看索引前,要注意lucene版本的问题,高版本的lucene用低版本的luke工具就 ...

随机推荐

js原型对象
原型对象是什么? 在js中,每一个创建的的函数都会有一个prototype属性,这个属性指向一个对象,这个对象就是原型对象 function lla(){} console.log(lla.proto ...
一个简单的jquery左右列表内容切换应用
选中左边某个选项点击添加,即可将选中项添加到右边文本框中,点击选中全部即可将全部选项移到右边,移除按钮功能相同. html代码: <div id="main"> < ...
是什么让C＃成为最值得学习的编程语言
随着 Web.iOS.Android.智能设备的流行,新的编程语言纷纷涌现并表现不俗,如 Ruby,Python,Scala,Go,Node.js,Swift 等.反观已经发展了近20年的 C# 语言 ...
Eclipse默认编码设置
eclipse 默认编码居然是GBK,js文件默认编码是ISO-....怎么可以这样呢?都修改成UTF8的方法:1.windows->Preferences...打开"首选项" ...
NuGet（Nuget Packages）
Nuget是一个.NET平台下的开源的项目,它是Visual Studio的扩展.在使用Visual Studio开发基于.NET Framework的应用时,Nuget能把在项目中添加.移除和更新引 ...
Linux--管道pipe
管道是一种最基本的IPC机制,由pipe函数创建:#include <unistd.h> int pipe(int filedes[2]); 调用pipe函数时在内核中开辟一块缓冲区(称为 ...
java进制转换（无视正负数的差别）
最近看了一下学习资料,感觉进制转换其实还是挺有意思的,尤其是对于负数这一方面. 下面和大家分享一下,这里只写了十进制到二进制的转换,其实都是同样的道理 public class Test1 { pub ...
Asp.NET MVC 之心跳/长连接
0x01 在线用户类,我的用户唯一性由ID和类型识别(因为在不同的表里) public class UserIdentity : IEqualityComparer<UserIdentity&g ...
SpringMVC中使用bean来接收form表单提交的参数时的注意点
这是前辈们对于SpringMVC接收表单数据记录下来的总结经验: SpringMVC接收页面表单参数 springmvc请求参数获取的几种方法下面是我自己在使用时发现的,前辈们没有记录的细节和注意点 ...
阿里云CentOS7.2服务器的安装
第一步:下载服务器系统ISO安装文件我使用的是阿里云的镜像:因为阿里云的服务在国内相对比较成熟服务器镜像下载如下:http://mirrors.aliyun.com/centos/7/isos/x ...

自己动手实现html去标签和文本提取