python中的网页标签等字符处理

# -*- coding: utf-8-*-

import re

##过滤HTML中的标签

#将HTML中标签等信息去掉

#@param htmlstr HTML字符串.

def filter_tags(htmlstr):

#先过滤CDATA

    re_cdata=re.compile('//<!\[CDATA\[[^>]*//\]\]>',re.I) #匹配CDATA

    re_script=re.compile('<\s*script[^>]*>[^<]*<\s*/\s*script\s*>',re.I)#Script

    re_style=re.compile('<\s*style[^>]*>[^<]*<\s*/\s*style\s*>',re.I)#style

    re_br=re.compile('<br\s*?/?>')#处理换行

    re_h=re.compile('</?\w+[^>]*>')#HTML标签

    re_comment=re.compile('<!--[^>]*-->')#HTML注释

    s=re_cdata.sub('',htmlstr)#去掉CDATA

    s=re_script.sub('',s) #去掉SCRIPT

    s=re_style.sub('',s)#去掉style

    s=re_br.sub('\n',s)#将br转换为换行

    s=re_h.sub('',s) #去掉HTML 标签

    s=re_comment.sub('',s)#去掉HTML注释

#去掉多余的空行

    blank_line=re.compile('\n+')

    s=blank_line.sub('\n',s)

    s=replaceCharEntity(s)#替换实体

return s

##替换常用HTML字符实体.

#使用正常的字符替换HTML中特殊的字符实体.

#你可以添加新的实体字符到CHAR_ENTITIES中,处理更多HTML字符实体.

#@param htmlstr HTML字符串.

def replaceCharEntity(htmlstr):

    CHAR_ENTITIES={'nbsp':' ','160':' ',

'lt':'<','60':'<',

'gt':'>','62':'>',

'amp':'&','38':'&',

'quot':'"','34':'"',}

    re_charEntity=re.compile(r'&#?(?P<name>\w+);')

    sz=re_charEntity.search(htmlstr)

while sz:

        entity=sz.group()#entity全称，如>

        key=sz.group('name')#去除&;后entity,如>为gt

try:

            htmlstr=re_charEntity.sub(CHAR_ENTITIES[key],htmlstr,1)

            sz=re_charEntity.search(htmlstr)

except KeyError:

#以空串代替

            htmlstr=re_charEntity.sub('',htmlstr,1)

            sz=re_charEntity.search(htmlstr)

return htmlstr

def repalce(s,re_exp,repl_string):

return re_exp.sub(repl_string,s)

if __name__=='__main__':

    s=file('Google.htm').read()

    news=filter_tags(s)

print news

# -*- coding: utf--*-

import re

##过滤HTML中的标签

#将HTML中标签等信息去掉

#@param htmlstr HTML字符串.

def filter_tags(htmlstr):

#先过滤CDATA

    re_cdata=re.compile('//<!\[CDATA\[[^>]*//\]\]>',re.I) #匹配CDATA

    re_script=re.compile('<\s*script[^>]*>[^<]*<\s*/\s*script\s*>',re.I)#Script

    re_style=re.compile('<\s*style[^>]*>[^<]*<\s*/\s*style\s*>',re.I)#style

    re_br=re.compile('<br\s*?/?>')#处理换行

    re_h=re.compile('</?\w+[^>]*>')#HTML标签

    re_comment=re.compile('<!--[^>]*-->')#HTML注释

    s=re_cdata.sub('',htmlstr)#去掉CDATA

    s=re_script.sub('',s) #去掉SCRIPT

    s=re_style.sub('',s)#去掉style

    s=re_br.sub('\n',s)#将br转换为换行

    s=re_h.sub('',s) #去掉HTML 标签

    s=re_comment.sub('',s)#去掉HTML注释

#去掉多余的空行

    blank_line=re.compile('\n+')

    s=blank_line.sub('\n',s)

    s=replaceCharEntity(s)#替换实体

return s

##替换常用HTML字符实体.

#使用正常的字符替换HTML中特殊的字符实体.

#你可以添加新的实体字符到CHAR_ENTITIES中,处理更多HTML字符实体.

#@param htmlstr HTML字符串.

def replaceCharEntity(htmlstr):

    CHAR_ENTITIES={'nbsp':' ','':' ',

'lt':'<','':'<',

'gt':'>','':'>',

'amp':'&','':'&',

'quot':'"','':'"',}

    re_charEntity=re.compile(r'&#?(?P<name>\w+);')

    sz=re_charEntity.search(htmlstr)

while sz:

        entity=sz.group()#entity全称，如&gt;

        key=sz.group('name')#去除&;后entity,如&gt;为gt

try:

            htmlstr=re_charEntity.sub(CHAR_ENTITIES[key],htmlstr,)

            sz=re_charEntity.search(htmlstr)

except KeyError:

#以空串代替

            htmlstr=re_charEntity.sub('',htmlstr,)

            sz=re_charEntity.search(htmlstr)

return htmlstr

def repalce(s,re_exp,repl_string):

return re_exp.sub(repl_string,s)

if __name__=='__main__':

    s=file('Google.htm').read()

    news=filter_tags(s)

print news

python中的网页标签等字符处理的更多相关文章

python中是否有单独的字符类型，通过下标的方式表示字符串中的字符
说明: 在python中,没有单独的字符类型,一个字符呢就是一个大小为1的字符串. 并且可以通过下标的方式,表示字符串中的字符. 操作过程: 1.通过[ ]的方式表示字符串中的第几个字符 >&g ...
Python中过滤HTML标签的函数
#用正则简单过滤html的<>标签 import re str = "<img /><a>srcd</a>hello</br>&l ...
Python爬虫解析网页的4种方式值得收藏
用Python写爬虫工具在现在是一种司空见惯的事情,每个人都希望能够写一段程序去互联网上扒一点资料下来,用于数据分析或者干点别的事情. 我们知道,爬虫的原理无非是把目标网址的内容下载下来存储到内存 ...
Python中使用正则表达式获取两个字符中间部分
问题背景:当我们爬取网页信息时,对于一些标签的提取是没有意义的,所以需要提取标签中间的信息. 解决办法:用到了re包下的函数方法1:用到了research()方法和group()方法方法2:用到了 ...
【整理】Python中实际上已经得到了正确的Unicode或某种编码的字符，但是看起来或打印出来却是乱码
转自:http://www.crifan.com/python_already_got_correct_encoding_string_but_seems_print_messy_code/ [背景] ...
Python学习笔记（2.2）Python中的字符编码问题及标准数据类型之String（字符串）
Python3中的String类型首先,Python中没有字符类型,只有字符串类型.单个字符按照长度为1的字符串处理,这对于曾是OIER的我来说有点不适应啊. 字符串的表示方法最常用的就是用一对双 ...
在Python中使用BeautifulSoup进行网页爬取
目录什么是网页抓取? 为什么我们要从互联网上抓取数据? 网站采集合法吗? HTTP请求/响应模型创建网络爬虫步骤1:浏览并检查网站/网页步骤2:创建用户代理步骤3:导入请求库检查状态码步 ...
Python中的字符串与字符编码
本节内容: 前言相关概念 Python中的默认编码 Python2与Python3中对字符串的支持字符编码转换一.前言 Python中的字符编码是个老生常谈的话题,同行们都写过很多这方面的文章. ...
HTML之：让网页中的<a>标签属性统一设置-如‘新窗口打开’
在开发过程中,我们往往想在页面中,给<a>设置一个统一的默认格式,例如我们想让链接:“在新窗口打开”,我们就可以使用<base>标签在网页中添加这段代码: <head& ...

随机推荐

Mysql学习总结（12）——21分钟Mysql入门教程
21分钟 MySQL 入门教程目录一.MySQL的相关概念介绍二.Windows下MySQL的配置配置步骤 MySQL服务的启动.停止与卸载三.MySQL脚本的基本组成四.MySQL中的数 ...
MySQL用Load Data local infile 导入部分数据后中文乱码
今天在两台MySQL服务器之间导数据,因为另一个MySQL服务器是测试用的,差一个月的数据,从现有MySQL服务器select到一个文件,具体语句是: select * from news where ...
服务器监控(包括性能指标与web应用程序)
http://blog.csdn.net/yao123long/article/details/53142029 http://blog.csdn.net/heyongluoyao8/article/ ...
Git的基本设置
进入虚拟机环境中:首先我们对 Git 进行用户名和邮箱进行设置,请参照下面格式,替换为你自己常用的用户名和邮箱来完成设置: $ git config --global user.name " ...
POJ 1673
可以证明O是三角形ABC的垂心. 作图辅助线,一个很重要的技巧是延长中线等中线. 可以证明三角形DNA全等于ABC.然后通过角度变换容易证明AQ垂直于BC. #include <iostream ...
【转】Unix下C程序内存泄漏检测工具Valgrind安装与使用
Valgrind是一款用于内存调试.内存泄漏检测以及性能分析的软件开发工具. Valgrind的最初作者是Julian Seward,他于2006年由于在开发Valgrind上的工作获得了第二届Goo ...
php pdo操作
PDO(PHP Data Object) 是PHP 5 中加入的东西,是PHP 5新加入的一个重大功能,因为在PHP 5以前的php4/php3都是一堆的数据库扩展来跟各个数据库的连接和处理,什么 p ...
UVA-10347 Medians 计算几何中线定理
题面题意:已知三角形三中线的长度nmp,求面积题解:如果知道中线定理就比较简单了三边长为 3*a=sqrt(8*mb*mb+8*mc*mc-4*ma*ma) 3*b=sqrt(8*ma*ma+8 ...
UVA-1335(UVALive-3177) Beijing Guards 贪心二分
题面题意:有n个人为成一个圈,其中第i个人想要r[i]种不同的礼物,相邻的两个人可以聊天,炫耀自己的礼物.如果两个相邻的人拥有同一种礼物,则双方都会很不高兴,问最少需要多少种不同的礼物才能满足所有人 ...
向量叉乘 Cross product
参考:Wiki Cross product

python中的网页标签等字符处理

python中的网页标签等字符处理的更多相关文章

随机推荐

热门专题