Python3正则去掉HTML标签

1.引用一段代码

import re

html = '<pre class="line mt-10 q-content" accuse="qContent">\

目的是通过第一次soup.find按class粗略筛选并通过soup.find_all筛选出列表中的a标签并读入href和title属性<br><br>\

但是由于目标链接可能有图片链接,而这是我不想要的.请问如何去除?<br></pre>'

reg = re.compile('<[^>]*>')

print(reg.sub('',html))

2.重点

reg = re.compile('<[^>]*>')

print(reg.sub('',html))

3.实例

开始

import requests

import re

from bs4 import BeautifulSoup

retxt=open('test.log','r')

for x in range(250,999):

    #rurl=rurl.strip('\n')

    url='http://ananas.mooc1.mti100.com/tologin?fid={0}'.format(x)

    #print(url)

    try:

        response=requests.get(url,timeout=1).text

        #print(response)

        soup=BeautifulSoup(response,features="lxml")

        result=soup.find_all('span',attrs={'class':'l_schoolName2'})

        print('学校：{0}'.format(result))

    except requests.exceptions.InvalidURL:

        pass

    except requests.exceptions.ConnectionError:

        pass

    except requests.exceptions.ReadTimeout:

        pass

输出

学校：[<span class="l_schoolName2" id="schoolName2">

                                杭州师范大学

                        </span>]

学校：[<span class="l_schoolName2" id="schoolName2">

去除标签之后

import requests

import re

from bs4 import BeautifulSoup

#retxt=open('test.log','r')

for x in range(250,999):

    #rurl=rurl.strip('\n')

    url='http://ananas.mooc1.mti100.com/tologin?fid={0}'.format(x)

    #print(url)

    try:

        response=requests.get(url,timeout=1).text

        #print(response)

        soup=BeautifulSoup(response,features="lxml")

        result=soup.find_all('span',attrs={'class':'l_schoolName2'})

        reg=re.compile('<[^>]*>',re.S)

        print('学校：{0}'.format(reg.sub('',str(result))))

    except requests.exceptions.InvalidURL:

        pass

    except requests.exceptions.ConnectionError:

        pass

    except requests.exceptions.ReadTimeout:

        pass

输出

学校：[]

学校：[]

学校：[

                                上海电子信息职业技术学院

                        ]

学校：[]

学校：[

                                超星大学

Python3正则去掉HTML标签的更多相关文章

正则去掉html标签之间的空格、换行符、tab符，但是保留html标签内部的属性空格
今天遇到一个比较少见的去空格: 正则去掉html标签之间的空格.换行符.tab符,但是保留html标签内部的属性空格 JS 举例: "<a href='baidu.com' name= ...
正则去掉img标签的style样式
$body = '<div style="width:100px; height:20px;"><img alt="test" src=&qu ...
正则去掉html标签
return System.Text.RegularExpressions.Regex.Replace(HTMLStr, "<[^>]*>", "&qu ...
正则去掉 html标签
var htmlStr='<p class="cjk" style="margin-bottom: 0cm; line-height: 16px;"> ...
python去掉html标签
s = '<SPAN style="FONT- SIZE: 9pt">开始1~3<SPAN lang=EN-US>& lt;?xml:namespa ...
Python:使用正则去除HTML标签(转)
利用正则式处理,不知道会不会有性能问题,没有经过太多测试. 目前我有很多还是使用BeautifulSoup进行这种处理. HTML实体处理的只是用于处理一些常用的实体. # -*- coding: u ...
js去掉html标签和去掉字符串文本的所有的空格
去掉html标签的js <script> function delHtmlTag(str){ return str.replace(/<[^>]+>/g,"& ...
java去掉jsp标签内容的方法
//去掉内容的标签 public static String removeTag(String count){ try { int tagCheck=-1; do { i ...
css去掉a标签点击后的虚线框,outline,this.blur()
css去掉a标签点击后的虚线框,outline,this.blur() outline是css3的一个属性,用的很少.声明,这是个不能兼容的css属性,在ie6.ie7.遨游浏览器都不兼容. outl ...

随机推荐

Redis系列(二)：Redis的5种数据结构及其常用命令
上一篇博客,我们讲解了什么是Redis以及在Windows和Linux环境下安装Redis的方法, 没看过的同学可以点击以下链接查看: Redis系列(一):Redis简介及环境安装. 本篇博客我们来 ...
c#数字图像处理（十二）图像的腐蚀与膨胀
背景知识腐蚀与膨胀基本原理:就是用一个特定的结构元素来与待处理图像按像素做逻辑操作:可以理解成拿一个带孔的网格板(结构元素矩阵中元素为1的为孔)盖住图像的某一部分,然后按照各种不同的观察方式来确定操 ...
winform dataGridView 点击列标题排序
winform手动绑定数据后,点击列标题不能实现自动排序,苦苦寻找方法,发现下面的是可行的. //建立DataTable将当前dataGridView中的数据读进DataTable中 public D ...
swoole(PHP异步网络通信引擎)的结构和运行流程
swoole结构说明和运行流程主要分为三个部分: 1.Master:swoole的主进程处理swoole核心的事件驱动, 它包含多个线程(蓝色Reactor), 所有事件的监听都在Reactor实 ...
百度ai 接口调用
1.百度智能云 2.右上角管理控制台 3.左上角产品服务选择应用 4.创建应用 5.应用详情下面的查看文档 6.选择pythonSDK 查看下面快速入门文档和接口说明文档. 7.按步骤写 ...
Cassandra2.2.10安装过程
1. 2.安装JVM 3.OS环境配置: 关闭防火墙:service iptables stop vi /etc/sysctl.conf vm.zone_reclaim_mode=0 vm.max_m ...
C语言创建文件
问题需求:使用程序创建一个文件(当该文件不存在时则创建). 代码如下: // 创建文件 void CreateFile() { //文件指针 FILE *fileP; char fileName[] ...
《ASP.NET Core 高性能系列》静态文件中间件
一.概述静态文件(如 HTML.CSS.图片和 JavaScript等文件)是 Web程序直接提供给客户端的直接加载的文件. 较比于程序动态交互的代码而言,其实原理都一样(走Http协议), ASP ...
Vue methods,watch,computed的区别
1. computed(计算属性) 计算属性的结果会被缓存,除非依赖的响应式属性变化才会重新计算.注意,如果某个依赖 (比如非响应式属性) 在该实例范畴之外,则计算属性是不会被更新的. eg: < ...
找python爬虫小项目？github给你准备好了！
前言即使我们都是程序员,但我们也并非都会修电脑,都会做酷炫的ppt,都会优化系统卡顿.其实程序员也是分行业.分专业的,就像医生也分内外科.呼吸科.神经科神的. 作为非专业的python选手,或者非专 ...

Python3正则去掉HTML标签

Python3正则去掉HTML标签

Python3正则去掉HTML标签的更多相关文章

随机推荐

热门专题