python爬虫爬取页面源码在本页面展示

python爬虫在爬取网页内容时，需要将内容连同内容格式一同爬取过来，然后在自己的web页面中显示，自己的web页面为django框架

首先定义一个变量html，变量值为一段HTML代码

>>> print(html)

<div id=1>

 &nbsp;&nbsp;my <br>

 &nbsp; name <br>

 is &nbsp; JAY <br>

 </div>

，我们现在要取div里面的内容，在自己的web页面中显示，空格和换行符等都以HTML代码的形式抓取。最终想要的数据为

  my <br>

  name <br>

is   JAY <br>

（1）首先soup.string是不行的，因为div下面不止一个子标签

>>> from bs4 import BeautifulSoup

>>> soup = BeautifulSoup(html, 'html.parser')

>>> soup.string

>>>

可以看到返回值为空

（2）使用get_text()也是不行的，因为get_text()获取的字符串都是转义后的，我们要的是原生的HTML代码

>>> soup.get_text()

' \n \xa0\xa0my  \n \xa0 name \n is \xa0 JAY \n'

不过get_text()在其他很多场合很实用，它可以获取标签下的所有子孙标签内的文本内容

同时可以指定参数

>>> soup.get_text('|')  #所有tag文本内容的分隔符

' \n \xa0\xa0my | \n \xa0 name |\n is \xa0 JAY |\n'

>>> soup.get_text('|', strip=True)   #去掉文本内容前后的空白

'my|name|is \xa0 JAY'

或者使用soup.stripped_strings生成器，获取文本内容手动处理

（3）可以使用.contents

>>> content_soup = soup.div.contents

>>> content_soup

[' \n \xa0\xa0my ', <br/>, ' \n \xa0 name ', <br/>, '\n is \xa0 JAY ', <br/>, '\n']

>>> content_soup = [str(i) for i in content_soup]   #列表中的所有值改换为字符串类型

>>> content_text = ''.join(content_soup)     #合并列表到一个字符串中

>>> content_text

' \n \xa0\xa0my <br/> \n \xa0 name <br/>\n is \xa0 JAY <br/>\n'

>>> print(content_text)

   my <br/>

   name <br/>

 is   JAY <br/>

至此，就可以直接将变量放到web页面中

python爬虫爬取页面源码在本页面展示的更多相关文章

UI自动化之特殊处理四（获取元素属性\爬取页面源码\常用断言）
获取元素属性\爬取页面源码\常用断言,最终目的都是为了验证我们实际结果是否等于预期结果目录 1.获取元素属性 2.爬取页面源码 3.常用断言 1.获取元素属性获取title:driver.titl ...
Python爬虫爬取搜狗搜索到的内容页面
废话不多说,直接上代码 import requests def main(): url='https://www.sogou.com/web' headers={ 'User_Agent':'Mozi ...
Python爬虫爬取全书网小说，程序源码+程序详细分析
Python爬虫爬取全书网小说教程第一步:打开谷歌浏览器,搜索全书网,然后再点击你想下载的小说,进入图一页面后点击F12选择Network,如果没有内容按F5刷新一下点击Network之后出现如下 ...
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
一个简单的python爬虫,爬取知乎
一个简单的python爬虫,爬取知乎主要实现爬取一个收藏夹里所有问题答案下的图片文字信息暂未收录,可自行实现,比图片更简单具体代码里有详细注释,请自行阅读项目源码: # -*- cod ...
Python爬虫|爬取喜马拉雅音频
"GOOD Python爬虫|爬取喜马拉雅音频喜马拉雅是知名的专业的音频分享平台,用户规模突破4.8亿,汇集了有声小说,有声读物,儿童睡前故事,相声小品等数亿条音频,成为国内发展最快.规模 ...
python爬虫—爬取英文名以及正则表达式的介绍
python爬虫—爬取英文名以及正则表达式的介绍爬取英文名: 一. 爬虫模块详细设计 (1)整体思路对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个cs ...
Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...
用Python爬虫爬取广州大学教务系统的成绩（内网访问）
用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code ...

随机推荐

【补充】第一次个人项目出现的bug
新程序包下载(密码:4kp6) >>>>>直接上代码,问题出在随机分数的生成上,确实出现了一些非常鱼唇的错误,不过已经提交了就没办法了,在这里发出来仅供参考吧: 修改前: ...
Linux内核设计第十七章笔记
第十七章设备与模块关于设备驱动和设备管理,四种内核成分设备类型:在所有unix系统中为了统一普通设备的操作所采用的分类模块:Linux内核中用于按需加载和卸载目标代码的机制内核对象:内核数据 ...
Java面向对象（Eclipse高级、类与接口作为参数返回值）
面向对象今日内容介绍 u Eclipse常用快捷键操作 u Eclipse文档注释导出帮助文档 u Eclipse项目的jar包导出与使用jar包 u 不同修饰符混合使用细节 u 辨析何时定义变 ...
Flask-论坛开发-1-基础知识
对Flask感兴趣的,可以看下这个视频教程:http://study.163.com/course/courseLearn.htm?courseId=1004091002 1. 第一个 flask 程 ...
[转载] 虚拟机下面安装windows+oracle ASM的过程
转帖:https://www.2cto.com/database/201303/195261.html 最开始的时候我找了一个挺好的教程安装过但是已经找不到了,先转载一下这个内容,后续再测试完善 ...
WebAssembly是什么？
现在的JavaScript代码要进行性能优化,通常使用一些常规手段,如:延迟执行.预处理.setTimeout等异步方式避免处理主线程,高大上一点的会使用WebWorker.即使对于WebWorker ...
flask+mako+peewee(下)(解决了Error 2006: MySQL server has gone away)
这篇主要介绍在这次项目中使用的peewee 文档地址:http://peewee.readthedocs.org/en/latest/index.html 首先我们要初始化一个数据库连接对象.这里我使 ...
PHP常用工具类积累
第一请求第三方接口的工具类例如,封装了get和post请求方法的工具类,代码如下: <?php class HttpClient{ /** * HttpClient * @param arr ...
使用pygal_maps_world.i18n中数据画各大洲地图
源码: # 使用pygal_maps_world.i18n中数据画各大洲地图 from pygal_maps_world.i18n import ASIA from pygal_maps_world ...
JavaScript & Dom 之基本语法
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...

python爬虫爬取页面源码在本页面展示

python爬虫爬取页面源码在本页面展示的更多相关文章

随机推荐

热门专题