网页爬虫--python3.6+selenium+BeautifulSoup实现动态网页的数据抓取，适用于对抓取频率不高的情况

说在前面：本文主要介绍如何抓取页面加载后需要通过JS加载的数据和图片

本文是通过python中的selenium（pyhton包） + chrome（谷歌浏览器） + chromedrive（谷歌浏览器驱动）

chrome 和chromdrive建议都下最新版本（参考地址：https://blog.csdn.net/yoyocat915/article/details/80580066）

同样支持无头模式（不需要打开浏览器）

直接上代码：site_url：需要爬取的地址，CHROME_DRIVER_PATH：chromedrive存放地址

 def get_dynamic_html(site_url):
     print('开始加载',site_url,'动态页面')
     chrome_options = webdriver.ChromeOptions()
     #ban sandbox
     chrome_options.add_argument('--no-sandbox')
     chrome_options.add_argument('--disable-dev-shm-usage')
     #use headless，无头模式
     chrome_options.add_argument('--headless')
     chrome_options.add_argument('--disable-gpu')
     chrome_options.add_argument('--ignore-ssl-errors')
     driver = webdriver.Chrome(executable_path=CHROME_DRIVER_PATH,chrome_options=chrome_options)
     #print('dynamic laod web is', site_url)
     driver.set_page_load_timeout(100)
     #driver.set_script_timeout(100)
     try:
         driver.get(site_url)
     except Exception as e:
         #driver.execute_script('window.stop()')  # 超出时间则不加载
         print(e, 'dynamic web load timeout')
     data = driver.page_source
     soup = BeautifulSoup(data, 'html.parser')
     try:
         driver.quit()
     except:
         pass
     return soup

返回的一个soup，这样可以对这个soup进行搜索节点，使用select，search，find等方法找到你想要的节点或者数据

同样如果你想变成文本下载下来，则

 try:
         with open(xxx.html, 'w+', encoding="utf-8") as f:
             #print ('html content is:',content)
             f.write(get_dynamic_html('https://xxx.com').prettify())
             f.close()
     except Exception as e:
         print(e)

下面详细说一下，beautifusoup的搜索

首先如何定位到一个标签

1.使用 find （这位博主详细介绍了https://www.jb51.net/article/109782.htm）

find() 返回匹配第一个：如soup.find(name='ul',attrs={class:'hh'}) 返回第一个 class='hh'的ul
find_all() 返回全部
find_parent() 搜索父标签，返回第一个
find_parents()搜索父标签，返回全部
find_next_sibling()返回下一个同级标签
find_next_siblings()
find_previous_sibling() 返回上一个同级标签
find_previous()返回前面的标签
find_all_previous()
find_next()返回后面的标签
find_all_next()

2.使用select

通过标签名，类名，id 类似 Jquery的选择器如 soup.select('p .link #link1') 选择定位到 <p class='link' id='link1'></p>

通过属性查找，如href ，title，link等属性，如 soup.select('p a[href="http://example.com/elsie"]')

这里匹配到的是最小的 <a href='http://example.com/elsie'></a> 并且他的上级为<p></p>

然后说一下对节点的操作

　　删除节点tag.decompose()

　　在指定位置插入子节点 tag.insert(0,chlid_tag)

最后通过beautifusoup是筛选元素的一种好的方法，下篇我们介绍正则表达式匹配筛选爬虫内容

网页爬虫--python3.6+selenium+BeautifulSoup实现动态网页的数据抓取，适用于对抓取频率不高的情况的更多相关文章

爬虫进阶之Selenium和chromedriver,动态网页（Ajax）数据抓取
什么是Ajax: Ajax(Asynchronouse JavaScript And XML)异步JavaScript和XML.过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新.这意 ...
【音乐爬虫】Python爬虫-selenium+browsermob-proxy 解决动态网页 js渲染问题
1.一般的python爬虫很简单,直接请求对应网址,解析返回的数据即可,但是有很多网站的数据的js动态渲染的,你直接请求是得不到对应的数据的这时就需要其它手段来处理了. 2.以一个例子来说明,整个过 ...
python爬虫之requests+selenium+BeautifulSoup
前言: 环境配置:windows64.python3.4 requests库基本操作: 1.安装:pip install requests 2.功能:使用 requests 发送网络请求,可以实现跟浏 ...
python网页爬虫开发之六-Selenium使用
chromedriver禁用图片,禁用js,切换UA selenium 模拟chrome浏览器,此时就是一个真实的浏览器,一个浏览器该加载的该渲染的它都加载都渲染,所以爬取网页的速度很慢.如果可以不加 ...
python爬取动态网页数据，详解
原理:动态网页,即用js代码实现动态加载数据,就是可以根据用户的行为,自动访问服务器请求数据,重点就是:请求数据,那么怎么用python获取这个数据了? 浏览器请求数据方式:浏览器向服务器的api(例 ...
第三章 Django之动态网页基础（1）
前一章中,我们解释了如何建立一个 Django 项目并启动 Django 开发服务器.当然,那个网站实际并没有干什么有用的事情,它所做的只是显示 It worked!消息.让我们来做些改变.本章将介绍 ...
在python使用selenium获取动态网页信息并用BeautifulSoup进行解析--动态网页爬虫
爬虫抓取数据时有些数据是动态数据,例如是用js动态加载的,使用普通的urllib2 抓取数据是找不到相关数据的,这是爬虫初学者在使用的过程中,最容易发生的情况,明明在浏览器里有相应的信息,但是在pyt ...
Python开发爬虫之动态网页抓取篇：爬取博客评论数据——通过Selenium模拟浏览器抓取
区别于上篇动态网页抓取,这里介绍另一种方法,即使用浏览器渲染引擎.直接用浏览器在显示网页时解析 HTML.应用 CSS 样式并执行 JavaScript 的语句. 这个方法在爬虫过程中会打开一个浏览器 ...
爬虫---selenium动态网页数据抓取
动态网页数据抓取什么是AJAX: AJAX(Asynchronouse JavaScript And XML)异步JavaScript和XML.过在后台与服务器进行少量数据交换,Ajax 可以使网页 ...

随机推荐

redis：乐观锁（十）
监视:watch 正常业务(单线程): 127.0.0.1:6379> set money 100 #模拟存款100元 OK 127.0.0.1:6379> set moneyout 0 ...
wordpress 常用操作
删除主题在主题目录 wp-content/themes 中直接删除即可. 首页和文章页使用不同主题首页使用sidebar,文章页不使用sidebar,这样文章的内容可以占更宽的页面安装插件 Mu ...
痞子衡嵌入式：大话双核i.MXRT1170之Cortex-M7与Cortex-M4互相激活之道
大家好,我是痞子衡,是正经搞技术的痞子.今天痞子衡给大家分享的是恩智浦i.MXRT1170上Cortex-M7与Cortex-M4内核互相激活的方法. 痞子衡最近在深耕i.MXRT1170这颗划时代的 ...
【AspNetCore源码】设计模式 - 提供者模式
AspNetCore源代码发现日志模块的设计模式(提供者模式),特此记录学习设计模式的好处是,我们可以容易扩展它达到我们要求,除了要知道如何扩展它,还应该在其他地方应用它类图 & 分析角 ...
tp5--相对路径和绝对路径
首先,我们要先明白相对路径和绝对路径的理论: 绝对路径:是从盘符开始的路径,形如C:\windows\system32\cmd.exe相对路径:是从当前路径开始的路径,假如当前路径为C:\window ...
2019-2020-1 20199310《Linux内核原理与分析》第八周作业
1.问题描述在前面的文章中,学习了在Linux系统之中如何创建一个新进程进行追踪,本文将围绕编译链接的过程和ELF可执行文件格式,对Linux内核装载和启动一个可执行程序. 2.解决过程 2.1 E ...
js 实现淘宝无缝轮播图效果，可更改配置参数带完整版解析代码[slider.js]
前言: 本人纯小白一个,有很多地方理解的没有各位大牛那么透彻,如有错误,请各位大牛指出斧正!小弟感激不尽. 本篇文章为您分析一下原生JS写淘宝无缝轮播图效果需求分析: ...
什么是最好的在线UML软件工具？
在线UML软件工具允许您创建UML图表,而UML绘图工具可帮助维护您的建模工件并促进不同图表中元素的可重用性.一些UML建模工具还提供复杂的建模功能,例如模型转换,报告,代码工程等. 如果您正在寻找U ...
【阅读笔记】Ranking Relevance in Yahoo Search （四 / 完结篇）—— recency-sensitive ranking
7. RECENCY-SENSITIVE RANKING 作用: 为recency-sensitive的query提高排序质量: 对于这类query,用户不仅要相关的还需要最新的信息: 方法:rece ...
数学--数论--HDU - 6322 打表找规律
In number theory, Euler's totient function φ(n) counts the positive integers up to a given integer n ...

网页爬虫--python3.6+selenium+BeautifulSoup实现动态网页的数据抓取，适用于对抓取频率不高的情况

网页爬虫--python3.6+selenium+BeautifulSoup实现动态网页的数据抓取，适用于对抓取频率不高的情况的更多相关文章

随机推荐

热门专题