二十九 Python分布式爬虫打造搜索引擎Scrapy精讲—selenium模块是一个python操作浏览器软件的一个模块，可以实现js动态网页请求

selenium模块

selenium模块为第三方模块需要安装，selenium模块是一个操作各种浏览器对应软件的api接口模块

selenium模块是一个操作各种浏览器对应软件的api接口模块，所以还得需要下载对应浏览器的操作软件

操作原理是：selenium模块操作浏览器操作软件，浏览器操作软件操作浏览器

Selenium 2.0适用于以下浏览器
　　Google Chrome
　　Internet Explorer 7, 8, 9, 10, 11
　　Firefox
　　Safari
　　Opera
　　HtmlUnit
　　phantomjs
　　Android
　　iOS

Selenium 的核心，就是用js控制浏览器

下载对应浏览器的浏览器操作软件

Chrome: https://sites.google.com/a/chromium.org/chromedriver/downloads
Edge: https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver/
Firefox: https://github.com/mozilla/geckodriver/releases
Safari: https://webkit.org/blog/6900/webdriver-support-in-safari-10/

我们这里以火狐浏览器为列

首先将火狐浏览器的操作软件，geckodriver.exe文件放置到爬虫目录里

selenium模块可以模拟用户行为操作各种版本浏览器

webdriver.Firefox('操作浏览器软件路径')实例化火狐浏览器对象
get('url')访问网站
find_element_by_xpath('xpath表达式')通过xpath表达式找对应元素
clear()清空输入框里的内容
send_keys('内容')将内容写入输入框
click()点击事件
get_screenshot_as_file('截图保存路径名称')将网页截图，保存到此目录
page_source获取网页htnl源码
browser.close() 关闭浏览器

#!/usr/bin/env python

# -*- coding:utf8 -*-

from selenium import webdriver  # 导入selenium模块来操作浏览器软件

import time

browser = webdriver.Firefox(executable_path='H:/py/16/adc/adc/Firefox/geckodriver.exe')

browser.get('https://www.tmall.com/?spm=a220o.1000855.a2226mz.1.5c90c3484bZCx6')

# 模拟用户操作

browser.find_element_by_xpath('//input[@id="mq"]').clear()                 # 通过xpath表达式找到输入框，clear()清空输入框里的内容

browser.find_element_by_xpath('//input[@id="mq"]').send_keys('连衣裙')     # 通过xpath表达式找到输入框，send_keys()将内容写入输入框

browser.find_element_by_xpath('//button[@type="submit"]').click()          # 通过xpath表达式找到搜索按钮,click()点击事件

time.sleep(3)   # 等待3秒

browser.get_screenshot_as_file('H:/py/17/img/123.jpg')  # 将网页截图，保存到此目录

neir = browser.page_source   # 获取网页内容

print(neir)

browser.close()     # 关闭浏览器

利用scrapy的Selector方法。来过滤帅选数据

Selector()方法,过滤帅选数据,参数是得到的字符串html源码

#!/usr/bin/env python

# -*- coding:utf8 -*-

from selenium import webdriver  # 导入selenium模块来操作浏览器软件

import time

from scrapy.selector import Selector

browser = webdriver.Firefox(executable_path='H:/py/16/adc/adc/Firefox/geckodriver.exe')

browser.get('https://www.tmall.com/?spm=a220o.1000855.a2226mz.1.5c90c3484bZCx6')

# 模拟用户操作

browser.find_element_by_xpath('//input[@id="mq"]').clear()                 # 通过xpath表达式找到输入框，clear()清空输入框里的内容

browser.find_element_by_xpath('//input[@id="mq"]').send_keys('连衣裙')     # 通过xpath表达式找到输入框，send_keys()将内容写入输入框

browser.find_element_by_xpath('//button[@type="submit"]').click()          # 通过xpath表达式找到搜索按钮,click()点击事件

time.sleep(3)   # 等待3秒

browser.get_screenshot_as_file('H:/py/17/img/123.jpg')  # 将网页截图，保存到此目录

neir = browser.page_source   # 获取网页内容

# print(neir)

gl_neir = Selector(text=neir)

dedao = gl_neir.css('title::text').extract()

print(dedao)

browser.close()     # 关闭浏览器

selenium操作浏览器滚动滚动条

execute_script(js)方法，执行原生态js脚本

#!/usr/bin/env python

# -*- coding:utf8 -*-

from selenium import webdriver  # 导入selenium模块来操作浏览器软件

import time

from scrapy.selector import Selector

browser = webdriver.Firefox(executable_path='H:/py/16/adc/adc/Firefox/geckodriver.exe')

browser.get('https://www.oschina.net/blog')

time.sleep(3)       # 等待3秒

for i in range(3):  # 滚动3次滚动条

    js = 'window.scrollTo(0,document.body.scrollHeight); var lenofpage=document.body.scrollHeight; return lenofpage'

    browser.execute_script(js)  # 执行js语言滚动滚动条

    time.sleep(3)

neir = browser.page_source   # 获取网页内容

# print(neir)

gl_neir = Selector(text=neir)

dedao = gl_neir.css('title::text').extract()

print(dedao)

# browser.close()     # 关闭浏览器

设置请求网页不加载图片，提高请求效率
ChromeOptions()方法，创建谷歌浏览器设置对象
Chrome()方法，创建谷歌浏览器对象

下面以谷歌浏览器为列

#!/usr/bin/env python

# -*- coding:utf8 -*-

from selenium import webdriver  # 导入selenium模块来操作浏览器软件

from scrapy.selector import Selector

#设置请求网页不加载图片，提高请求效率

chrome_options = webdriver.ChromeOptions()                          #创建谷歌浏览器设置对象

prefs = {"profile.managed_default_content_settings.images": 2}      #设置谷歌浏览器不加载图片

chrome_options.add_experimental_option('prefs', prefs)              #将不加载图片添加到浏览器

browser = webdriver.Chrome(executable_path='H:/py/16/adc/adc/Firefox/chromedriver.exe', chrome_options=chrome_options)

# browser.set_page_load_timeout(40) #设置页面最长加载时间为40s

browser.get('https://www.taobao.com/')

neir = browser.page_source   # 获取网页内容

# print(neir)

gl_neir = Selector(text=neir)

dedao = gl_neir.css('title::text').extract()

print(dedao)

# browser.close()     # 关闭浏览器

selenium模块还可以操作PhantomJS浏览器，PhantomJS是一个无界面浏览器，比较清爽，但是多线程是性能会下降

重点：我们推荐使用chromedriver.exe，谷歌浏览器

二十九 Python分布式爬虫打造搜索引擎Scrapy精讲—selenium模块是一个python操作浏览器软件的一个模块，可以实现js动态网页请求的更多相关文章

第三百五十节，Python分布式爬虫打造搜索引擎Scrapy精讲—selenium模块是一个python操作浏览器软件的一个模块，可以实现js动态网页请求
第三百五十节,Python分布式爬虫打造搜索引擎Scrapy精讲—selenium模块是一个python操作浏览器软件的一个模块,可以实现js动态网页请求 selenium模块 selenium模块为 ...
第三百六十九节，Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)用Django实现搜索功能
第三百六十九节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)用Django实现搜索功能 Django实现搜索功能 1.在Django配置搜索结果页的路由映 ...
第三百五十九节，Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)介绍以及安装
第三百五十九节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)介绍以及安装 elasticsearch(搜索引擎)介绍 ElasticSearch是一个基于 ...
第三百四十九节，Python分布式爬虫打造搜索引擎Scrapy精讲—cookie禁用、自动限速、自定义spider的settings，对抗反爬机制
第三百四十九节,Python分布式爬虫打造搜索引擎Scrapy精讲—cookie禁用.自动限速.自定义spider的settings,对抗反爬机制 cookie禁用就是在Scrapy的配置文件set ...
第三百三十九节，Python分布式爬虫打造搜索引擎Scrapy精讲—Scrapy启动文件的配置—xpath表达式
第三百三十九节,Python分布式爬虫打造搜索引擎Scrapy精讲—Scrapy启动文件的配置—xpath表达式我们自定义一个main.py来作为启动文件 main.py #!/usr/bin/en ...
第三百七十节，Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)用Django实现搜索结果分页
第三百七十节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)用Django实现搜索结果分页逻辑处理函数计算搜索耗时在开始搜索前:start_time ...
第三百六十八节，Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)用Django实现搜索的自动补全功能
第三百六十八节,Python分布式爬虫打造搜索引擎Scrapy精讲—用Django实现搜索的自动补全功能 elasticsearch(搜索引擎)提供了自动补全接口官方说明:https://www.e ...
第三百六十六节，Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的bool组合查询
第三百六十六节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的bool组合查询 bool查询说明 filter:[],字段的过滤,不参与打分must:[] ...
第三百六十五节，Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的基本查询
第三百六十五节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的基本查询 1.elasticsearch(搜索引擎)的查询 elasticsearch是功能 ...

随机推荐

matplotlib对LaTeX数学公式的支持
Matlplotlib对LaTeX有一定的支持,如果记得使用raw字符串语法会很自然: xlabel(r"x2y4x2y4") 在matplotlib里面,可以使用LaTex的命令 ...
php 单线程（http://bbs.csdn.net/topics/390778072）
以前想php单线程,网站肯定是用于多人访问的,如果访问量大,那岂不是出现排队问题? apache+php是阻塞型处理,nginx+php是异步非阻塞的,php有进程管理器,fpm fcgi什么的.ph ...
xampp mac 版安装
欢迎光临 XAMPP 的 Mac OS X 版适用于 Mac OS X 的 XAMPP 是 Mac OS X 上最简单,最实用,也最完整的网络服务器解决方案.该发行版包括整合了最新的 MySQL.P ...
FileOutputStream写出数据实现换行和追加写入
FileOutputStream fos = fos = new FileOutputStream(Utils.getData(bizCtx,"strcat(getenv(HWORKDIR) ...
Linux进程管理 lsof命令：列出进程调用或打开的文件信息
lsof命令通过 ps 命令查询到系统中所有的进程, 通过lsof 命令可以知道这个进程到底在调用哪些文件.lsof 命令格式如下: [root@localhost ~]# lsof [选项] 选项 ...
Linux下C连接MySql数据库
目录: 一.解决小的问题: 二.大问题,如果你不小心把/usr/lib的所属用户改了导致sudo命令用不了: 三.C连接MySql编程本身: 其实写这个程序真的很简单,十多分钟的事情,只是以前没在Li ...
/usr/bin/ld: crti.o: No such file: No such file or directory
Problem : You are running a 64-bit linux system and trying to compile a 32-bit application and you g ...
解读：Hadoop序列化类
序列化(serialization)是指将结构化的对象转化字节流,以便在进程间通信或写入硬盘永久存储. 反序列化(deserialization)是指将字节流转回到结构化对象的过程. 需要注意的是,能 ...
vSphere SDK for Java 示例
示例代码: package com.vmware.event.connect; import java.net.MalformedURLException; import java.net.URL; ...
CSS控制滚动条的样式
到今天(2018年10月25日)为止, 这还是chrome上的一个实验性特性: ::-webkit-scrollbar{width:4px;height:4px;} ::-webkit-scrollb ...

二十九 Python分布式爬虫打造搜索引擎Scrapy精讲—selenium模块是一个python操作浏览器软件的一个模块，可以实现js动态网页请求

二十九 Python分布式爬虫打造搜索引擎Scrapy精讲—selenium模块是一个python操作浏览器软件的一个模块，可以实现js动态网页请求的更多相关文章

随机推荐

热门专题