第三百五十节，Python分布式爬虫打造搜索引擎Scrapy精讲—selenium模块是一个python操作浏览器软件的一个模块，可以实现js动态网页请求

第三百五十节，Python分布式爬虫打造搜索引擎Scrapy精讲—selenium模块是一个python操作浏览器软件的一个模块，可以实现js动态网页请求

selenium模块

selenium模块为第三方模块需要安装，selenium模块是一个操作各种浏览器对应软件的api接口模块

selenium模块是一个操作各种浏览器对应软件的api接口模块，所以还得需要下载对应浏览器的操作软件

操作原理是：selenium模块操作浏览器操作软件，浏览器操作软件操作浏览器

Selenium 2.0适用于以下浏览器
　　Google Chrome
　　Internet Explorer 7, 8, 9, 10, 11
　　Firefox
　　Safari
　　Opera
　　HtmlUnit
　　phantomjs
　　Android
　　iOS

Selenium 的核心，就是用js控制浏览器

下载对应浏览器的浏览器操作软件

Chrome: https://sites.google.com/a/chromium.org/chromedriver/downloads
Edge: https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver/
Firefox: https://github.com/mozilla/geckodriver/releases
Safari: https://webkit.org/blog/6900/webdriver-support-in-safari-10/

我们这里以火狐浏览器为列

首先将火狐浏览器的操作软件，geckodriver.exe文件放置到爬虫目录里

selenium模块可以模拟用户行为操作各种版本浏览器

webdriver.Firefox('操作浏览器软件路径')实例化火狐浏览器对象
get('url')访问网站
find_element_by_xpath('xpath表达式')通过xpath表达式找对应元素
clear()清空输入框里的内容
send_keys('内容')将内容写入输入框
click()点击事件
get_screenshot_as_file('截图保存路径名称')将网页截图，保存到此目录
page_source获取网页htnl源码
browser.close() 关闭浏览器

#!/usr/bin/env python

# -*- coding:utf8 -*-

from selenium import webdriver  # 导入selenium模块来操作浏览器软件

import time

browser = webdriver.Firefox(executable_path='H:/py/16/adc/adc/Firefox/geckodriver.exe')

browser.get('https://www.tmall.com/?spm=a220o.1000855.a2226mz.1.5c90c3484bZCx6')

# 模拟用户操作

browser.find_element_by_xpath('//input[@id="mq"]').clear()                 # 通过xpath表达式找到输入框，clear()清空输入框里的内容

browser.find_element_by_xpath('//input[@id="mq"]').send_keys('连衣裙')     # 通过xpath表达式找到输入框，send_keys()将内容写入输入框

browser.find_element_by_xpath('//button[@type="submit"]').click()          # 通过xpath表达式找到搜索按钮,click()点击事件

time.sleep(3)   # 等待3秒

browser.get_screenshot_as_file('H:/py/17/img/123.jpg')  # 将网页截图，保存到此目录

neir = browser.page_source   # 获取网页内容

print(neir)

browser.close()     # 关闭浏览器

利用scrapy的Selector方法。来过滤帅选数据

Selector()方法,过滤帅选数据,参数是得到的字符串html源码

#!/usr/bin/env python

# -*- coding:utf8 -*-

from selenium import webdriver  # 导入selenium模块来操作浏览器软件

import time

from scrapy.selector import Selector

browser = webdriver.Firefox(executable_path='H:/py/16/adc/adc/Firefox/geckodriver.exe')

browser.get('https://www.tmall.com/?spm=a220o.1000855.a2226mz.1.5c90c3484bZCx6')

# 模拟用户操作

browser.find_element_by_xpath('//input[@id="mq"]').clear()                 # 通过xpath表达式找到输入框，clear()清空输入框里的内容

browser.find_element_by_xpath('//input[@id="mq"]').send_keys('连衣裙')     # 通过xpath表达式找到输入框，send_keys()将内容写入输入框

browser.find_element_by_xpath('//button[@type="submit"]').click()          # 通过xpath表达式找到搜索按钮,click()点击事件

time.sleep(3)   # 等待3秒

browser.get_screenshot_as_file('H:/py/17/img/123.jpg')  # 将网页截图，保存到此目录

neir = browser.page_source   # 获取网页内容

# print(neir)

gl_neir = Selector(text=neir)

dedao = gl_neir.css('title::text').extract()

print(dedao)

browser.close()     # 关闭浏览器

selenium操作浏览器滚动滚动条

execute_script(js)方法，执行原生态js脚本

#!/usr/bin/env python

# -*- coding:utf8 -*-

from selenium import webdriver  # 导入selenium模块来操作浏览器软件

import time

from scrapy.selector import Selector

browser = webdriver.Firefox(executable_path='H:/py/16/adc/adc/Firefox/geckodriver.exe')

browser.get('https://www.oschina.net/blog')

time.sleep(3)       # 等待3秒

for i in range(3):  # 滚动3次滚动条

    js = 'window.scrollTo(0,document.body.scrollHeight); var lenofpage=document.body.scrollHeight; return lenofpage'

    browser.execute_script(js)  # 执行js语言滚动滚动条

    time.sleep(3)

neir = browser.page_source   # 获取网页内容

# print(neir)

gl_neir = Selector(text=neir)

dedao = gl_neir.css('title::text').extract()

print(dedao)

# browser.close()     # 关闭浏览器

设置请求网页不加载图片，提高请求效率
ChromeOptions()方法，创建谷歌浏览器设置对象
Chrome()方法，创建谷歌浏览器对象

下面以谷歌浏览器为列

#!/usr/bin/env python

# -*- coding:utf8 -*-

from selenium import webdriver  # 导入selenium模块来操作浏览器软件

from scrapy.selector import Selector

#设置请求网页不加载图片，提高请求效率

chrome_options = webdriver.ChromeOptions()                          #创建谷歌浏览器设置对象

prefs = {"profile.managed_default_content_settings.images": 2}      #设置谷歌浏览器不加载图片

chrome_options.add_experimental_option('prefs', prefs)              #将不加载图片添加到浏览器

browser = webdriver.Chrome(executable_path='H:/py/16/adc/adc/Firefox/chromedriver.exe', chrome_options=chrome_options)

# browser.set_page_load_timeout(40) #设置页面最长加载时间为40s

browser.get('https://www.taobao.com/')

neir = browser.page_source   # 获取网页内容

# print(neir)

gl_neir = Selector(text=neir)

dedao = gl_neir.css('title::text').extract()

print(dedao)

# browser.close()     # 关闭浏览器

selenium模块还可以操作PhantomJS浏览器，PhantomJS是一个无界面浏览器，比较清爽，但是多线程是性能会下降

重点：我们推荐使用chromedriver.exe，谷歌浏览器

第三百五十节，Python分布式爬虫打造搜索引擎Scrapy精讲—selenium模块是一个python操作浏览器软件的一个模块，可以实现js动态网页请求的更多相关文章

二十九 Python分布式爬虫打造搜索引擎Scrapy精讲—selenium模块是一个python操作浏览器软件的一个模块，可以实现js动态网页请求
selenium模块 selenium模块为第三方模块需要安装,selenium模块是一个操作各种浏览器对应软件的api接口模块 selenium模块是一个操作各种浏览器对应软件的api接口模块,所以 ...
第三百六十五节，Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的基本查询
第三百六十五节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的基本查询 1.elasticsearch(搜索引擎)的查询 elasticsearch是功能 ...
第三百五十九节，Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)介绍以及安装
第三百五十九节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)介绍以及安装 elasticsearch(搜索引擎)介绍 ElasticSearch是一个基于 ...
第三百五十六节，Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy分布式爬虫要点
第三百五十六节,Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy分布式爬虫要点 1.分布式爬虫原理 2.分布式爬虫优点 3.分布式爬虫需要解决的问题
第三百五十五节，Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy信号详解
第三百五十五节,Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy信号详解信号一般使用信号分发器dispatcher.connect(),来设置信号,和信号触发函数,当捕获到信号时执行 ...
第三百五十四节，Python分布式爬虫打造搜索引擎Scrapy精讲—数据收集(Stats Collection)
第三百五十四节,Python分布式爬虫打造搜索引擎Scrapy精讲—数据收集(Stats Collection) Scrapy提供了方便的收集数据的机制.数据以key/value方式存储,值大多是计数 ...
第三百七十节，Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)用Django实现搜索结果分页
第三百七十节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)用Django实现搜索结果分页逻辑处理函数计算搜索耗时在开始搜索前:start_time ...
第三百六十九节，Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)用Django实现搜索功能
第三百六十九节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)用Django实现搜索功能 Django实现搜索功能 1.在Django配置搜索结果页的路由映 ...
第三百六十六节，Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的bool组合查询
第三百六十六节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的bool组合查询 bool查询说明 filter:[],字段的过滤,不参与打分must:[] ...

随机推荐

C++中的typedef typename 作用
今天在代码里看到了这样一段代码: typedef typename RefBase::weakref_type weakref_type; 起初一直搞不懂为什么要加个typename,后来搜索了一下才 ...
convert2utf8withbom
很久以前给同事要的转码bash 当时windows和mac总是出现中文注释乱码的情况,让人心塞的难过.又因为是老项目,现有源码太多了,不可能改模板重新创建.只能跑一遍这个玩意儿了…… #!/bin/b ...
scp拷贝提示its a directory 错误
scp拷贝提示its a directory 错误场景使用scp的格式是 scp my_file user@ip:/home/directory 之前也一直这么用,没什么错误,莫名其妙原因定位 ...
ss安装
安装很简单,如下: apt-get install python-pip pip install shadowsocks 配置文件格式如下: { "server":"0. ...
s3c2440内存控制器与SDRAM基本测试
前面我们实验的LED和串口程序,是cpu发送地址给特定的寄存器,在寄存器中写相应的位,达到控制要求. 第一类是GPIO门电路如LED,第二类是协议类如串口,这些都不是cpu直接给地址信息,而是通过寄存 ...
Python如何下载文件
转载自:http://www.codecho.com/how-to-download-a-file-in-python/ 利用程序自己编写下载文件挺有意思的.Python中最流行的方法就是通过Http ...
基于jquery判断浏览器版本过低代码
基于jquery判断浏览器版本过低代码.这是一款对不支持HTML5跟CSS3代码的浏览器提示用户更换特效代码.效果图如下: 在线预览源码下载实现的代码. html代码: <div sty ...
phpmyadmin 各种技巧拿 webshell
site.com/phpMyAdminsite.com/sql D:\wamp\www 账号还有密码 root 密码第一种CREATE TABLE `mysql`.`darkmoon` (`darkm ...
OAuth 授权过程工作原理讲解
转自:http://www.imooc.com/article/10931 在一个单位中,可能是存在多个不同的应用,比如学校会有财务的系统会有学生工作的系统,还有图书馆的系统等等,如果每个系统都用独立 ...
android开发——从相冊中选择图片不裁剪
转载请注明出处:http://blog.csdn.net/zhoubin1992/article/details/46864777 问题: 在郭神的第一行代码中,第8章的从相冊中选择图片这块,从相冊选 ...

第三百五十节，Python分布式爬虫打造搜索引擎Scrapy精讲—selenium模块是一个python操作浏览器软件的一个模块，可以实现js动态网页请求

第三百五十节，Python分布式爬虫打造搜索引擎Scrapy精讲—selenium模块是一个python操作浏览器软件的一个模块，可以实现js动态网页请求的更多相关文章

随机推荐

热门专题