9.selenium

1.安装与入门

pip3 install selenium

将chromedriver放到一个没有权限要求的目录

from selenium import webdriver

driverpath="D:\chromedriver\chromedriver_win32\chromedriver.exe"

#初始化一个driver

driver=webdriver.Chrome(executable_path=driverpath)

#请求网页

driver.get("https://www.baidu.com/")

#通过page_source获取网页代码

print(driver.page_source)

2.关闭页面
a. driver.close() #关闭当前页面
b. driver.quit()  #退出整个浏览器

from selenium import webdriver

import time

driverpath="D:\chromedriver\chromedriver_win32\chromedriver.exe"

driver=webdriver.Chrome(executable_path=driverpath)

driver.get("https://www.baidu.com/")

for i in range(5):

    time.sleep(1)

    print("沉睡%s秒" % i)

driver.quit() #或者driver.close()

3.定位元素

find_element_by_id：通过ID进行匹配查找，只返回匹配到的一个元素
find_element_by_name：通过name进行匹配查找，只返回匹配到的一个元素
find_element_by_xpath：通过xpath进行匹配查找，只返回匹配到的一个元素
find_element_by_link_text：通过链接内容进行匹配查找，只返回匹配到的一个元素
find_element_by_partical_link_text：通过部分链接内容进行匹配查找，只返回匹配到的一个元素
find_element_by_tag_name：通过标签名称进行匹配查找，只返回匹配到的一个元素
find_element_by_class_name：通过class名称进行匹配查找，只返回匹配到的一个元素
find_element_by_css_selector：通过CSS选择器进行匹配查找，只返回匹配到的一个元素

值得注意的是，上面方法只会匹配查找只会获取第一个元素。除了上面这些查找单个元素的方法之外，Selenium还定义查找多个元素的方法：

find_elements_by_name：通过name进行匹配查找，返回所有匹配到的元素列表
find_elements_by_xpath：通过xpath进行匹配查找，返回所有匹配到的元素列表
find_elements_by_link_text：通过链接内容进行匹配查找，返回所有匹配到的元素列表
find_elements_by_partical_link_text：通过部分链接内容进行匹配查找，返回所有匹配到的元素列表
find_elements_by_tag_name：通过标签名称进行匹配查找，返回所有匹配到的元素列表
find_elements_by_class_name：通过class名称进行匹配查找，返回所有匹配到的元素列表
find_elements_by_css_selector：通过CSS选择器进行匹配查找，返回所有匹配到的元素列表

除了上面给出的公有方法之外，Selenium还提供了两种私有方法可能对页面对象中的定位器有用，这两个私有方法是：find_element和find_elements：

from selenium.webdriver.common.by import By

element = driver.find_element(By.XPATH,'//*[@id="su"]')

elements = driver.find_elements(By.XPATH,'//button')

下面是By可用的属性：

ID = 'id'

NAME = 'name'

XPATH = 'xpath'

LINK_TEXT = '链接内容'

PARTIAL_LINK_TEXT = '部分链接内容'

TAG_NAME = '标签名称'

CLASS_NAME = '类名'

CSS_SELECTOR = 'CSS选择器'

通过ID定位

当你知道元素的ID属性时，你可以使用它，使用此策略，将返回ID属性值与该匹配的第一个元素。如果没有元素匹配到此ID属性，将会引发NoSuchElementException错误，举个栗子，有这样一个数据源：

<input id="login_id" type="text"/>

我们知道了这个元素的ID，我们可以这样进行定位：

element = driver.find_element_by_id('login_id')

案例：

from selenium import webdriver

driverpath="D:\chromedriver\chromedriver_win32\chromedriver.exe"

driver=webdriver.Chrome(executable_path=driverpath)

driver.get("https://www.baidu.com/")

input_tag=driver.find_element_by_id("kw")

print(input_tag)

input_tag.send_keys("何足道")

通过name定位

当你知道元素的name属性时，你可以使用它，使用此策略，将返回name属性值与该匹配的第一个元素。如果没有元素匹配到此name属性，将会引发NoSuchElementException错误，举个栗子，有这样一个数据源：

<input name="login" type="text"/>

我们知道了这个元素的name，我们可以这样进行定位：

element = driver.find_element_by_name('login')

案例：

from selenium import webdriver

driverpath="D:\chromedriver\chromedriver_win32\chromedriver.exe"

driver=webdriver.Chrome(executable_path=driverpath)

driver.get("https://www.baidu.com")

input_tag=driver.find_element_by_name("wd")

print(input_tag)

input_tag.send_keys("python")

通过XPath定位

XPath是用于在XML文档中查找节点的语言，由于XML可以是HTML的实现，因此Selenium用户可以利用这种强大的语言来定位其Web应用程序中的元素。XPath扩展了通过id和name属性定位的简单方法，并打开了各种新的可能性，例如在页面中查找第三个复选框。举个栗子，有这样一个数据源：

<html>

 <body>

 <form id="loginForm">

  <input name="username" type="text" />

  <input name="password" type="password" />

  <input name="continue" type="submit" value="Login" />

  <input name="continue" type="button" value="Clear" />

 </form>

</body>

<html>

我们可以这样进行定位：

user_element = driver.find_element_by_xpath("/html/body/form/input[@name='username']")

user_element = driver.find_element_by_xpath("/html/body/form/input")

user_element = driver.find_element_by_xpath('//input[1]')

user_element = driver.find_element_by_xpath("//input[@name='username'][@type='text']")

案例：

from selenium import webdriver

driverpath="D:\chromedriver\chromedriver_win32\chromedriver.exe"

driver=webdriver.Chrome(executable_path=driverpath)

driver.get("https://www.baidu.com/")

input_tag=driver.find_element_by_xpath('//input[@name="wd"][@id="kw"]')

print(input_tag)

input_tag.send_keys("python")

通过链接内容定位

当你知道链接元素的内容时，你可以使用它，使用此策略，将返回链接内容与该匹配到的第一个元素。如果没有元素匹配到此链接内容，将会引发NoSuchElementException错误，举个栗子，有这样一个数据源：

<html>

 <body>

 <p>Are you sure you want to do this?</p>

 <a href="continue.html" rel="external nofollow" rel="external nofollow" >Continue</a>

 <a href="cancel.html" rel="external nofollow" >Cancel</a>

</body>

<html>

其中<a href="continue.html" rel="external nofollow" rel="external nofollow" >Continue</a>元素可以这样定位：

element = driver.find_element_by_link_text('Continue')

element = driver.find_element_by_partical_link_text('Con')

通过标签名称定位

当你知道标签的名称时，你可以使用它，使用此策略，将返回标签名称与该匹配到的第一个元素。如果没有元素匹配到此标签名称时，将会引发NoSuchElementException错误，举个栗子，有这样一个数据源：

<html>

 <body>

 <h1>Welcome</h1>

 <p>Site content goes here.</p>

</body>

<html>

我们可以这样对<p>元素进行定位：

element = driver.find_element_by_class_name('content')

案例：

from selenium import webdriver

driverpath="D:\chromedriver\chromedriver_win32\chromedriver.exe"

driver=webdriver.Chrome(executable_path=driverpath)

driver.get("https://www.baidu.com/")

input_tag=driver.find_element_by_class_name("s_ipt")

print(input_tag)

input_tag.send_keys("python")

通过CSS选择器进行定位

当你想通过CSS选择器语法找到一个元素时，你可以使用它，使用此策略，将返回匹配CSS选择器的第一个元素。如果没有元素匹配到此CSS选择器时，将会引发NoSuchElementException错误，举个栗子，有这样一个数据源：

<html>

 <body>

 <p class="content">Site content goes here.</p>

</body>

<html>

我们可以这样对<p>元素进行定位：

element = driver.find_element_by_css_selector('body p')

案例：

from selenium import webdriver

driverpath="D:\chromedriver\chromedriver_win32\chromedriver.exe"

driver=webdriver.Chrome(executable_path=driverpath)

driver.get("https://www.baidu.com/")

input_tag=driver.find_element_by_css_selector(".quickdelete-wrap >input")

print(input_tag)

input_tag.send_keys("python")

4.selenium操作表单

a.操作input

from selenium import webdriver

import time

driverpath="D:\chromedriver\chromedriver_win32\chromedriver.exe"

driver=webdriver.Chrome(executable_path=driverpath)

driver.get("https://www.baidu.com/")

input_tag=driver.find_element_by_id("kw")

input_tag.send_keys("python")   #给input输入值

time.sleep(3)

input_tag.clear()     #清空

b.操作CheckBox，因为要选中checkbox标签，在网页中是通过鼠标点击的，因此想要选中checkbox，那么选中这个标签，然后执行click事件，示例代码如下：

from selenium import webdriver

driverpath="D:\chromedriver\chromedriver_win32\chromedriver.exe"

driver=webdriver.Chrome(executable_path=driverpath)

driver.get("https://www.douban.com/")

checkbox_tag=driver.find_element_by_id("form_remember")

checkbox_tag.click()    #找到checkbox标签后执行click函数

c.选择select，select元素不能直接点击，因为点击后还需要选中元素，这时候selenium就专门为select标签提供了一个类，selenium.webdriver.support.ui.Select,将获取到的元素当成参数传到这个类中，创建这个对象，以后就可以使用这个对象进行选择了，示例代码如下：

from selenium import webdriver

from selenium.webdriver.support.ui import Select

driverpath="D:\chromedriver\chromedriver_win32\chromedriver.exe"

driver=webdriver.Chrome(executable_path=driverpath)

driver.get("http://www.dobai.cn/")

selectBtn=Select(driver.find_element_by_name("jumpMenu"))

selectBtn.select_by_index(1) #通过索引获取

selectBtn.select_by_value("http://m.95xiu.com")  #通过value获取

selectBtn.select_by_visible_text("95秀客户端")     #通过value文字获取

d.操作按钮：操作按钮有很多种方式，比如单击，双击，右击，这里讲一个最常用的，就是点击，直接调用click函数就可以了，实例代码如下

from  selenium import  webdriver

driverpath="D:\chromedriver\chromedriver_win32\chromedriver.exe"

driver=webdriver.Chrome(executable_path=driverpath)

driver.get("https://baidu.com/")

input_tag=driver.find_element_by_id("kw")

input_tag.send_keys("python")

submit_tag=driver.find_element_by_id("su")

submit_tag.click()

5.行为链

有时候在页面中的操作可能要有很多步，那么这时候可以使用鼠标行为链ActionChains来完成。比如现在要将鼠标移动到某个元素上并执行点击事件

from selenium import webdriver

from  selenium.webdriver.common.action_chains import ActionChains

driverpath="D:\chromedriver\chromedriver_win32\chromedriver.exe"

driver=webdriver.Chrome(executable_path=driverpath)

driver.get('https://www.baidu.com')

input_tag=driver.find_element_by_id("kw")

submit_btn=driver.find_element_by_id("su")

actions=ActionChains(driver)

actions.move_to_element(input_tag)   #移动到某元素

actions.send_keys_to_element(input_tag,"python") #在指定的元素内输入值

actions.move_to_element(submit_btn)

actions.click()    #点击

actions.perform()  #执行

更多鼠标操作系统行为：

1。 click_and_hold(element)     点击但不松开

2. context_click(element)        右键点击

3. double_click(element)         双击

6.操作cookie

# 获取所有的cookie：

for cookie in driver.get_cookies():

    print(cookie)

# 根据cookie的value获取key：

value = driver.get_cookie(key)

# 删除所有的cookie:

driver.delete_all_cookies()

# 删除某个cookie:

driver.delete_cookie(key)

from selenium import webdriver

from  selenium.webdriver.common.action_chains import ActionChains

driverpath="D:\chromedriver\chromedriver_win32\chromedriver.exe"

driver=webdriver.Chrome(executable_path=driverpath)

driver.get('https://www.baidu.com')

#获取所有cookie

for cookie in driver.get_cookies():

    print(cookie)

#根据cookie的value获取key

print("-"*100)

print(driver.get_cookie("PSTM"))

driver.delete_all_cookies()

7.selenium的隐式等待和显式等待

a.显式等待 ,一个显式等待是你定义的一段代码，用于等待某个条件发生然后再继续执行后续代码。显式等待是等元素加载！！！

from selenium import webdriver

from selenium.webdriver.common.by import By

from selenium.webdriver.support.ui import WebDriverWait

from selenium.webdriver.support import expected_conditions as EC

driverpath="D:\chromedriver\chromedriver_win32\chromedriver.exe"

driver=webdriver.Chrome(executable_path=driverpath)

driver.get("https://www.baidu.com")

try:

    element=WebDriverWait(driver,10).until(

        EC.presence_of_element_located((By.ID,"kw"))

    )

finally:

    driver.quit()

b.隐式等待，相当于设置全局的等待，在定位元素时，对所有元素设置超时时间。隐式等待是等页面加载，而不是元素加载！！！（隐式等待就是针对页面的，显式等待是针对元素的。）

from selenium import webdriver

driverpath="D:\chromedriver\chromedriver_win32\chromedriver.exe"

driver=webdriver.Chrome(executable_path=driverpath)

driver.get("https://www.baidu.com")

driver.implicitly_wait(10)

input_tag=driver.find_element_by_id("kw")

显示等待更节约时间，推荐使用

8.selenium打开多窗口和切换

from selenium import webdriver

driverpath="D:\chromedriver\chromedriver_win32\chromedriver.exe"

driver=webdriver.Chrome(executable_path=driverpath)

driver.get("https://www.baidu.com")

driver.execute_script("window.open('https://www.douban.com')")

print(driver.current_url)  #显示driver中当前的窗口URL

print(driver.window_handles)  #显示句柄中的URL

driver.switch_to_window(driver.window_handles[1])  #在driver中切换到第2个

print(driver.current_url)   #显示driver中当前的窗口URL

注：虽然在窗口中切换到新的页面，但是driver中还没有切换，如果想要在代码中切换到新页面，应该使用driver.switch_to_window来切换到指定的窗口，driver.window_handles是一个列表，里面装的是窗口的句柄，它会按照打开页面的顺序来存储窗口的句柄

9.selenium通过代理IP

from selenium import webdriver

driverpath="D:\chromedriver\chromedriver_win32\chromedriver.exe"

options=webdriver.ChromeOptions()

options.add_argument("--proxy-server=http://140.143.164.107:8888")

driver=webdriver.Chrome(executable_path=driverpath,chrome_options=options)

driver.get("http://httpbin.org/ip")

10.WebElement元素

from selenium.webdriver.remote.webelement import WebElement类是每个获取出来的元素的所属类

一些常用的属性：

1.get_attribute:这个标签的某个属性的值

2.screenshot：获取当前页面的截图，这个方法只能在driver上使用，driver的对象类，也是继承自WebElement

实例：

from selenium import webdriver

from selenium.webdriver.remote.webelement import WebElement

driverpath="D:\chromedriver\chromedriver_win32\chromedriver.exe"

driver=webdriver.Chrome(executable_path=driverpath)

driver.get("https://www.baidu.com")

submit_tag=driver.find_element_by_id("su")

print(type(submit_tag))

print(submit_tag.get_attribute("value"))

driver.save_screenshot("baidu.png")

常用的接口方法

submit #提交表单，特别用于没有提交按钮的情况，例如，搜索框中输入内容后回车操作

from  selenium import webdriver

from  selenium.webdriver.remote.webelement import WebElement

driverpath="D:\chromedriver\chromedriver_win32\chromedriver.exe"

driver=webdriver.Chrome(executable_path=driverpath)

driver.get("http://www.youdao.com")

input_tag=driver.find_element_by_id("translateContent")

input_tag.send_keys("python")

input_tag.submit()   #点击回车键  注意：subm()和click()可以互换，submit()也可以点击按钮

注意：subm()和click()可以互换，submit()也可以点击按钮

size：返回元素尺寸

text ：返回元素文本

get_attribute(name)：获得属性值

is_dispalyed() ：该元素是否用户可见

from  selenium import webdriver

from  selenium.webdriver.remote.webelement import WebElement

driverpath="D:\chromedriver\chromedriver_win32\chromedriver.exe"

driver=webdriver.Chrome(executable_path=driverpath)

driver.get("https://www.baidu.com")

#获得输入框尺寸

input_tag=driver.find_element_by_id("su")

print(input_tag.size)

#返回百度页面底部备案

result=driver.find_element_by_id("s_upfunc_menus")

print(result.text)

#返回元素是否可见

result2=driver.find_element_by_id("su")

print(result2.size)

11.案例

a.传统方式,只打开一页

import requests
import time
from lxml import etree
import re

def get_content_page(url):
    headers={
        "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36",
        "Referer":"https://www.lagou.com/jobs/list_python?city=%E5%85%A8%E5%9B%BD&cl=false&fromSearch=true&labelWords=&suginput=",
        "Cookie":"_ga=GA1.2.738947720.1535697456; user_trace_token=20180831143733-57623494-ace8-11e8-be67-525400f775ce; LGUID=20180831143733-5762374b-ace8-11e8-be67-525400f775ce; index_location_city=%E5%85%A8%E5%9B%BD; X_HTTP_TOKEN=ad6c0f5ffeca4f3239eb2f7b016e51ab; _gid=GA1.2.961140155.1535940535; Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1535697456,1535940536; LGSID=20180903100855-4fb092a7-af1e-11e8-8548-525400f775ce; PRE_UTM=; PRE_HOST=; PRE_SITE=; PRE_LAND=https%3A%2F%2Fpassport.lagou.com%2Flogin%2Flogin.html%3Fmsg%3Dvalidation%26uStatus%3D2%26clientIp%3D182.48.111.194; JSESSIONID=ABAAABAAADEAAFI2FAFBCB9D1D4A88B226483F57290DD96; TG-TRACK-CODE=index_search; SEARCH_ID=4cb60039551040dbba7154530b206fcf; _gat=1; Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1535941478; LGRID=20180903102438-8185b0f6-af20-11e8-8548-525400f775ce"
    }
    response=requests.get(url,headers=headers)
    text=response.text
    html=etree.HTML(text)
    title=html.xpath('//div[@class="job-name"]/span/text()')[0]
    jobdetail=html.xpath('//dd[@class="job_request"]//span/text()')
    salary=jobdetail[0]
    location=jobdetail[1]
    location=re.sub(r"[\s/]","",location)
    experience=jobdetail[2]
    experience=re.sub(r"[\s/]","",experience)
    qualifications=jobdetail[3]
    qualifications=re.sub(r"[\s/]","",qualifications)
    is_fulltime=jobdetail[4]
    is_fulltime=re.sub(r"[\s/]","",is_fulltime)
    detailinfo=html.xpath('//dd[@class="job_bt"]//p/text()')
    detailinfo="".join(detailinfo).strip()
    print(title,salary,location,experience,qualifications,is_fulltime,detailinfo)
    time.sleep(2)

def get_page_id():
    url="https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false"
    headers={
        "Referer":"https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=",
        "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36",
        "Cookie":"_ga=GA1.2.738947720.1535697456; user_trace_token=20180831143733-57623494-ace8-11e8-be67-525400f775ce; LGUID=20180831143733-5762374b-ace8-11e8-be67-525400f775ce; index_location_city=%E5%85%A8%E5%9B%BD; X_HTTP_TOKEN=ad6c0f5ffeca4f3239eb2f7b016e51ab; _gid=GA1.2.961140155.1535940535; Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1535697456,1535940536; LGSID=20180903100855-4fb092a7-af1e-11e8-8548-525400f775ce; PRE_UTM=; PRE_HOST=; PRE_SITE=; PRE_LAND=https%3A%2F%2Fpassport.lagou.com%2Flogin%2Flogin.html%3Fmsg%3Dvalidation%26uStatus%3D2%26clientIp%3D182.48.111.194; JSESSIONID=ABAAABAAADEAAFI2FAFBCB9D1D4A88B226483F57290DD96; TG-TRACK-CODE=index_search; SEARCH_ID=2753ed70c0374a4eb0436263dc6db38c; Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1535941412; LGRID=20180903102332-5a63d0bf-af20-11e8-b4e7-5254005c3644"
    }

    data={
        'first':'true',
        'pn':1,
        'kd':'python'
    }

    for x in range(1,2):
        data["pn"]=x
        response=requests.post(url,headers=headers,data=data)
        json_text=response.json()
        time.sleep(2)
        get_detail=json_text["content"]["hrInfoMap"]
        for detailtext in get_detail:
            detailurl="https://www.lagou.com/jobs/%s.html" %(detailtext)
            print(detailurl)
            get_content_page(detailurl)

if __name__=="__main__":
    get_page_id()

b.通过selenium方式，自动下一页

from selenium import webdriver

from selenium.webdriver.common.by import By

from selenium.webdriver.support.ui import WebDriverWait

from selenium.webdriver.support import expected_conditions as EC

from lxml import etree

import time

import re

class LagouSpider():

    driverpath = "D:\chromedriver\chromedriver_win32\chromedriver.exe"

    def __init__(self):

        self.driver=webdriver.Chrome(executable_path=self.driverpath)

        self.url="https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput="

        self.postion=[]

    def run(self):

        self.driver.get(self.url)

        while True:

            source=self.driver.page_source

            #显示等待打开页面的元素

            WebDriverWait(self.driver,10).until(

                EC.presence_of_element_located((By.XPATH,"//div[@class='pager_container']/span[last()]"))

            )

            self.parse_list_page(source)

            #找到下一页的标签

            next_page_bt=self.driver.find_element_by_xpath('//div[@class="pager_container"]/span[last()]')

            if "pager_next_disabled" in next_page_bt.get_attribute("class"):

                break

            else:

                next_page_bt.click()

                time.sleep(3)

    def parse_list_page(self,source):

        html=etree.HTML(source)

        #解析找到详情页面的URL

        links=html.xpath('//a[@class="position_link"]/@href')

        for link in links:

            self.request_detail_page(link)

    def request_detail_page(self,url):

        # self.driver.get(url)

        #切换窗口打开详情页面的URL

        self.driver.execute_script("window.open('%s')"%(url))

        self.driver.switch_to_window(self.driver.window_handles[1])

        #显示等待打开详情页面的元素

        WebDriverWait(self.driver,10).until(

            EC.presence_of_element_located((By.XPATH,"//div[@class='job-name']/span[@class='name']"))

        )

        source=self.driver.page_source

        self.parse_detail_page(source)

        self.driver.close()

        self.driver.switch_to_window(self.driver.window_handles[0])

    def parse_detail_page(self,source):

        html=etree.HTML(source)

        title = html.xpath('//div[@class="job-name"]/span/text()')[0]

        jobdetail = html.xpath('//dd[@class="job_request"]//span/text()')

        salary = jobdetail[0]

        location = jobdetail[1]

        location = re.sub(r"[\s/]", "", location)

        experience = jobdetail[2]

        experience = re.sub(r"[\s/]", "", experience)

        qualifications = jobdetail[3]

        qualifications = re.sub(r"[\s/]", "", qualifications)

        is_fulltime = jobdetail[4]

        is_fulltime = re.sub(r"[\s/]", "", is_fulltime)

        detailinfo = html.xpath('//dd[@class="job_bt"]//p/text()')

        detailinfo = "".join(detailinfo).strip()

        postion={

            "title":title,

            "salary":salary,

            "location":location,

            "experience":experience,

            "qualifications":qualifications,

            "is_fulltime":is_fulltime,

            "detailinfo":detailinfo

        }

        print(postion)

        self.postion.append(postion)

if __name__=="__main__":

    spider=LagouSpider()

    spider.run()

爬Boss直聘

from selenium import webdriver

from selenium.webdriver.common.by import By

from selenium.webdriver.support.ui import WebDriverWait

from selenium.webdriver.support import expected_conditions as EC

from lxml import etree

import time

from  selenium.webdriver.common.action_chains import ActionChains

class BossSpider():

    driverpath = "D:\chromedriver\chromedriver_win32\chromedriver.exe"

    def __init__(self):

        self.driver=webdriver.Chrome(executable_path=self.driverpath)

        self.url="https://www.zhipin.com/job_detail/?query=python&scity=101010100&industry=&position="

    def run(self):

        self.driver.get(self.url)

        while True:

            source=self.driver.page_source

            actions = ActionChains(self.driver)

            WebDriverWait(self.driver,10).until(

                EC.presence_of_element_located((By.XPATH,"//div[@class='page']/a[last()]"))

            )

            self.parse_detail_url(source)

            next_btn=self.driver.find_element_by_xpath("//div[@class='page']/a[last()]")

            if "disabled" in next_btn.get_attribute("class"):

                break

            else:

                actions.move_to_element(next_btn)

                actions.click()  # 点击

            time.sleep(3)

    def parse_detail_url(self,source):

        html=etree.HTML(source)

        links=html.xpath('//div[@class="info-primary"]//a/@href')

        for link in links:

            self.request_detail_page(link)

            time.sleep(3)

    def request_detail_page(self,url):

        self.driver.execute_script("window.open('%s')"%(url))

        self.driver.switch_to.window(self.driver.window_handles[1])

        WebDriverWait(self.driver,10).until(

            EC.presence_of_element_located((By.XPATH,"//div[@class='job-sec']/div[@class='text']"))

        )

        source=self.driver.page_source

        self.get_detail_info(source)

        self.driver.close()

        self.driver.switch_to.window(self.driver.window_handles[0])

    def get_detail_info(self,source):

        html=etree.HTML(source)

        postion=html.xpath("//div[@class='info-primary']/div[@class='name']/h1/text()")[0]

        detailinfo1=html.xpath("//div[@class='info-primary']")[0]

        strinfo=detailinfo1.xpath("./p/text()")

        city=strinfo[0].split("：")[-1]

        experience=strinfo[1].split("：")[-1]

        education=strinfo[2].split("：")[-1]

        job_description=html.xpath("//div[@class='job-sec']/div[@class='text']/text()")

        job_description="".join(job_description).strip()

        print(city,experience,education,job_description)

if __name__=="__main__":

    spider=BossSpider()

    spider.run()

9.selenium的更多相关文章

Python爬虫小白入门（四）PhatomJS+Selenium第一篇
一.前言在上一篇博文中,我们的爬虫面临着一个问题,在爬取Unsplash网站的时候,由于网站是下拉刷新,并没有分页.所以不能够通过页码获取页面的url来分别发送网络请求.我也尝试了其他方式,比如下拉 ...
Selenium的PO模式（Page Object Model）[python版]
Page Object Model 简称POM 普通的测试用例代码: .... #测试用例 def test_login_mail(self): driver = self.driver driv ...
selenium元素定位篇
Selenium webdriver是完全模拟用户在对浏览器进行操作,所有用户都是在页面进行的单击.双击.输入.滚动等操作,而webdriver也是一样,所以需要我们指定元素让webdriver进行单 ...
selenium自动化基础知识
什么是自动化测试? 自动化测试分为:功能自动化和性能自动化功能自动化即使用计算机通过编码的方式来替代手工测试,完成一些重复性比较高的测试,解放测试人员的测试压力.同时,如果系统有不份模块更改后,只要 ...
幼儿园的 selenium
from selenium import webdriver *固定开头 b=webdriver.Firefox() *打开火狐浏览器 browser. ...
使用selenium编写脚本常见问题（一）
前提:我用selenium IDE录制脚本,我用java写的脚本,如果大家想看的清楚明白推荐java/Junit4/Webdriver 我用的是java/TestNG/remote control 1 ...
关于selenium RC的脚本开发
第一.需要录制脚本,找个我也不说了.就是在firefox下下载一个selenium-IDE并且安装. 第二.在工具里找到selenium-IDE点击运行. 第三.默认是红色按钮点击状态的,接下来随便你 ...
基于python的selenium自动化测试环境安装
1. Python2安装官方网站:https://www.python.org/downloads/ (python3或新版本已经默认集成了pip包和path,安装的时候打勾就行,可以直接跳过下面第 ...
Selenium+python 配置
1. 安装python, www.python.org. 下载最新的python,应该是32位的.注意配置环境变量. 2. 安装PIP(pip是一个以Python计算机程序语言写成的软件包管理系统). ...
selenium 使用action进行鼠标，键盘操作
 <html> <head> <title>Set Timeout</title> <script&g ...

随机推荐

一点理解之 CmBacktrace: ARM Cortex-M 系列 MCU 错误追踪库
@2019-02-14 [小记] CmBacktrace: ARM Cortex-M 系列 MCU 错误追踪库,用来将单片机故障状态寄存器值翻译出来输出至终端上以便排错 CmBacktrace: AR ...
「HAOI2018」染色解题报告
「HAOI2018」染色是个套路题.. 考虑容斥则恰好为$k$个颜色恰好为$c$次的贡献为 \[ \binom{m}{k}\sum_{i\ge k}(-1)^{i-k}\binom{m-k ...
hdu 5289 Assignment (ST+二分)
Problem Description Tom owns a company and he is the boss. There are n staffs which are numbered fro ...
CodeFroces-- Feel Good
题目大意:给出一段无序数组找出任意一段区间和*这段区间的最小值使这个值最大栈的经典问题用栈预处理出当前ai 为这块区间最小值的时候的区间范围(L 和R) #include<bits/s ...
MyBatis深入浅出--入门
mybatis概述 mybatis简介 MyBatis 是支持定制化 SQL.存储过程以及高级映射的优秀的持久层框架. MyBatis 避免了几乎所有的 JDBC 代码和手动设置参数以及获取结果集. ...
CSS解决字母不换行
通过百度,查找解决方案 1. word-break:break-all;只对英文起作用,以字母作为换行依据2. word-wrap:break-word; 只对英文起作用,以单词作为换行依据
截取还没有读的txt章节生成新的文件
package file; import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.File; imp ...
cookie猜数字游戏（下）------------以及cookie使用的不安全之处
1.通过cookie可以解决上篇中多个用户对数据的修改,每个COOKIE保存不同用户的数据 <?php if(empty($_COOKIE['num'])||empty($_GET['num'] ...
mysql体系结构和sql查询执行过程简析
一: mysql体系结构 1)Connectors 不同语言与 SQL 的交互 2)Management Serveices & Utilities 系统管理和控制工具备份和恢复的安全性,复 ...
爬虫之requests请求库
介绍 #介绍:使用requests可以模拟浏览器的请求,比起之前用到的urllib,requests模块的api更加便捷(本质就是封装了urllib3) #注意:requests库发送请求将网页内容下 ...

9.selenium

9.selenium的更多相关文章

随机推荐

热门专题