方式一 selenium

from selenium import webdriver

import time

from selenium.webdriver.common.keys import Keys

bro=webdriver.Chrome()

def get_resume(bro):

    li_list=bro.find_elements_by_class_name('con_list_item')

    for li in li_list:

        title = li.find_element_by_css_selector('.position_link h3').text

        work_time = li.find_element_by_css_selector('.li_b_l').text

        company_name = li.find_element_by_css_selector('.company_name').text

        add = li.find_element_by_css_selector('.add').text

        welfare = li.find_element_by_css_selector('.li_b_r').text

        print('''

        标题：%s

        工作时间：%s

        公司名称：%s

        公司地址：%s

        公司福利：%s

        '''%(title, work_time, company_name, add, welfare))

    #查找下一页按钮

    next = bro.find_element_by_css_selector('.pager_next ')

    next.click()

    # 点击翻页之后要休息两秒，不能让浏览器操作太频繁，否则会报错

    time.sleep(2)

    # 继续抓取下一页

    get_resume(bro)

    time.sleep(5)

try:

    bro.get('https://www.lagou.com/')

    #隐士等待

    bro.implicitly_wait(10)

    addr_click = bro.find_element_by_partial_link_text('上海站').click()

    input_search=bro.find_element_by_id('search_input')

    input_search.send_keys("python")

    #模拟键盘操作(模拟键盘敲回车)

    input_search.send_keys(Keys.ENTER)

    time.sleep(1)

    no = bro.find_element_by_css_selector('.body-btn').click()

    get_resume(bro)

except Exception as e:

    print(e)

finally:

    bro.close()

方式二普通方法

import requests

import json

headers = {

    'Accept-Language': "zh-CN,zh;q=0.9",

    'Host': 'www.lagou.com',

    'User-Agent': "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3493.3 Safari/537.36",

    'Referer': "https://www.lagou.com/jobs/list_python?city=%E4%B8%8A%E6%B5%B7&cl=false&fromSearch=true&labelWords=&suginput=",

    'Cookie': "_ga=GA1.2.1497342262.1582512706; user_trace_token=20200224105145-cc6cf3ff-ce98-45e4-987a-b86e8c600c0a; LGUID=20200224105145-b49fd29f-44e3-4e76-99b1-81d214d196c6; _gid=GA1.2.1855310676.1586229731; JSESSIONID=ABAAAECAAFDAAEH3E452981BE6E4D71C27858CD16B95E47; WEBTJ-ID=20200407223352-171550fd3077e1-099a2b39121da1-396f7f07-1764000-171550fd309d5c; X_MIDDLE_TOKEN=4541125f78b04f020d1ab29fee30c15f; sensorsdata2015jssdkcross=%7B%22distinct_id%22%3A%221709905d08a239-0d00b368bd6473-39697407-1764000-1709905d08b9bd%22%2C%22%24device_id%22%3A%221709905d08a239-0d00b368bd6473-39697407-1764000-1709905d08b9bd%22%2C%22props%22%3A%7B%22%24os%22%3A%22MacOS%22%2C%22%24browser%22%3A%22Chrome%22%2C%22%24browser_version%22%3A%2280.0.3987.149%22%2C%22%24latest_traffic_source_type%22%3A%22%E7%9B%B4%E6%8E%A5%E6%B5%81%E9%87%8F%22%2C%22%24latest_referrer%22%3A%22%22%2C%22%24latest_referrer_host%22%3A%22%22%2C%22%24latest_search_keyword%22%3A%22%E6%9C%AA%E5%8F%96%E5%88%B0%E5%80%BC_%E7%9B%B4%E6%8E%A5%E6%89%93%E5%BC%80%22%7D%7D; index_location_city=%E4%B8%8A%E6%B5%B7; PRE_UTM=; PRE_LAND=https%3A%2F%2Fwww.lagou.com%2F; LGSID=20200408152358-9c69660c-a345-498a-8034-10252ffe3e1b; PRE_HOST=www.baidu.com; PRE_SITE=https%3A%2F%2Fwww.baidu.com%2Flink%3Furl%3DtVZflBXEaVsOXF%5FjFHCfFYOeqdRD4HXjo5Hn4EMTkmG%26ck%3D9551.3.94.252.155.241.150.180%26shh%3Dwww.baidu.com%26sht%3Dbaiduhome%5Fpg%26wd%3D%26eqid%3Df1483e950008cf70000000045e8d7c0b; TG-TRACK-CODE=index_search; _gat=1; Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1586229731,1586270033,1586330638,1586332101; SEARCH_ID=42fc072280a0477c92659467a1ad8b00; X_HTTP_TOKEN=dde9d3565777ba88401233685139c3c6eb8d6e4588; Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1586332105; LGRID=20200408154824-69c24f2c-ed0d-40aa-acbc-1df8cfac23d1",

    'Accept': "application/json, text/javascript, */*; q=0.01",

    'X-Anit-Forge-Code': "0",

    'X-Anit-Forge-Token': None,

    'X-Requested-With': 'XMLHttpRequest'

}

form_data = {

    'first': 'false',

    'pn': 1,

    'kd': 'python'

}

ret=requests.post('https://www.lagou.com/jobs/positionAjax.json?city=%E4%B8%8A%E6%B5%B7&needAddtionalResult=false',

                 headers=headers,data=form_data).text

ret = json.loads(ret)

res = ret['content']['positionResult']['result']

for i in res:

    title = i['positionName']

    company = i['companyFullName']

    company_class = i['industryField']

    salary = i['salary']

    financeStage = i['financeStage']

    welfare = i['companyLabelList']

    job_type = i['firstType']

    addr = i['district']

    wyear = i['workYear']

    education = i['education']

    print("""

    职位：%s

    公司名称：%s

    公司类型：%s

    薪资：%s

    融资阶段：%s

    公司福利：%s

    工作分类：%s

    公司地址：%s

    工作时间：%s

    学历：%s

    """ % (title, company, company_class, salary, financeStage, welfare, job_type, addr, wyear, education))

拉勾网 + selenium的更多相关文章

爬虫_拉勾网(selenium)
使用selenium进行翻页获取职位链接,再对链接进行解析会爬取到部分空列表,感觉是网速太慢了,加了time.sleep()还是会有空列表 from selenium import webdrive ...
基于selenium爬取拉勾网职位信息
1.selenium Selenium 本是一个用于Web应用程序测试的工具.Selenium测试直接运行在浏览器中,就像真正的用户在操作一样.而这一特性为爬虫开发提供了一个选择及方向,由于其本身依赖 ...
selenium的
1.简介 selenium可以认为是反反爬虫的最佳利器,它基本可以等同于真实的浏览器访问,用它可以加载到动态数据,也省去了cookie的操作,但是用这个有一个重大的效率问题.所以selenium可以用 ...
Katalon Recorder 自动录制 Selenium 爬虫脚本
相信很多小伙伴都用过 Selenium 来完成爬虫工作,今天就给大家带来一个神器,可以录制你的浏览器动作,然后直接生成 Selenium 脚本,是不是心动了? 1 Selenium 简介 Seleni ...
爬虫实战(三) 用Python爬取拉勾网
目录 0.前言 1.初始化 2.爬取数据 3.保存数据 4.数据可视化 5.大功告成 0.前言最近,博主面临着选方向的困难(唉,选择困难症患者 >﹏<),所以希望了解一下目前不同岗位的就 ...
Python爬虫小白入门（四）PhatomJS+Selenium第一篇
一.前言在上一篇博文中,我们的爬虫面临着一个问题,在爬取Unsplash网站的时候,由于网站是下拉刷新,并没有分页.所以不能够通过页码获取页面的url来分别发送网络请求.我也尝试了其他方式,比如下拉 ...
Selenium的PO模式（Page Object Model）[python版]
Page Object Model 简称POM 普通的测试用例代码: .... #测试用例 def test_login_mail(self): driver = self.driver driv ...
selenium元素定位篇
Selenium webdriver是完全模拟用户在对浏览器进行操作,所有用户都是在页面进行的单击.双击.输入.滚动等操作,而webdriver也是一样,所以需要我们指定元素让webdriver进行单 ...
selenium自动化基础知识
什么是自动化测试? 自动化测试分为:功能自动化和性能自动化功能自动化即使用计算机通过编码的方式来替代手工测试,完成一些重复性比较高的测试,解放测试人员的测试压力.同时,如果系统有不份模块更改后,只要 ...

随机推荐

干货 | Kafka 内核知识梳理，附思维导图
前面我们已经分享过几篇Kafka的文章,最近简单梳理了下Kafka内核相关的知识,涵盖了Kafka架构总结,副本机制,控制器,高水位机制,日志或消息存储,消息发送与消费机制等方面知识.文末含对应的Ka ...
centos 删除文件提示 Operation not permitted
如果文件上存在 i 标记,那肯定是删不掉的,同样这个文件也不能被编辑.可以进入 root 模式,去除这个标记: root@ubuntu:/home/barret/work# chattr -i 1.m ...
corosync+pacemaker实现httpd高可用
corosync+pacemaker 官方网址 https://clusterlabs.org/ 一.开源高可用了解 OPEN SOURCE HIGH AVAILABILITY CLUSTER STA ...
Java基本语法---标识符、变量、数据类型转换及进制
Java基本语法标识符标识符:凡事可以自己起名字的地方,都可以叫做标志符标识符命名规则: 26个字母大小写,数字0-9,下划线_,美元符号$ 数字不能开头不能使用关键字和保留字,但是可以包含 ...
Network Motif 文献调研
Network Motif 文献调研概述:Network motifs,可以认为是网络中频繁出现的子图模式,是复杂网络的"构建块".有两篇发表在science上的论文给出moti ...
用tarjan求LCA板子（比倍增快）
懒!!直接转载!!!! https://solstice23.top/archives/62
JSP指令 & 中文乱码问题
1. JSP 指令: JSP指令(directive)是为JSP引擎而设计的, 它们并不直接产生任何可见输出, 而只是告诉引擎如何处理JSP页面中的其余部分. 2. 在JSP 2.0中,定义了 ...
& 异步使用场景
异步的使用场景: 1.不涉及共享资源,或对共享资源只读,即非互斥操作 2.没有时序上的严格关系 3.不需要原子操作,或可以通过其他方式控制原子性 4.常用于IO操作等耗时操作,因为比较影响客户体验和使 ...
parrot os安装drozer
dz需要支持大部分parrot都装好了,只有Protobuf未安装 apt install Protobuf 安装dz 下面下载https://labs.f-secure.com/tools/dro ...
使用RTL进行硬件模型编程的局限性
https://mp.weixin.qq.com/s/Nj_d3hwgNX4kWVtKsqMSWg 硬件模型编程,即Hardware Model Programming.在RTL抽象级别 ...

拉勾网 + selenium

方式一 selenium

方式二普通方法

拉勾网 + selenium的更多相关文章

随机推荐

热门专题