使用selenium爬取拉勾网职位

  1. from selenium import webdriver
  2. from lxml import etree
  3. import re
  4. import time
  5. from selenium.webdriver.support.ui import WebDriverWait
  6. from selenium.webdriver.support import expected_conditions as EC
  7. from selenium.webdriver.common.by import By
  8. class LagouSpider(object):
  9. driver_path = r"D:\driver\chromedriver.exe"
  10.  
  11. def __init__(self):
  12. self.driver = webdriver.Chrome(executable_path=LagouSpider.driver_path)
  13. self.url = 'https://www.lagou.com/jobs/list_%E4%BA%91%E8%AE%A1%E7%AE%97?labelWords=&fromSearch=true&suginput='
  14. self.positions = []
  15.  
  16. def run(self):
  17. self.driver.get(self.url)
  18. while True:
  19. source = self.driver.page_source
  20. WebDriverWait(driver=self.driver,timeout=10).until(
  21. EC.presence_of_element_located((By.XPATH, "//div[@class='pager_container']/span[last()]"))
  22. )
  23. self.parse_list_page(source)
  24. try:
  25. next_btn = self.driver.find_element_by_xpath("//div[@class='pager_container']/span[last()]")
  26. if "pager_next_disabled" in next_btn.get_attribute("class"):
  27. break
  28. else:
  29. next_btn.click()
  30. except:
  31. print(source)
  32.  
  33. time.sleep(1)
  34.  
  35. def parse_list_page(self,source):
  36. html = etree.HTML(source)
  37. links = html.xpath("//a[@class='position_link']/@href")
  38. for link in links:
  39. self.request_detail_page(link)
  40. time.sleep(1)
  41.  
  42. def request_detail_page(self,url):
  43. # self.driver.get(url)
  44. print()
  45. print(url)
  46. print()
  47. self.driver.execute_script("window.open('%s')" % url)
  48. self.driver.switch_to.window(self.driver.window_handles[1])
  49. WebDriverWait(self.driver,timeout=10).until(
  50. EC.presence_of_element_located((By.XPATH,"//div[@class='job-name']/span[@class='name']"))
  51. )
  52. source = self.driver.page_source
  53. self.parse_detail_page(source)
  54. self.driver.close()
  55. self.driver.switch_to.window(self.driver.window_handles[0])
  56.  
  57. def parse_detail_page(self,source):
  58. html = etree.HTML(source)
  59. position_name = html.xpath("//span[@class='name']/text()")[0]
  60. job_request_spans = html.xpath("//dd[@class='job_request']//span")
  61. salary = job_request_spans[0].xpath('.//text()')[0].strip()
  62. city = job_request_spans[1].xpath(".//text()")[0].strip()
  63. city = re.sub(r"[\s/]", "", city)
  64. work_years = job_request_spans[2].xpath(".//text()")[0].strip()
  65. work_years = re.sub(r"[\s/]", "", work_years)
  66. education = job_request_spans[3].xpath(".//text()")[0].strip()
  67. education = re.sub(r"[\s/]", "", education)
  68. desc = "".join(html.xpath("//dd[@class='job_bt']//text()")).strip()
  69. company_name = html.xpath("//h2[@class='f1']/text()")
  70. position = {
  71. 'name': position_name,
  72. 'company_name': company_name,
  73. 'salary': salary,
  74. 'city': city,
  75. 'work_years': work_years,
  76. 'education': education,
  77. 'desc': desc
  78. }
  79. self.positions.append(position)
  80. print(position)
  81. if __name__ == '__main__':
  82. spider = LagouSpider()
  83. spider.run()
  1.  

python 爬虫系列09-selenium+拉钩的更多相关文章

  1. python爬虫动态html selenium.webdriver

    python爬虫:利用selenium.webdriver获取渲染之后的页面代码! 1 首先要下载浏览器驱动: 常用的是chromedriver 和phantomjs chromedirver下载地址 ...

  2. Python爬虫之设置selenium webdriver等待

    Python爬虫之设置selenium webdriver等待 ajax技术出现使异步加载方式呈现数据的网站越来越多,当浏览器在加载页面时,页面上的元素可能并不是同时被加载完成,这给定位元素的定位增加 ...

  3. Python爬虫系列-Selenium详解

    自动化测试工具,支持多种浏览器.爬虫中主要用来解决JavaScript渲染的问题. 用法讲解 模拟百度搜索网站过程: from selenium import webdriver from selen ...

  4. PYTHON 爬虫笔记七:Selenium库基础用法

    知识点一:Selenium库详解及其基本使用 什么是Selenium selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium ...

  5. python爬虫之初始Selenium

    1.初始 Selenium[1]  是一个用于Web应用程序测试的工具.Selenium测试直接运行在浏览器中,就像真正的用户在操作一样.支持的浏览器包括IE(7, 8, 9, 10, 11),Moz ...

  6. python 爬虫系列教程方法总结及推荐

    爬虫,是我学习的比较多的,也是比较了解的.打算写一个系列教程,网上搜罗一下,感觉别人写的已经很好了,我没必要重复造轮子了. 爬虫不过就是访问一个页面然后用一些匹配方式把自己需要的东西摘出来. 而访问页 ...

  7. $python爬虫系列(2)—— requests和BeautifulSoup库的基本用法

    本文主要介绍python爬虫的两大利器:requests和BeautifulSoup库的基本用法. 1. 安装requests和BeautifulSoup库 可以通过3种方式安装: easy_inst ...

  8. Python爬虫系列 - 初探:爬取旅游评论

    Python爬虫目前是基于requests包,下面是该包的文档,查一些资料还是比较方便. http://docs.python-requests.org/en/master/ POST发送内容格式 爬 ...

  9. python爬虫系列(2)—— requests和BeautifulSoup

    本文主要介绍python爬虫的两大利器:requests和BeautifulSoup库的基本用法. 1. 安装requests和BeautifulSoup库 可以通过3种方式安装: easy_inst ...

  10. Python爬虫系列(七):提高解析效率

    如果仅仅因为想要查找文档中的<a>标签而将整片文档进行解析,实在是浪费内存和时间.最快的方法是从一开始就把<a>标签以外的东西都忽略掉. SoupStrainer 类可以定义文 ...

随机推荐

  1. c# .NET开发邮件发送功能的全面教程(含邮件组件源码)

    http://www.cnblogs.com/heyuquan/p/net-batch-mail-send-async.html

  2. wpf控件开发基础

    wpf控件开发基础(3) -属性系统(2) http://www.cnblogs.com/Clingingboy/archive/2010/02/01/1661370.html 这个有必要看看 wpf ...

  3. ABP源码uml类图

    陆陆续续学习ABP框架有一段时间了,阳光铭睿的入门教程和HK Zhang的源码分析文章对我的学习帮助都很大.之所以会花这么大工夫去学习ABP.看ABP的源代码,一是因为本人对于DDD也非常有兴趣,AB ...

  4. FileUtils 文件下载 文件导出

    public class FileUtils { /// <summary> /// 文件下载 /// </summary> /// <param name=" ...

  5. HackThree

    创建自定义ViewGroup ​一,概要:     使用自定义View 和ViewGroup组织应用程序布局是一个好方法,定制组件的同时允许开发者提供自定义行为和功能,以后,开发者 在需要创建复杂布局 ...

  6. Java Serializable(序列化)的理解和总结

    1.序列化是干什么的?       简单说就是为了保存在内存中的各种对象的状态(也就是实例变量,不是方法),并且可以把保存的对象状态再读出来.虽然你可以用你自己的各种各样的方法来保存object st ...

  7. Android动态显示或隐藏密码框中的密码(Android学习笔记)

    activity_main.xml <LinearLayout xmlns:android="http://schemas.android.com/apk/res/android&qu ...

  8. OpenResty 最佳实践 (2)

    此文已由作者汤晓静授权网易云社区发布. 欢迎访问网易云社区,了解更多网易技术产品运营经验. lua 协程与 nginx 事件机制结合 文章前部分用大量篇幅阐述了 lua 和 nginx 的相关知识,包 ...

  9. App Store提交审核报错 ERROR ITMS-90087解决办法

    1.原因说明 app对Wifi进行配网, 使用了GizWifiSDK.framework提交App Store时候报错了 App Store Connect Operation Error ERROR ...

  10. C# 在Winform设计一个耗时较久的任务在后台执行时的状态提示窗口

    很多时候,我们需要在窗体中执行一些耗时比较久的任务.比如:循环处理某些文件,发送某些消息等... 单纯的依靠状态栏,用户体验不佳,按下功能按钮后得不到有效的提醒,小白用户绝对会电话给你说“我点了以后就 ...