python爬虫爬取腾讯招聘信息（静态爬虫）

环境：

windows7，python3.4

代码：（亲测可正常执行）

 import requests

 from bs4 import BeautifulSoup

 from math import ceil

 header = {

     'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'}

 # 获取岗位页数

 def getJobPage(url):

     ret = requests.get(url, headers=header)

     ret.encoding = "utf-8"  # 解决乱码问题

     html = ret.text

     soup = BeautifulSoup(html, 'html.parser')

     # 获取岗位总数，< span class ="lightblue total" > 512 < / span >

     totalJob = soup.select('span[class="lightblue total"]')[0].text

     jobPage = ceil(int(totalJob) / 10)

     return jobPage

 def getJobOrder(url):

     ret = requests.get(url, headers=header)

     ret.encoding = "utf-8"  # 解决乱码问题

     html = ret.text

     soup = BeautifulSoup(html, 'html.parser')

     # 工作职责

     jobRequests = soup.select('ul[class="squareli"]')[0].text

     # 工作要求

     jobOrder = soup.select('ul[class="squareli"]')[1].text

     return jobRequests, jobOrder

 # 获取岗位信息

 def getJobInfo(url):

     myfile = open("tencent_job.txt", "a", encoding='gb18030', errors='ignore')  # 解决乱码问题

     ret = requests.get(url, headers=header)

     ret.encoding = "utf-8"  # 解决乱码问题

     html = ret.text

     soup = BeautifulSoup(html, 'html.parser')

     jobList = soup.find_all('tr', class_=['even', 'odd'])

     for job in jobList:

         # url

         jobUrl = "https://hr.tencent.com/" + job.select('td:nth-of-type(1) > a')[0]['href']

         # 职位名称

         jobName = job.select('td:nth-of-type(1) > a')[0].text

         # 人数

         jobPeople = job.select('td:nth-of-type(3)')[0].text

         # 地点

         jobAddre = job.select('td:nth-of-type(4)')[0].text

         # 发布时间

         jobTime = job.select('td:nth-of-type(5)')[0].text

         # 工作职责

         jobRequests = getJobOrder(jobUrl)[0]

         # 工作要求

         jobOrder = getJobOrder(jobUrl)[1]

         #print(jobName, jobUrl, jobAddre, jobPeople, jobTime, jobRequests, jobOrder)

         tt = jobName + " " + jobUrl + " " + jobAddre + " " + jobPeople + " " + jobTime + " " + jobRequests + " " + jobOrder

         myfile.write(tt + "\n")

 if __name__ == '__main__':

     mainurl = 'https://hr.tencent.com/position.php?keywords=python'

     jobPage = getJobPage(mainurl)

     print(jobPage)

     for page in range(jobPage):

         pageUrl = 'https://hr.tencent.com/position.php?keywords=python&start=' + str(page * 10) + '#a'

         print("第" + str(page + 1) + "页")

         getJobInfo(pageUrl)

python爬虫爬取腾讯招聘信息（静态爬虫）的更多相关文章

node.js 89行爬虫爬取智联招聘信息
写在前面的话, .......写个P,直接上效果图.附上源码地址 github/lonhon ok,正文开始,先列出用到的和require的东西: node.js,这个是必须的 request,然发 ...
用Python爬取智联招聘信息做职业规划
上学期在实验室发表时写了一个爬取智联招牌信息的爬虫. 操作流程大致分为:信息爬取——数据结构化——存入数据库——所需技能等分词统计——数据可视化 1.数据爬取 job = "通信工程师&qu ...
简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息
简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息系统环境:Fedora22(昨天已安装scrapy环境) 爬取的开始URL:ht ...
Python 爬取腾讯招聘职位详情 2019/12/4有效
我爬取的是Python相关职位,先po上代码,(PS:本人小白,这是跟着B站教学视频学习后,老师留的作业,因为腾讯招聘的网站变动比较大,老师的代码已经无法运行,所以po上),一些想法和过程在后面. f ...
使用python scrapy爬取知乎提问信息
前文介绍了python的scrapy爬虫框架和登录知乎的方法. 这里介绍如何爬取知乎的问题信息,并保存到mysql数据库中. 首先,看一下我要爬取哪些内容: 如下图所示,我要爬取一个问题的6个信息: ...
Node.js爬虫-爬取慕课网课程信息
第一次学习Node.js爬虫,所以这时一个简单的爬虫,Node.js的好处就是可以并发的执行这个爬虫主要就是获取慕课网的课程信息,并把获得的信息存储到一个文件中,其中要用到cheerio库,它可以让 ...
Python+selenium爬取智联招聘的职位信息
整个爬虫是基于selenium和Python来运行的,运行需要的包 mysql,matplotlib,selenium 需要安装selenium火狐浏览器驱动,百度的搜寻. 整个爬虫是模块化组织的,不 ...
Python写网络爬虫爬取腾讯新闻内容
最近学了一段时间的Python,想写个爬虫,去网上找了找,然后参考了一下自己写了一个爬取给定页面的爬虫. Python的第三方库特别强大,提供了两个比较强大的库,一个requests, 另外一个Bea ...
python之scrapy爬取某集团招聘信息以及招聘详情
1.定义爬取的字段items.py # -*- coding: utf-8 -*- # Define here the models for your scraped items # # See do ...

随机推荐

Java实现网页截屏
原文:http://www.open-open.com/code/view/1424006089452 import java.awt.AWTException; import java.awt.De ...
【网络】TCP的拥塞控制
一.拥塞控制的一般原理拥塞:对网络中某一资源的需求超过了该资源所能提供的可用部分拥塞控制是防止过多的数据注入到网络,这样可以使网络中的路由器或链路不致过载,拥塞控制是一个全局性的过程. 流量控制往 ...
[RxJS] Implement the `map` Operator from Scratch in RxJS
While it's great to use the RxJS built-in operators, it's also important to realize you now have the ...
单点登录cas常见问题(二) - 子系统是否会频繁訪问cas中心？
这个问题的完整描写叙述是:用户成功登陆后.在訪问子系统的受限资源时,还须要訪问cas中心么,即子系统是否还会频繁訪问cas中心.cas中心会不会压力太大? 答案是:不会. 假设用户通过子系统A登录了c ...
webpack-Manifest
Manifest 在使用 webpack 构建的典型应用程序或站点中,有三种主要的代码类型: 你或你的团队编写的源码. 你的源码会依赖的任何第三方的 library 或 "vendor&qu ...
Android Studio一些简单设置
简单设置 1.默认主题设置默认的 Android Studio 为灰色界面,能够选择使用炫酷的黑色界面. Settings --> Appearance --> Them ...
1.NetDh框架之数据库操作层--Dapper简单封装，可支持多库实例、多种数据库类型等(附源码和示例代码)
1.NetDh框架开始的需求场景需求场景: 1.之前公司有不同.net项目组,有的项目是用SqlServer做数据库,有的项目是用Oracle,后面也有可能会用到Mysql等,而且要考虑后续扩展成主 ...
css hack原理
近期看了几篇关于css hack的文章,认为不错整理一下. css hack非常多人不理解它的原理,事实上大家都知道对于不同的浏览器,CSS的解析程度不一样.因此会导致生成的页面效果不一样:特别是对于 ...
Android Studio keymap到Eclipse后，查找下一个同样变量快捷键Ctrl+K失效
注:升级到0.8的版本号以后.这个快捷键能够使了,只是另一个bug,假设你用了Ctrl+F先去查找了其它的东东,再使这个快捷键去定位另外一个变量可能偶尔会不灵,不灵的话还是能够用我以下的方式来让Ctr ...
IIS7添加虚拟目录映射另一台服务器的共享文件夹
现状: 一台Windows Server2008 Web服务器 A,一台Windows Server2003 文件服务器 B,需要在A中IIS添加对B的Web访问方法: 1.A中添加和B相同的账号, ...

python爬虫爬取腾讯招聘信息 （静态爬虫）

python爬虫爬取腾讯招聘信息 （静态爬虫）的更多相关文章

随机推荐

热门专题

python爬虫爬取腾讯招聘信息（静态爬虫）

python爬虫爬取腾讯招聘信息（静态爬虫）的更多相关文章