腾讯招聘网数据爬取存入mongodb
#!/user/bin/env python3 # -*- coding: utf-8 -*- import requests from lxml import etree from math import ceil from mongodb_config import mongo_info header = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 ' 'Safari/537.36'} # 获取岗位页数 def getJobPage(url): res = requests.get(url, headers=header) html = etree.HTML(res.text) total = html.xpath('//div[@class="left"]/span/text()')[0] job_page = ceil(int(total) / 10) return job_page # 获取详情页职位描述 def getJobOrder(url): # url = 'https://hr.tencent.com/position_detail.php?id=49256&keywords=&tid=0&lid=0' res = requests.get(url, headers=header) html = etree.HTML(res.text) detail_info = html.xpath('//table[@class="tablelist textl"]') for item in detail_info: # 工作职责 job_request = item.xpath('tr[3]//ul[@class="squareli"]/li/text()') # 工作要求 job_order = item.xpath('tr[4]/td/ul[@class="squareli"]/li/text()') # print(job_request) # print(job_order) list_data = [job_request, job_order] return list_data # 获取列表页岗位信息 def getJobInfo(url): res = requests.get(url, headers=header) html = etree.HTML(res.text) job_list = html.xpath('//tr[@class="even" or @class="odd"]') list_data = [] href = 'https://hr.tencent.com/' for list_job in job_list: dict_item = {} # print(etree.tostring(list_job, encoding='utf-8').decode('utf-8')) detail_url = href + list_job.xpath('.//a/@href')[0] job_name = list_job.xpath('.//td[1]/a/text()')[0] job_type = list_job.xpath('.//td[2]/text()')[0] job_people = list_job.xpath('.//td[3]/text()')[0] job_addre = list_job.xpath('.//td[4]/text()')[0] job_time = list_job.xpath('.//td[5]/text()')[0] # 工作职责 job_request = getJobOrder(detail_url)[0] # 工作要求 job_order = getJobOrder(detail_url)[1] dict_item['detail_url'] = detail_url dict_item['job_name'] = job_name dict_item['job_type'] = job_type dict_item['job_people'] = job_people dict_item['job_addre'] = job_addre dict_item['job_time'] = job_time dict_item['job_request'] = job_request dict_item['job_order'] = job_order list_data.append(dict_item) mongo_info.update_tencent(list_data) print(list_data) if __name__ == '__main__': mainurl = 'https://hr.tencent.com/position.php?&start=0#a' jobPage = getJobPage(mainurl) for page in range(jobPage): pageUrl = 'https://hr.tencent.com/position.php?&start=' + str(page * 10) + '#a' print("第" + str(page + 1) + "页") getJobInfo(pageUrl) # getJobOrder()
#!/user/bin/env python3 # -*- coding: utf-8 -*- from pymongo import MongoClient class Connect_mongo(object): def __init__(self): # 无密码认证使用该代码 # self.client = MongoClient(host='127.0.0.1', port=27017) # self.client = MongoClient(host='192.168.1.191', port=27017) # 有密码认证使用该代码 self.client = MongoClient(host='127.0.0.1', port=27017) # self.client = MongoClient(host='192.168.1.193', port=27017) # 数据库名loan self.database = self.client.loan self.tencent_database = self.client.tencent # 认证用户密码 self.dbinfo = self.database.authenticate('xxx', 'xxxx') self.tencent_dbinfo = self.tencent_database.authenticate('xxx', 'xxx') # 无密码认证 # 查询全部产品名 def find_all_name(self): _database = self.client.loan _collection = _database.loan_datase_sums loan_name = _collection.find({}, {'_id': 0, 'loan_name': 1}) return loan_name # 去重查询 def find_distinct_name(self): _database = self.client.loan _collection = _database.loan_datase_sums loan_name = _collection.distinct('loan_name') return loan_name def update_data(self, document): _client = self.client _database = self.database self.dbinfo _collection = _database.loan_datase_sums for res in document: result = _collection.update_many({'loan_name': res['loan_name']}, {'$set': res}, upsert=True) return result def update_rong360(self, document): _client = self.client _database = self.database self.dbinfo _collection = _database.rong360 for res in document: result = _collection.update_many({'loan_name': res['loan_name']}, {'$set': res}, upsert=True) return result def update_tencent(self, document): _client = self.client _database = self.tencent_database self.tencent_dbinfo _collection = _database.advertise_datase for res in document: result = _collection.update_many({'job_name': res['job_name']}, {'$set': res}, upsert=True) return result mongo_info = Connect_mongo()
腾讯招聘网数据爬取存入mongodb的更多相关文章
- Scrapy实现腾讯招聘网信息爬取【Python】
一.腾讯招聘网 二.代码实现 1.spider爬虫 # -*- coding: utf-8 -*- import scrapy from Tencent.items import TencentIte ...
- Python爬虫入门教程 3-100 美空网数据爬取
美空网数据----简介 从今天开始,我们尝试用2篇博客的内容量,搞定一个网站叫做"美空网"网址为:http://www.moko.cc/, 这个网站我分析了一下,我们要爬取的图片在 ...
- 人人贷网的数据爬取(利用python包selenium)
记得之前应同学之情,帮忙爬取人人贷网的借贷人信息,综合网上各种相关资料,改善一下别人代码,并能实现数据代码爬取,具体请看我之前的博客:http://www.cnblogs.com/Yiutto/p/5 ...
- 爬虫1.5-ajax数据爬取
目录 爬虫-ajax数据爬取 1. ajax数据 2. selenium+chromedriver知识准备 3. selenium+chromedriver实战拉勾网爬虫代码 爬虫-ajax数据爬取 ...
- 基于 PHP 的数据爬取(QueryList)
基于PHP的数据爬取 官方网站站点 简单. 灵活.强大的PHP采集工具,让采集更简单一点. 简介: QueryList使用jQuery选择器来做采集,让你告别复杂的正则表达式:QueryList具有j ...
- 移动端数据爬取和Scrapy框架
移动端数据爬取 注:抓包工具:青花瓷 1.配置fiddler 2.移动端安装fiddler证书 3.配置手机的网络 - 给手机设置一个代理IP:port a. Fiddler设置 打开Fiddler软 ...
- 小爬爬5:重点回顾&&移动端数据爬取1
1. ()什么是selenium - 基于浏览器自动化的一个模块 ()在爬虫中为什么使用selenium及其和爬虫之间的关联 - 可以便捷的获取动态加载的数据 - 实现模拟登陆 ()列举常见的sele ...
- Web Scraper——轻量数据爬取利器
日常学习工作中,我们多多少少都会遇到一些数据爬取的需求,比如说写论文时要收集相关课题下的论文列表,运营活动时收集用户评价,竞品分析时收集友商数据. 当我们着手准备收集数据时,面对低效的复制黏贴工作,一 ...
- python实现人人网用户数据爬取及简单分析
这是之前做的一个小项目.这几天刚好整理了一些相关资料,顺便就在这里做一个梳理啦~ 简单来说这个项目实现了,登录人人网并爬取用户数据.并对用户数据进行分析挖掘,终于效果例如以下:1.存储人人网用户数据( ...
随机推荐
- Hadoop ->> HIVE
HIVE的由来: 最初由Facebook基于HDFS开发出来的一套数据仓库工具. HIVE可以干什么? HIVE可以将已经结构化的数据映射成一张表,然后可以使用HIVE语言像写T-SQL一样查询数据. ...
- HttpClient拉取连载小说
上午刚入手的小说,下午心血来潮想从网站上拉取下来做成电子书,呵呵,瞎折腾-说做就做- [抓包] 这一步比什么都重要,如果找不到获取真正资源的那个请求,就什么都不用做了- 先是打算用迅雷把所有页面都下载 ...
- Windows 系统 Unicode 文件名操作(新建、重命名、枚举、复制)全攻略
常见的那些文件操作函数都不支持,于是为了达到目的,需要各种方法配合,应该是不如其他语言方便.我只是想看看Perl到底是否适合做这件事,于是折腾了一回. 文件的建立: 模块:Win32 Code: [全 ...
- Docker入门系列之一:在一个Docker容器里运行指定的web应用
实现题目描述的这个需求有很多种办法,作为入门,让我们从最简单的办法开始. 首先使用命令docker ps确保当前没有正在运行的Docker实例. 运行命令docker run -it nginx: 然 ...
- javascript运算符——条件、逗号、赋值、()和void运算符 (转载)
原文出自 作者:小火柴的蓝色理想 javascript中运算符总共有46个,除了前面已经介绍过的算术运算符.关系运算符.位运算符.逻辑运算符之外,还有很多运算符.本文将介绍条件运算符.逗号运算符. ...
- HDU1215 七夕节(模拟 数学)
传送门: http://acm.hdu.edu.cn/showproblem.php?pid=1215 七夕节 Time Limit: 2000/1000 MS (Java/Others) Me ...
- 使用MVCPager做AJAX分页所走的弯路
使用MVCPager做AJAX分页所需要注意的地方: 1.版本问题,推荐使用2.0以上,对ajax支持才比较的好了 2.当需要使用页索引输入或下拉框以及使用Ajax分页模式时,必须用Html.Regi ...
- 【其它】Nook HD刷机
很久以前的 Nook HD 平板刷机.只能用 microSD(TF)卡刷.需要的软件全都保存在了自己的百度网盘,自己亲测有效. 一.准备工作 1.首先,将tf卡格式化为fat32格式,实测可以使用.将 ...
- WebStorm中Node.js项目配置教程——项目设置
上一章讲解了Node.js项目在WebStorm中的两种创建方式,当完成Node.js项目创建以后,剩下的就是涉及配置设置工作. 为了确保Node.js全局和Node.js核心模块的代码完成功能,打开 ...
- linux简介及虚拟机安装
1.简介 计算机组成