Python 爬虫实例(15) 爬取 百度百聘(微信公众号)
今天闲的无聊,爬取了一个网站,百度百聘,仅供学习参考
直接上代码:
- #-*-coding:utf-8-*-
- from common.contest import *
- def spider():
- headers = {
- "Host":"zhaopin.baidu.com",
- "Connection":"keep-alive",
- "User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.91 Safari/537.36",
- "Accept":"*/*",
- "Referer":"http://zhaopin.baidu.com/qz?query=%E7%88%AC%E8%99%AB%E5%B7%A5%E7%A8%8B%E5%B8%88",
- "Accept-Encoding":"gzip, deflate",
- "Accept-Language":"zh-CN,zh;q=0.8",
- "Cookie":"BAIDUID=F9ED0B117C16BC97A29D64DD28F4CBB9:FG=1; BIDUPSID=F9ED0B117C16BC97A29D64DD28F4CBB9; PSTM=1532340289; locale=zh;
Hm_lvt_c676f95eebbd4fa8a59418f48090ac4d=1532922582; URLTITLESALARY=%20; Hm_lvt_80a630f2b5c230ad2a5d3f1356e18706=1532938867;
Hm_lpvt_80a630f2b5c230ad2a5d3f1356e18706=1532941545; td_cookie=966486977",- }
- url = 'http://zhaopin.baidu.com/api/qzasync'
- for page in range(0,11):
- print "正在爬取的页数是:",str(page)
- data = {
- "query":"爬虫工程师",
- "city":"%E5%8C%97%E4%BA%AC",
- "pcmod":"",
- "pn":str(page),
- "rn":"",
- }
- result = session.get(url=url,params=data,headers=headers).json()
- result = result['data']['disp_data']
- for ii in result:
- try:
- ori_size = ii['ori_size']
- except:
- ori_size = ""
- ori_city = ii['ori_city']
- ori_type = ii['ori_type']
- StdStl = ii['StdStl']
- sourcelink = ii['sourcelink']
- _version = ii['_version']
- haswapurl = ii['haswapurl']
- education = ii['education']
- try:
- size = ii['size']
- except:
- size = ""
- format_date = ii['format_date']
- detailidx = ii['detailidx']
- title = ii['title']
- ori_employertype = ii['ori_employertype']
- requirements = ii['requirements']
- company_id = ii['company_id']
- ori_salary = ii['ori_salary']
- source = ii['source']
- location = ii['location']
- provider = ii['provider']
- employertype = ii['employertype']
- lastmod = ii['lastmod']
- _update_time = ii['_update_time']
- ori_education = ii['ori_education']
- try:
- companyaddress = ii['companyaddress']
- except:
- companyaddress = ""
- company = ii['company']
- try:
- commonname = ii['commonname']
- except:
- commonname = ""
- ori_welfare = ii['ori_welfare']
- ori_experience = ii['ori_experience']
- ori_welfare = str(ori_welfare).decode('unicode_escape')
- print "ori_salary",ori_salary
- print "ori_size",ori_size
- print "ori_city",ori_city
- print "ori_type",ori_type
- print "StdStl",StdStl
- print "sourcelink",sourcelink
- print "_version",_version
- print "haswapurl",haswapurl
- print "education",education
- print "id",id
- print "size",size
- print "format_date",format_date
- print "detailidx",detailidx
- print "title",title
- print "ori_employertype",ori_employertype
- print "requirements",requirements
- print "company_id",company_id
- print "ori_salary",ori_salary
- print "ori_salary",ori_salary
- print "source",source
- print "employertype",employertype
- print "location",location
- print "provider",provider
- print "employertype",employertype
- print "lastmod",lastmod
- print "_update_time",_update_time
- print "ori_education",ori_education
- print "companyaddress",companyaddress
- print "company",company
- print "commonname",commonname
- print "ori_welfare",ori_welfare
- print "ori_experience",ori_experience
- time.sleep(5)
- spider()
这个网址没有什么难度,只需要简单的请求一下请求接口就能得到数据,注意请求参数 city 需要 URL编码一下就可以,不会的同学请自行百度 URL编码 就可以了
Python 爬虫实例(15) 爬取 百度百聘(微信公众号)的更多相关文章
- Python爬虫实战之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标 对百度贴吧的任意帖子进行抓取 指定是否只抓取楼主发帖 ...
- Python爬虫实例:爬取B站《工作细胞》短评——异步加载信息的爬取
很多网页的信息都是通过异步加载的,本文就举例讨论下此类网页的抓取. <工作细胞>最近比较火,bilibili 上目前的短评已经有17000多条. 先看分析下页面 右边 li 标签中的就是短 ...
- Python爬虫实例:爬取猫眼电影——破解字体反爬
字体反爬 字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的. 现在貌似不少网 ...
- Python爬虫实例:爬取豆瓣Top250
入门第一个爬虫一般都是爬这个,实在是太简单.用了 requests 和 bs4 库. 1.检查网页元素,提取所需要的信息并保存.这个用 bs4 就可以,前面的文章中已经有详细的用法阐述. 2.找到下一 ...
- [Python爬虫] 之十五:Selenium +phantomjs根据微信公众号抓取微信文章
借助搜索微信搜索引擎进行抓取 抓取过程 1.首先在搜狗的微信搜索页面测试一下,这样能够让我们的思路更加清晰 在搜索引擎上使用微信公众号英文名进行“搜公众号”操作(因为公众号英文名是公众号唯一的,而中文 ...
- Python 爬虫练习: 爬取百度贴吧中的图片
背景:最近开始看一些Python爬虫相关的知识,就在网上找了一些简单已与练习的一些爬虫脚本 实现功能:1,读取用户想要爬取的贴吧 2,读取用户先要爬取某个贴吧的页数范围 3,爬取每个贴吧中用户输入的页 ...
- 芝麻HTTP:Python爬虫实战之爬取百度贴吧帖子
本篇目标 1.对百度贴吧的任意帖子进行抓取 2.指定是否只抓取楼主发帖内容 3.将抓取到的内容分析并保存到文件 1.URL格式的确定 首先,我们先观察一下百度贴吧的任意一个帖子. 比如:http:// ...
- 【python爬虫】 之 爬取百度首页
刚开始学习爬虫,照着教程手打了一遍,还是蛮有成就感的.使用版本:python2.7 注意:python2的默认编码是ASCII编码而python3默认编码是utf-8 import urllib2 u ...
- Python爬虫教程-17-ajax爬取实例(豆瓣电影)
Python爬虫教程-17-ajax爬取实例(豆瓣电影) ajax: 简单的说,就是一段js代码,通过这段代码,可以让页面发送异步的请求,或者向服务器发送一个东西,即和服务器进行交互 对于ajax: ...
随机推荐
- Python调用Windows外部程序
在Python中可以方便地使用os模块运行其他的脚本或者程序,这样就可以在脚本中直接使用其他脚本,或者程序提供的功能,而不必再次编写实现该功能的代码.为了更好地控制运行的进程,可以使用win32pro ...
- 元素高度、宽度获取 style currentStyle getComputedStyle getBoundingClientRect
1.示例代码 (1)html <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> ...
- openerp 7.0邮件接收中文附件乱码问题解决办法
openerp 7.0邮件接收中文附件乱码问题解决办法: 修改文件\addons\mail\mail_thread.py #1064 line插入代码: h=email.Header.Header(n ...
- Android玩转百度地图Sha1获取正确姿势?
场景一 由于近期项目钟要用到定位功能因此肯定须要用到地图以及地位功能,相信大家也知道眼下国内比較出名的地图像百度.高德.腾讯等这些还是用到比較多的.于是思考了一下决定还是用百度,相信老司机们都知道的哈 ...
- V-rep学习笔记:Reflexxes Motion Library 1
V-REP中集成了在线运动轨迹生成库Reflexxes Motion Library Type IV,目前Reflexxes公司已经被谷歌收购.(The Reflexxes Motion Librar ...
- 江南白衣整理和开发的java常用工具类
江南白衣的公众号的介绍文章:http://mp.weixin.qq.com/s/6JUo1vmUa-7SuDH6yIxKeQ github的地址:https://github.com/springsi ...
- VirtualBox-5.0.16设置windows与ubuntu的共享文件夹
操作环境:win7.VirtualBox-5.0.16.ubuntukylin-14.04.2-desktop-amd64 1.先下载安装VBoxGuestAdditions_5.0.17-10614 ...
- 转 CentOS下php安装mcrypt扩展
(以下步骤均为本人实际操作,可能与你的安装方法有所区别,但我会尽量排除疑惑) 大致步骤(1)安装mcrypt,(2)安装php对mcrypt的扩展,(3)重启apache (1).确认你的linux没 ...
- [转载]JDBC/Spring/MyBatis性能比较
原文地址:JDBC/Spring/MyBatis性能比较作者:tom_lt 测试目的: 比较JDBC,SpringJdbc和MyBatis的性能. 测试用例: 1. 查询:查询一张10000条数据 ...
- angularJS实现无刷新文件下载
$scope.getExcel = function () { $http.post("/production/statistics/export", { storeId: $sc ...