今天闲的无聊,爬取了一个网站,百度百聘,仅供学习参考

直接上代码:

#-*-coding:utf-8-*-
from common.contest import * def spider(): headers = { "Host":"zhaopin.baidu.com",
"Connection":"keep-alive",
"User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.91 Safari/537.36",
"Accept":"*/*",
"Referer":"http://zhaopin.baidu.com/qz?query=%E7%88%AC%E8%99%AB%E5%B7%A5%E7%A8%8B%E5%B8%88",
"Accept-Encoding":"gzip, deflate",
"Accept-Language":"zh-CN,zh;q=0.8",
"Cookie":"BAIDUID=F9ED0B117C16BC97A29D64DD28F4CBB9:FG=1; BIDUPSID=F9ED0B117C16BC97A29D64DD28F4CBB9; PSTM=1532340289; locale=zh;
      Hm_lvt_c676f95eebbd4fa8a59418f48090ac4d=1532922582; URLTITLESALARY=%20; Hm_lvt_80a630f2b5c230ad2a5d3f1356e18706=1532938867;
        Hm_lpvt_80a630f2b5c230ad2a5d3f1356e18706=1532941545; td_cookie=966486977", } url = 'http://zhaopin.baidu.com/api/qzasync'
for page in range(0,11):
print "正在爬取的页数是:",str(page)
data = { "query":"爬虫工程师",
"city":"%E5%8C%97%E4%BA%AC",
"pcmod":"",
"pn":str(page),
"rn":"",
} result = session.get(url=url,params=data,headers=headers).json()
result = result['data']['disp_data']
for ii in result: try:
ori_size = ii['ori_size']
except:
ori_size = "" ori_city = ii['ori_city']
ori_type = ii['ori_type']
StdStl = ii['StdStl']
sourcelink = ii['sourcelink']
_version = ii['_version']
haswapurl = ii['haswapurl']
education = ii['education'] try:
size = ii['size']
except:
size = "" format_date = ii['format_date']
detailidx = ii['detailidx']
title = ii['title']
ori_employertype = ii['ori_employertype']
requirements = ii['requirements']
company_id = ii['company_id']
ori_salary = ii['ori_salary']
source = ii['source']
location = ii['location']
provider = ii['provider']
employertype = ii['employertype']
lastmod = ii['lastmod']
_update_time = ii['_update_time']
ori_education = ii['ori_education'] try:
companyaddress = ii['companyaddress']
except:
companyaddress = "" company = ii['company']
try:
commonname = ii['commonname']
except:
commonname = "" ori_welfare = ii['ori_welfare']
ori_experience = ii['ori_experience'] ori_welfare = str(ori_welfare).decode('unicode_escape') print "ori_salary",ori_salary
print "ori_size",ori_size
print "ori_city",ori_city
print "ori_type",ori_type
print "StdStl",StdStl
print "sourcelink",sourcelink
print "_version",_version
print "haswapurl",haswapurl
print "education",education
print "id",id
print "size",size
print "format_date",format_date
print "detailidx",detailidx
print "title",title
print "ori_employertype",ori_employertype
print "requirements",requirements
print "company_id",company_id
print "ori_salary",ori_salary
print "ori_salary",ori_salary
print "source",source
print "employertype",employertype
print "location",location
print "provider",provider
print "employertype",employertype
print "lastmod",lastmod
print "_update_time",_update_time
print "ori_education",ori_education
print "companyaddress",companyaddress
print "company",company
print "commonname",commonname
print "ori_welfare",ori_welfare
print "ori_experience",ori_experience time.sleep(5) spider()

这个网址没有什么难度,只需要简单的请求一下请求接口就能得到数据,注意请求参数 city 需要  URL编码一下就可以,不会的同学请自行百度     URL编码  就可以了

Python 爬虫实例(15) 爬取 百度百聘(微信公众号)的更多相关文章

  1. Python爬虫实战之爬取百度贴吧帖子

    大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标 对百度贴吧的任意帖子进行抓取 指定是否只抓取楼主发帖 ...

  2. Python爬虫实例:爬取B站《工作细胞》短评——异步加载信息的爬取

    很多网页的信息都是通过异步加载的,本文就举例讨论下此类网页的抓取. <工作细胞>最近比较火,bilibili 上目前的短评已经有17000多条. 先看分析下页面 右边 li 标签中的就是短 ...

  3. Python爬虫实例:爬取猫眼电影——破解字体反爬

    字体反爬 字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的. 现在貌似不少网 ...

  4. Python爬虫实例:爬取豆瓣Top250

    入门第一个爬虫一般都是爬这个,实在是太简单.用了 requests 和 bs4 库. 1.检查网页元素,提取所需要的信息并保存.这个用 bs4 就可以,前面的文章中已经有详细的用法阐述. 2.找到下一 ...

  5. [Python爬虫] 之十五:Selenium +phantomjs根据微信公众号抓取微信文章

    借助搜索微信搜索引擎进行抓取 抓取过程 1.首先在搜狗的微信搜索页面测试一下,这样能够让我们的思路更加清晰 在搜索引擎上使用微信公众号英文名进行“搜公众号”操作(因为公众号英文名是公众号唯一的,而中文 ...

  6. Python 爬虫练习: 爬取百度贴吧中的图片

    背景:最近开始看一些Python爬虫相关的知识,就在网上找了一些简单已与练习的一些爬虫脚本 实现功能:1,读取用户想要爬取的贴吧 2,读取用户先要爬取某个贴吧的页数范围 3,爬取每个贴吧中用户输入的页 ...

  7. 芝麻HTTP:Python爬虫实战之爬取百度贴吧帖子

    本篇目标 1.对百度贴吧的任意帖子进行抓取 2.指定是否只抓取楼主发帖内容 3.将抓取到的内容分析并保存到文件 1.URL格式的确定 首先,我们先观察一下百度贴吧的任意一个帖子. 比如:http:// ...

  8. 【python爬虫】 之 爬取百度首页

    刚开始学习爬虫,照着教程手打了一遍,还是蛮有成就感的.使用版本:python2.7 注意:python2的默认编码是ASCII编码而python3默认编码是utf-8 import urllib2 u ...

  9. Python爬虫教程-17-ajax爬取实例(豆瓣电影)

    Python爬虫教程-17-ajax爬取实例(豆瓣电影) ajax: 简单的说,就是一段js代码,通过这段代码,可以让页面发送异步的请求,或者向服务器发送一个东西,即和服务器进行交互 对于ajax: ...

随机推荐

  1. vsphere 处理NUMA

    vsphere 4.1 之前: cpu调度会将一个VM的分配给一个home node,整个vm被看做一个NUMA client. 如果VM的vCPU数量超过一个NUMA node的可用数量,则不被看做 ...

  2. WebSocket【转】

    1.什么是WebSocket WebSocket 是一种自然的全双工.双向.单套接字连接.使用WebSocket,你的HTTP 请求变成打开WebSocket 连接(WebSocket 或者WebSo ...

  3. 变址values(, %edi, 4)和间址4(%edi)

    <汇编语言程序设计>Richard Blum著:5.2.4 在内存和寄存器之间传送数据   使用变址的内存位置: 可以在一个命令中指定把多个值存放到内存中: values:     .in ...

  4. Aerospike系列:8:集群宕机演练

    1:初始的集群状态 2:关掉192.168.91.133:3000 3:再关掉192.168.91.135:3000 3:再关掉192.168.91.144:3000 5:恢复192.168.91.1 ...

  5. Python文本爬虫实战

    转载请注明原文地址:http://www.cnblogs.com/ygj0930/p/7019950.html  一:流程 目标:爬取目标网页的图片 1:获取网页源码 2:用Python读取源码 3: ...

  6. 图解Ajax工作原理

    转载请注明原文地址:http://www.cnblogs.com/ygj0930/p/6126542.html Ajax指Asynchronous JavaScript and XML(异步的 Jav ...

  7. ps 如何制作动态打字图?

      1.情景展示 有几句话,想以打字的形式出现,而不是干巴巴的几个字,如何实现这个有趣的效果呢? 2.解决方案 第一步:录制屏幕:将想展示的文字逐字打出来-->保存: 第二步:将录制的视频使用p ...

  8. Excel分数、小数、身份证的录入

    身份证输入: 方法1:将单元格格式设置为文本,在输入数据 方法2:在输入之前输入英文状态下的单引号在输入数据 分数输入: 办法1:0[空格]数字/数字,如:0 1/3 办法2:将需要输入数据的区域设置 ...

  9. Centos7.4下keepalived-1.3.5的安装使用

    keepalived两个功能,一个是使lvs使用的vip高可用,一个是监控下游各个子节点的对应端口是否正常工作,以保证快速剔除坏掉的节点. keepalived默认的yum 1.3.5有BUG,根本跑 ...

  10. 编译安装linux内核步骤

    编译安装linux内核步骤: 一.获取内核源码 源码网址:www.kernel.org 二.解压内核源码 首先以root帐号登录,然后进入/usr/src子目录.如果用户在安装Linux时,安装了内核 ...