爬取拉勾网招聘信息并使用xlwt存入Excel
1.Python模块介绍 - xlwt ,什么是xlwt?
- Python语言中,写入Excel文件的扩展工具。
- 相应的有扩展包xlrd,专门用于excel读取。
- 可以实现指定表单、指定单元格的写入。
2.xlwt使用
- 导入模块
import xlwt
- 创建workbook,即创建excel,后来要进行保存
workbook = xlwt.Workbook(encoding = 'utf-8')
- 创建表
worksheet = workbook.add_sheet('My Worksheet',cell_overwrite_ok=True) ##第二参数用于确认同一个cell单元是否可以重设值。
- 往单元格内写入内容
worksheet.write(0, 0, label = 'Row 0, Column 0 Value')
- 保存
workbook.save('Excel_Workbook.xls')
- 增加单元格内容
write_merge(x, x + m, y, y + n, string, sytle)
# x表示行,y表示列,m表示跨行个数,n表示跨列个数,string表示要写入的单元格内容,style表示单元格样式。其#中,x,y,w,h,都是以0开始计算的。
#这个和xlrd中的读合并单元格的不太一样。
add_sheet #如果需要创建多个sheet,则只要f.add_sheet即可
注意:
python2.X 版本下,使用xlwt扩展包。
python3.X 版本下,需要更新到xlwt3扩展包。
3.xlwt模块使用实例
#代码来自code.py40.com import xlwt def write_excel(): f = xlwt.Workbook() #创建工作簿 sheet1 = f.add_sheet(u'sheet1',cell_overwrite_ok=True) #创建sheet row0= [u'编号',u'姓名',u'性别',u'生日'] #生成第0行 for i in range(0,len(row0)): sheet1.write(0,i,row0[i]) row1 = [u',u'张三',u'男'] row2 = [u',u'李四',u'女'] date = '1990-01-04' #生成第一行 for i in range(0,len(row1)): sheet1.write(1,i,row1[i]) #生成第二行 for i in range(0,len(row2)): sheet1.write(2,i,row2[i]) #写入合并的单元格数据1990-01-04 sheet1.write_merge(1,2,3,3,date) f.save(r'E:\python\learn\demo1.xls') #保存文件 #python写入Excel文档 if __name__ == '__main__': #generate_workbook() #read_excel() write_excel()
4.enumerate()说明
- enumerate()是python的内置函数
- enumerate在字典上是枚举、列举的意思
- 对于一个可迭代的(iterable)/可遍历的对象(如列表、字符串),enumerate将其组成一个索引序列,利用它可以同时获得索引和值
- enumerate多用于在for循环中得到计数
5.爬取拉勾网招聘信息并通过xlwt存入Excel
1.分析拉勾网网页结构及数据
- 代码如下:
#-*- coding:utf-8 -*- created 2017.9.12 import json import requests import xlwt import time from lxml import etree #解决编码的问题 import sys reload(sys) sys.setdefaultencoding('utf-8') #获取存储职位信息的json对象,遍历获得公司名、福利待遇、工作地点、学历要求、工作类型、发布时间、职位名称、薪资、工作年限 def get_json(url,datas): my_headers = { 'User-Agent': 'User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) ' 'AppleWebKit/537.36 (KHTML, like Gecko) ' 'Chrome/60.0.3112.90 Safari/537.36', 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8', 'Host': 'www.lagou.com', 'Origin': 'https://www.lagou.com', 'Referer': 'https://www.lagou.com/jobs/list_python?city=%E4%B8%8A%E6%B5%B7&cl=false&fromSearch=true&labelWords=&suginput=', } cookies = { 'Cookie': 'user_trace_token=20170824135842-485287de-8891-11e7-a544-525400f775ce; LGUID=20170824135842-48528e05-8891-11e7-a544-525400f775ce; JSESSIONID=ABAAABAAADEAAFI772FD1B9AABBF0C5553E874B0F860350; _putrc=B95D7C5E94F53DA8; login=true; unick=%E9%83%AD%E5%B2%A9; showExpriedIndex=1; showExpriedCompanyHome=1; showExpriedMyPublish=1; hasDeliver=3; PRE_UTM=; PRE_HOST=; PRE_SITE=; PRE_LAND=https%3A%2F%2Fwww.lagou.com%2F; _gat=1; TG-TRACK-CODE=index_search; SEARCH_ID=f0acbb8b2145433cb8fe7086f23be622; index_location_city=%E5%8C%97%E4%BA%AC; _gid=GA1.2.397092414.1504747009; Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1504756944,1504761486,1504783443,1504839029; Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1504839719; _ga=GA1.2.1499897355.1503554319; LGSID=20170908105032-7b45520c-9440-11e7-8aae-525400f775ce; LGRID=20170908110159-14c6e1a8-9442-11e7-8ab1-525400f775ce' } time.sleep(8) content = requests.post(url=url,cookies=cookies,headers=my_headers,data=datas) # content.encoding = 'utf-8' result = content.json() print result info = result['content']['positionResult']['result'] # print info info_list = [] for job in info: information = [] information.append(job['positionId']) #岗位对应ID information.append(job['companyFullName']) #公司全名 information.append(job['companyLabelList']) #福利待遇 information.append(job['district']) #工作地点 information.append(job['education']) #学历要求 information.append(job['firstType']) #工作类型 information.append(job['formatCreateTime']) #发布时间 information.append(job['positionName']) #职位名称 information.append(job['salary']) #薪资 information.append(job['workYear']) #工作年限 info_list.append(information) #将列表对象进行json格式的编码转换,其中indent参数设置缩进值为2 print json.dumps(info_list,ensure_ascii=False,indent=2) print info_list return info_list def main(): page = int(raw_input('请输入你要抓取的页码总数:')) # kd = raw_input('请输入你要抓取的职位关键字:') # city = raw_input('请输入你要抓取的城市:') info_result = [] title = ['岗位id','公司全名','福利待遇','工作地点','学历要求','工作类型','发布时间','职位名称','薪资','工作年限'] info_result.append(title) for x in range(1,page+1): url = 'https://www.lagou.com/jobs/positionAjax.json?&needAddtionalResult=false' datas = { 'first': True, 'pn': x, 'kd': 'python', 'city': '上海' } info = get_json(url,datas) info_result = info_result+info #创建workbook,即excel workbook = xlwt.Workbook(encoding='utf-8') #创建表,第二参数用于确认同一个cell单元是否可以重设值 worksheet = workbook.add_sheet('lagouzp',cell_overwrite_ok=True) for i, row in enumerate(info_result): # print row for j,col in enumerate(row): # print col worksheet.write(i,j,col) workbook.save('lagouzp.xls') if __name__ == '__main__': main()
爬取拉勾网招聘信息并使用xlwt存入Excel的更多相关文章
- Python爬取拉勾网招聘信息并写入Excel
这个是我想爬取的链接:http://www.lagou.com/zhaopin/Python/?labelWords=label 页面显示如下: 在Chrome浏览器中审查元素,找到对应的链接: 然后 ...
- python-scrapy爬虫框架爬取拉勾网招聘信息
本文实例为爬取拉勾网上的python相关的职位信息, 这些信息在职位详情页上, 如职位名, 薪资, 公司名等等. 分析思路 分析查询结果页 在拉勾网搜索框中搜索'python'关键字, 在浏览器地址栏 ...
- 【图文详解】scrapy爬虫与动态页面——爬取拉勾网职位信息(2)
上次挖了一个坑,今天终于填上了,还记得之前我们做的拉勾爬虫吗?那时我们实现了一页的爬取,今天让我们再接再厉,实现多页爬取,顺便实现职位和公司的关键词搜索功能. 之前的内容就不再介绍了,不熟悉的请一定要 ...
- node.js爬虫爬取拉勾网职位信息
简介 用node.js写了一个简单的小爬虫,用来爬取拉勾网上的招聘信息,共爬取了北京.上海.广州.深圳.杭州.西安.成都7个城市的数据,分别以前端.PHP.java.c++.python.Androi ...
- Python爬虫学习(二) ——————爬取前程无忧招聘信息并写入excel
作为一名Pythoner,相信大家对Python的就业前景或多或少会有一些关注.索性我们就写一个爬虫去获取一些我们需要的信息,今天我们要爬取的是前程无忧!说干就干!进入到前程无忧的官网,输入关键字&q ...
- python爬虫(三) 用request爬取拉勾网职位信息
request.Request类 如果想要在请求的时候添加一个请求头(增加请求头的原因是,如果不加请求头,那么在我们爬取得时候,可能会被限制),那么就必须使用request.Request类来实现,比 ...
- pyspider爬虫框架webui简介-爬取阿里招聘信息
命令行输入pyspider开启pyspider 浏览器打开http://localhost:5000/ group表示组名,几个项目可以同一个组名,方便管理,当组名修改为delete时,项目会在一天后 ...
- Scrapy框架——CrawlSpider爬取某招聘信息网站
CrawlSpider Scrapy框架中分两类爬虫,Spider类和CrawlSpider类. 它是Spider的派生类,Spider类的设计原则是只爬取start_url列表中的网页, 而Craw ...
- 爬虫框架之Scrapy——爬取某招聘信息网站
案例1:爬取内容存储为一个文件 1.建立项目 C:\pythonStudy\ScrapyProject>scrapy startproject tenCent New Scrapy projec ...
随机推荐
- struts2实现ajax校验的2种方法
共同的一点是,Action都需要将一个方法暴露出来,给前端javascript调用 javascript的代码都是一样的: Js代码 function testAjax() { var $use ...
- mac os x下的一些小技巧
1显示swap空间: sysctl vm.swapusage 其中sysctl中有很多可以控制和查看的项,可以通过sysctl -A列举,另外可以通过man sysctl来查看. 而实际swap文件和 ...
- Android studio 项目(Project)依赖(非Module)
Android studio 项目(Project)依赖(非Module) 0. 前言 对于Module 级别的依赖大家都知道,今天说下Android Studio下的项目依赖. 场景: A Proj ...
- IT咨询顾问:一次吐血的项目救火
年后的一个合作公司上线了一个子业务系统,对接公司内部的单点系统.我收到该公司的技术咨询:项目启动后没有规律的突然无法登录了,重新启动后,登录一断时间后又无法重新登录,对方技术人员一头雾水不知道什么原因 ...
- IEEE发布2017年编程语言排行榜:Python高居首位
https://news.cnblogs.com/n/574248 编者按:本文由微信公众号“机器之心”(ID:almosthuman2014)编译,机器之心专注生产 AI 领域专业性内容.本文作者: ...
- OO,OO以后,及其极限
1.什么是软件开发? 软件开发的过程就是人们使用各种计算机语言将人们关心的现实世界映射到计算机世界的过程: 现在的计算机的数学理论基础是由计算机的开山鼻祖,大名鼎鼎的图灵于1937年提出的图灵机模型. ...
- 完整的WebRTC调用序列图
说在前面的话:此图出自Rea-Time Communication with WebRTC: https://book.douban.com/subject/25849712/ 的第五章.
- Mac下的Bash配置文件冲突问题
Mac下默认的Bash配置文件是~/.profile.有的软件安装时会生成~/.bash_profiel.有了这个文件.之前的.profiel就不会再被加载,需要手动把里面的文件内容转移到.bash_ ...
- WebRTC技术调研
相关网址: 协议:https://www.w3.org/TR/webrtc/ https://apprtc.webrtc.org/ https://apprtc.appspot.com/ https: ...
- c#与webapi交互
public static string HttpConnectToServer(string ServerPage,string strData) { string postData =strDat ...