python简单爬去前程无忧信息招聘

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

import requests

import csv

from BeautifulSoup import BeautifulSoup

def get_content(page):

    url = 'http://search.51job.com/list/200200,000000,0000,32,9,99,python,2,'+str(page)+'.html?lang=c&stype=1&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare='

    reponse = requests.get(url)

    html = reponse.content

    soup = BeautifulSoup(html)

    return soup

def get(soup):

    inf_list = list()

    tag1 = soup.find('div', attrs={'class': 'jblist res'})

    for label in tag1.findAll('a',attrs={'class':'e e2 eck'}):

        title = label.find('h3').text.strip()

        company = label.find('aside').text.strip()

        money = label.find('em').text.strip()

        inf_list.append((title, company, money))

    with open("imdb.csv","a") as f:

        fw = csv.writer(f)

#    fw.writerow(['职位','公司','薪资'])

        fw.writerows(inf_list)

#    return inf_list

with open("imdb.csv","wb") as f:

    fw = csv.writer(f)

    fw.writerow(['职位','公司','薪资'])

    for j in range(1, 10):

        print  "-----正在爬第"+str(j)+"页内容---------"

        html = get_content(j)

        get(html)

python简单爬去前程无忧信息招聘的更多相关文章

Python简单爬取图书信息及入库
课堂上老师布置了一个作业,如下图所示: 就是简单写一个借书系统. 大概想了一下流程,登录-->验证登录信息-->登录成功跳转借书界面-->可查看自己的借阅书籍以及数量... 登录可以 ...
一、python简单爬取静态网页
一.简单爬虫框架简单爬虫框架由四个部分组成:URL管理器.网页下载器.网页解析器.调度器,还有应用这一部分,应用主要是NLP配合相关业务. 它的基本逻辑是这样的:给定一个要访问的URL,获取这个ht ...
python 简单爬取今日头条热点新闻(一)
今日头条如今在自媒体领域算是比较强大的存在,今天就带大家利用python爬去今日头条的热点新闻,理论上是可以做到无限爬取的: 在浏览器中打开今日头条的链接,选中左侧的热点,在浏览器开发者模式netwo ...
python 嵌套爬取网页信息
当需要的信息要经过两个链接才能打开的时候,就需要用到嵌套爬取. 比如要爬取起点中文网排行榜的小说简介,找到榜单网址:https://www.qidian.com/all?orderId=&st ...
Python简单爬取Amazon图片-其他网站相应修改链接和正则
简单爬取Amazon图片信息这是一个简单的模板,如果需要爬取其他网站图片信息,更改URL和正则表达式即可 1 import requests 2 import re 3 import os 4 de ...
python scrapy爬取前程无忧招聘信息
使用scrapy框架之前,使用以下命令下载库: pip install scrapy -i https://pypi.tuna.tsinghua.edu.cn/simple 1.创建项目文件夹 scr ...
Python+selenium爬取智联招聘的职位信息
整个爬虫是基于selenium和Python来运行的,运行需要的包 mysql,matplotlib,selenium 需要安装selenium火狐浏览器驱动,百度的搜寻. 整个爬虫是模块化组织的,不 ...
python爬虫爬取腾讯招聘信息（静态爬虫）
环境: windows7,python3.4 代码:(亲测可正常执行) import requests from bs4 import BeautifulSoup from math import c ...
python简单爬豆瓣电影排名
爬豆瓣电影网站分析: 1 打开https://movie.douban.com,选择 [排行榜],然后随便选择一类型,我这里选择科幻 2 一直浏览网页,发现没有下一的标签,是下滑再加载的,可 ...

随机推荐

适合 Java 新手的开源项目集合——在 GitHub 学编程
作者:HelloGitHub--老荀当今互联网份额最大的编程语言是哪一个?是 Java!这两年一直有听说 Java 要不行了.在走下坡路了.没错,Java 的确在走下坡路,未来的事情的确不好说,但是 ...
linux命令-awk，sort,uniq
学习地址:http://man.linuxde.net/awk#awk的工作原理 awk 选项参数说明: -F fs or --field-separator fs 指定输入文件折分隔符,fs是一个字 ...
2018-div-matrix 题解(打表)
题目链接题目大意要你求有多少个满足题目条件的矩阵mod 1e9+7 \(a[1][1]=2018\;\;a[i][j]为a[i-1][j]和a[i][j-1]的因子\) 题目思路 dp也就图一乐, ...
【操作系统】银行家算法实现（C语言）
[操作系统]银行家算法实现(C语言) 注意:本人编码水平很菜.算是自己的一个总结.可能会有我还没有发现的bug.如果有人发现后可以指出,不胜感激. 1.银行家算法: 我们可以把操作系统看作是银行家,操 ...
MySQL查询练习2
MySQL查询练习2 导读: 本次MySQL的查询语句是本人考试题目: 所有题目都已通过: 该查询练习并没有sql文件进行检查: 如果有书写以及其他错误欢迎指出. 题目正文: 1.找出借书超过5本的借 ...
nameServer路由发现
RocketMQ路由发现是非实时的,当Topic路由出现变化时,NameServer不主动推动给客户端,而是客户端定时拉取主题最新的路由总结: topic路由的是brokername
IDEA无法识别module
如图,我爱算法模块无法识别如此,放开注释部分即可
PyQt学习随笔：Model/View设计中支持视图中数据修改的方法及步骤
老猿Python博文目录专栏:使用PyQt开发图形界面Python应用老猿Python博客地址要支持视图中的数据可以修改,需要两个步骤: 1. 在视图中设置editTriggers属性支持在视图 ...
<阿里工程师的自我素养>读后感-技术人应该具备的一些基本素质
一.技术人具备"结构化思维"意味着什么? 1.什么是结构化思维? 结构化思维:逻辑+套路. 表达要有逻辑,所谓逻辑是指我们的结构之间必须是有逻辑关系的. 四种组织思想的逻辑关系 : ...
Dr.COM获取用户属性超时！请检查防火墙配置允许UDP 61440端口。怎么解决
最近校园网老是出问题,看到好多同学都遇到了下面的问题,我就来说一下我的解决方法.(目前我认识的有三个同学遇到了这样的情况,用这个方法都解决了,但不一定对每个人都有效) 首先登陆net.scut.edu ...

python简单爬去前程无忧信息招聘

python简单爬去前程无忧信息招聘的更多相关文章

随机推荐

热门专题