[Python] 前程无忧招聘网爬取软件工程职位网络爬虫 https://www.51job.com

首先进入该网站的https://www.51job.com/robots.txt页面

给出提示：

 找不到该页       File not found

 您要查看的页已删除，或已改名，或暂时不可用。

 请尝试以下操作:

 如果您已经在地址栏中输入该网页的地址，请确认其拼写正确。

 打开 www.51job.com 主页，然后查找指向您感兴趣信息的链接。

 单击后退按钮，尝试其他链接。

　　注：

网络爬虫：自动或人工识别robots.txt，再进行内容爬取
约束性:robots协议建议但非约束性，不遵守可能存在法律风险

如果一个网站不设置robots协议说明所有内容都可以爬取，所以为可爬取内容。

源程序如下：

 #!/usr/bin/env python

 # -*- coding: utf-8 -*-

 # @File  : HtmlParser.py

 # @Author: 赵路仓

 # @Date  : 2020/2/28

 # @Desc  : 前程无忧求职网的爬虫程序

 # @Contact : 398333404@qq.com

 from bs4 import BeautifulSoup

 import requests

 import csv

 import re

 import io

 # 请求头

 head = {

     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36'

 }

 # 链接

 url = "https://search.51job.com/list/000000,000000,0000,00,9,99,%25E8%25BD%25AF%25E4%25BB%25B6,2,1.html?lang=c&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare="

 # csv写入表头

 def headcsv():

     with open('/position.csv', 'w', encoding='utf-8', newline='') as csvfile:

         writer = csv.writer(csvfile)

         writer.writerow(["职位", "公司", "所在地", "薪酬", "日期", "网址"])

 # txt写入表头

 def headtxt():

     ftxt = open('E:/data/position.txt', 'w', encoding='utf-8')

     ftxt.write("职位 公司 所在地 薪酬 日期 网址")

     ftxt.close()

 def position(url, head):

     # fcsv = open('/position.csv', 'a', encoding='utf-8', newline='')

     ftxt = open('E:/data/position.txt', 'a', encoding='utf-8')

     try:

         r = requests.get(url, headers=head, timeout=3)

         # 设置解析编码格式

         r.encoding = r.apparent_encoding

         print(r.apparent_encoding)

         # 打印状态码

         print(r.status_code)

         # 打印页面代码

         # print(r.text)

         # print(soup.prettify())

         text = r.text

         soup = BeautifulSoup(text, 'html.parser')

         # 一条招聘信息

         item = soup.find_all(class_='el', recursive=True)

         num = 0

         for i in item:

             num += 1

             if num > 16:

                 itemdetail = i.text.replace(" ", "").replace("\n", " ").replace("   ", " ").lstrip() + i.find("a").attrs['href']

                 print(itemdetail)

                 ftxt.write(itemdetail.replace("\n","")+'\r')

                 print("写入成功")

         ftxt.close()

     except:

         print("爬取职位过程中出错！")

 def write(url, head):

     for i in range(1, 2000):

         url = "https://search.51job.com/list/000000,000000,0000,00,9,99,%25E8%25BD%25AF%25E4%25BB%25B6,2,"+str(i)+".html?lang=c&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare="

         print(url)

         position(url, head)

 if __name__ == "__main__":

     # head()

     write(url, head)

所爬取条目分布为职位公司所在地薪酬日期网址，保存路径为E:/data/position.txt可自行修改路径或者文件格式。

[Python] 前程无忧招聘网爬取软件工程职位网络爬虫 https://www.51job.com的更多相关文章

python 手机app数据爬取
目录一:爬取主要流程简述二:抓包工具Charles 1.Charles的使用 2.安装 (1)安装链接 (2)须知 (3)安装后 3.证书配置 (1)证书配置说明 (2)windows系统安装证书 ...
【图文详解】scrapy爬虫与动态页面——爬取拉勾网职位信息（2）
上次挖了一个坑,今天终于填上了,还记得之前我们做的拉勾爬虫吗?那时我们实现了一页的爬取,今天让我们再接再厉,实现多页爬取,顺便实现职位和公司的关键词搜索功能. 之前的内容就不再介绍了,不熟悉的请一定要 ...
[爬虫]用python的requests模块爬取糗事百科段子
虽然Python的标准库中 urllib2 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 “HTTP for Humans”,说明使用更 ...
python爬取拉勾网职位数据
今天写的这篇文章是关于python爬虫简单的一个使用,选取的爬取对象是著名的招聘网站--拉钩网,由于和大家的职业息息相关,所以爬取拉钩的数据进行分析,对于职业规划和求职时的信息提供有很大的帮助. 完成 ...
Python 招聘信息爬取及可视化
自学python的大四狗发现校招招python的屈指可数,全是C++.Java.PHP,但看了下社招岗位还是有的.于是为了更加确定有多少可能找到工作,就用python写了个爬虫爬取招聘信息,数据处理, ...
Python的scrapy之爬取51job网站的职位
今天老师讲解了Python中的爬虫框架--scrapy,然后带领我们做了一个小爬虫--爬取51job网的职位信息,并且保存到数据库中用的是Python3.6 pycharm编辑器爬虫主体: im ...
Python的scrapy之爬取顶点小说网的所有小说
闲来无事用Python的scrapy框架练练手,爬取顶点小说网的所有小说的详细信息. 看一下网页的构造: tr标签里面的 td 使我们所要爬取的信息下面是我们要爬取的二级页面小说的简介信息: 下面 ...
python网络爬虫之解析网页的XPath(爬取Path职位信息)[三]
目录前言 XPath的使用方法 XPath爬取数据后言 @(目录) 前言本章同样是解析网页,不过使用的解析技术为XPath. 相对于之前的BeautifulSoup,我感觉还行,也是一个比较常用 ...
python爬虫（三）用request爬取拉勾网职位信息
request.Request类如果想要在请求的时候添加一个请求头(增加请求头的原因是,如果不加请求头,那么在我们爬取得时候,可能会被限制),那么就必须使用request.Request类来实现,比 ...

随机推荐

Java并发读书笔记：线程安全与互斥同步
目录导致线程不安全的原因什么是线程安全不可变绝对线程安全相对线程安全线程兼容线程对立互斥同步实现线程安全 synchronized内置锁锁即对象是否要释放锁实现原理啥是重进入? ...
Magicodes.IE在Docker中使用
Magicodes.IE在Docker中使用更新日志 2019.02.13 [Nuget]版本更新到2.0.2 [导入]修复单列导入的Bug,单元测试"OneColumnImporter_ ...
socket实现文件上传（客户端向服务器端上传照片示例）
本示例在对socket有了基本了解之后,可以实现基本的文件上传.首先先介绍一下目录结构,server_data文件夹是用来存放客户端上传的文件,client_data是模拟客户端文件夹(目的是为了测试 ...
Hibernate入门之命名策略（naming strategy）详解
前言 JPA和Hibernate都提供了默认映射策略,通过映射将每个实体类映射到具有相同名称的数据库表,它的每个属性都映射到具有相同属性的列, 但是,在实际项目开发中可能出现与默认命名约定不匹配,也就 ...
css常用样式font控制字体的多种变换
CSS 字体属性定义文本的字体系列.大小.加粗.风格(如斜体)和变形(如小型大写字母)font-family控制字体,由于各个电脑系统安装的字体不尽相同,但是基本装有黑体.宋体与微软雅黑这三款字体,通 ...
0x01 C语言-编写第一个hello world
学习每一个编程语言都是从 "Hello world!" 开始的,这好像就是编程界一条不成文的规定一样. 在这篇文章中,我将教大家编写一个可以输出 "Hello world ...
史上最全的Java高级技术点，全是Java高级进阶技术，几乎包含了Java后端的所有知识点
史上最全的Java高级技术点,全是Java高级进阶技术,几乎包含了Java后端的所有知识点 1
author模块
一.auth模块简介 1.什么是auth模块,auth模块主要是解决什么问题还是那句话,‘没有无缘无故的爱,也没有无缘无故的恨凡是必有因’, 像我们开发一个网站,不可避免的设计网络用户系统,比 ...
python——面向对象(4)，单继承
"""class 类名(object<父类>)继承:子类继承父类.单继承:""" class A(object): " ...
Docker下Jenkins的安装部署、更新
一.下载Jenkins镜像 docker pull jenkins/jenkins 二.创建挂载文件 mkdir /srv/jenkins chown -R : /srv/jenkins 三.启动Do ...

[Python] 前程无忧招聘网爬取软件工程职位 网络爬虫 https://www.51job.com

注：

[Python] 前程无忧招聘网爬取软件工程职位 网络爬虫 https://www.51job.com的更多相关文章

随机推荐

热门专题

[Python] 前程无忧招聘网爬取软件工程职位网络爬虫 https://www.51job.com

　　注：

[Python] 前程无忧招聘网爬取软件工程职位网络爬虫 https://www.51job.com的更多相关文章