爬虫——使用BeautifulSoup4的爬虫

我们以腾讯社招页面来做示例：http://hr.tencent.com/position.php?&start=0#a

如上图，使用BeautifulSoup4解析器，将图1中229页，每页10个招聘信息，共2289个招聘信息中的职位名称、职位类别、招聘人数、工作地点、工作职责、工作要求、详情链接等信息存储在本地磁盘（如下图）。

#!/usr/bin/python3

# -*- coding:utf-8 -*-

__author__ = 'mayi'

"""

案例：使用BeautifulSoup4爬取腾讯招聘页面的数据

url：http://hr.tencent.com/position.php?&start=10#a

使用BeautifulSoup4解析器，爬取每个招聘详情页面里面的：

职位名称、工作地点、职位类别、招聘人数、工作职责、工作要求、url链接

"""

from bs4 import BeautifulSoup

import urllib.request

import json

# 创建一个爬虫类

class TencentSpider(object):

    """

    一个爬虫类：爬取腾讯招聘页面信息

    """

    def __init__(self):

        """

        初始化函数

        :return:

        """

        # User-Agent头

        self.header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36'}

        self.url = "http://hr.tencent.com/"

        self.file_name = open("tencent.txt", "w", encoding = "utf-8")

        # 爬虫开始工作

        self.run()

    def run(self):

        """

        爬虫开始工作

        :return:

        """

        # 首页

        start_page = 1

        # 尾页

        end_page = self.getLastPage(self.url + "position.php?&start=0#a")

        # 循环处理每一页

        for page in range(start_page, end_page + 1):

            print("正在处理第" + str(page) + "页")

            # 每一页有10个招聘信息

            pn = (page - 1) * 10

            # 接接成完整的url地址

            full_url = self.url + "position.php?&start=" + str(pn) + "#a"

            # 获取招聘详情链接:l square

            link_list = self.getPositons(full_url)

            for link in link_list:

                # 拼接成完整的链接

                full_link = self.url + link

                # 获取招聘信息页面里的所需爬取的信息

                self.getPositionInfo(full_link)

        # 关闭文件

        self.file_name.close()

    def getLastPage(self, url):

        """

        获取尾页的page值

        :param url: 首页的url地址

        :return: 尾页的page值

        """

        # 获取url页面的内容：bytes

        html = self.loadPage(url)

        # bytes转utf-8

        html = html.decode("utf-8")

        # 创建 Beautiful Soup 对象，指定lxml解析器

        soup = BeautifulSoup(html, "lxml")

        page_nav = soup.select('div[class="pagenav"]')[0]

        page = page_nav.find_all('a')[-2].get_text()

        return int(page)

    def loadPage(self, url):

        """

        获取url页面的内容

        :param url: 需要获取内容的url地址

        :return: url页面的内容

        """

        # url 连同 headers，一起构造Request请求，这个请求将附带 chrome 浏览器的User-Agent

        request = urllib.request.Request(url, headers = self.header)

        # 向服务器发送这个请求

        response = urllib.request.urlopen(request)

        # time.sleep(3)

        # 获取网页内容：bytes

        html = response.read()

        return html

    def getPositons(self, url):

        """

        获取url页面内的招聘详情链接

        :param url:

        :return:

        """

        # 获取url页面的内容：bytes

        html = self.loadPage(url)

        # bytes转utf-8

        html = html.decode("utf-8")

        # 创建 Beautiful Soup 对象，指定lxml解析器

        soup = BeautifulSoup(html, "lxml")

        item_list = soup.select('td[class="l square"]')

        link_list = []

        for item in item_list:

            item = item.select('a')[0].attrs['href']

            link_list.append(item)

        return link_list

    def getPositionInfo(self, url):

        """

        获取我们需爬取的信息

        :param url: 招聘详情页面

        :return: None

        """

        # 获取url页面的内容：bytes

        html = self.loadPage(url)

        # bytes转utf-8

        html = html.decode("utf-8")

        # 创建 Beautiful Soup 对象，指定lxml解析器

        soup = BeautifulSoup(html, "lxml")

        # 用于存储所爬取信息的字典

        item = {}

        try:

            # 职位名称

            position_name = soup.find_all(id="sharetitle")[0].get_text()

            # 工作地点、职位类型、招聘人数

            bottomline = soup.select('tr[class="c bottomline"] td')

            # 工作地点

            working_place = bottomline[0].get_text()[5:]

            # 职位类别

            position_category = bottomline[1].get_text()[5:]

            # 招聘人数

            numbers = bottomline[2].get_text()[5:]

            # 工作职责

            operating_duty_list = soup.select('ul[class="squareli"]')[0].select('li')

            operating_duty = ""

            for duty in operating_duty_list:

                operating_duty += duty.get_text().strip() + "\n"

            # 工作要求

            requirements_list = soup.select('ul[class="squareli"]')[1].select('li')

            requirements = ""

            for requ in requirements_list:

                requirements += requ.get_text().strip() + "\n"

            # url链接

            url_links = url

            # 职位名称、工作地点、职位类别、招聘人数、工作职责、工作要求、url链接

            item["职位名称"] = position_name

            item["工作地点"] = working_place

            item["职位类别"] = position_category

            item["招聘人数"] = numbers

            item["工作职责"] = operating_duty

            item["工作要求"] = requirements

            item["url链接"] = url_links

        except:

            # 若异常、则舍弃这条信息

            pass

        # 保存这条记录

        if item:

            line = json.dumps(item, ensure_ascii = False) + "\n"

            self.file_name.write(line)

# 主函数

if __name__ == '__main__':

    my_spider = TencentSpider()

爬虫——使用BeautifulSoup4的爬虫的更多相关文章

python3.4学习笔记(十七) 网络爬虫使用Beautifulsoup4抓取内容
python3.4学习笔记(十七) 网络爬虫使用Beautifulsoup4抓取内容 Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖 ...
Python 爬虫3——第一个爬虫脚本的创建
在进行真正的爬虫工程创建之前,我们先要明确我们所要操作的对象是什么?完成所有操作之后要获取到的数据或信息是什么? 首先是第一个问题:操作对象,爬虫全称是网络爬虫,顾名思义,它所操作的对象当然就是网页, ...
放养的小爬虫--豆瓣电影入门级爬虫(mongodb使用教程~)
放养的小爬虫--豆瓣电影入门级爬虫(mongodb使用教程~) 笔者声明:只用于学习交流,不用于其他途径.源代码已上传github.githu地址:https://github.com/Erma-Wa ...
爬虫(Spider)，反爬虫(Anti-Spider)，反反爬虫(Anti-Anti-Spider)
爬虫(Spider),反爬虫(Anti-Spider),反反爬虫(Anti-Anti-Spider),这之间的斗争恢宏壮阔... Day 1小莫想要某站上所有的电影,写了标准的爬虫(基于HttpCli ...
Python爬虫与数据分析之爬虫技能：urlib库、xpath选择器、正则表达式
专栏目录: Python爬虫与数据分析之python教学视频.python源码分享,python Python爬虫与数据分析之基础教程:Python的语法.字典.元组.列表 Python爬虫与数据分析 ...
python3编写网络爬虫23-分布式爬虫
一.分布式爬虫前面我们了解Scrapy爬虫框架的基本用法这些框架都是在同一台主机运行的爬取效率有限如果多台主机协同爬取爬取效率必然成倍增长这就是分布式爬虫的优势 1. 分布式爬虫基本原理 1 ...
python爬虫随笔(2)—启动爬虫与xpath
启动爬虫在上一节中,我们已经创建好了我们的scrapy项目,看着这一大堆文件,想必很多人都会一脸懵逼,我们应该怎么启动这个爬虫呢? 既然我们采用cmd命令创建了scrapy爬虫,那就得有始有终有逼格 ...
【网络爬虫入门03】爬虫解析利器beautifulSoup模块的基本应用
[网络爬虫入门03]爬虫解析利器beautifulSoup模块的基本应用 1.引言网络爬虫最终的目的就是过滤选取网络信息,因此最重要的就是解析器了,其性能的优劣直接决定这网络爬虫的速度和效率.B ...
python爬虫-基础入门-python爬虫突破封锁
python爬虫-基础入门-python爬虫突破封锁 >> 相关概念 >> request概念:是从客户端向服务器发出请求,包括用户提交的信息及客户端的一些信息.客户端可通过H ...

随机推荐

print控制台输出带颜色文字方法
在python开发的过程中,经常会遇到需要打印各种信息.海量的信息堆砌在控制台中,就会导致信息都混在一起,降低了重要信息的可读性.这时候,如果能给重要的信息加上字体颜色,那么就会更加方便用户阅读了. ...
html-标题标签、水平线标签和特殊字符
标题标签 <h1></h1> <h2></h2> ...... <h6></h6> 从h1到h6,大小是依次变小,同时会自动换 ...
Python爬虫之requests模块(2)
一.今日内容 session处理cookie proxies参数设置请求代理ip 基于线程池的数据爬取二.回顾 xpath的解析流程 bs4的解析流程常用xpath表达式常用bs4解析方法三. ...
【数据库】1.0 MySQL入门学习（一）——常识性知识
1.0 什么是MySQL(官方发音 My Ess Que Ell)? 是一个快速.多线程.多用户和强壮的SQL数据库服务器,SQL是世界上最流行的标准化数据库语言. 名字来源:共同创办人Monty W ...
为 Drupal 7 构建一个新主题
主题解释了 Drupal 网站的用户界面 (UI).虽然主题结构并没有明显的变化,但 Drupal 版本 7 配备了一个新的主题实现方法.本文演示了如何创建一个新的 Drupal 7 主题. Drup ...
CSS实现文本周围插入符号
CSS实现文本周围插入符号的方案本文要讨论的是如何在文本的周围插入图标,怎么样控制它们之间的位置关系,通过HTML结构合理性与CSS属性的使用来比较不同方案所实现效果的优缺点. 常见设计稿要求在文 ...
asp.net中<input type=button>无法调用后台函数
例如:用<input id="bt1" type="button" runat="server" Onclick="btnL ...
jmeter简单录制
JMeter介绍 1.JMeter,一个100%的纯Java桌面应用,它是Apache组织的开放源代码项目,它是功能和性能测试的工具.JMeter可以用于测试静态或者动态资源的性能(文件.Servle ...
论文投稿Cover letter
转自:http://blog.sciencenet.cn/blog-479412-686426.html,感谢分享! 1.第一次投稿Cover letter:主要任务是介绍文章主要创新以及声明没有一稿 ...
matlab练习程序（多线段交点）
很简单的算法,这里是把每对线段都进行比较了. 还有一种似乎先通过x和y排序再进行交点判断的,不过那种方法我还没看太明白. 这里的方法如下: 1.根据线段的端点求两条直线的交点. 2.判断直线的交点是否 ...

爬虫——使用BeautifulSoup4的爬虫

爬虫——使用BeautifulSoup4的爬虫的更多相关文章

随机推荐

热门专题