2.6. 案例：使用BeautifuSoup4的爬虫

案例：使用BeautifuSoup4的爬虫

我们以腾讯社招页面来做演示：http://hr.tencent.com/position.php?&start=10#a

使用BeautifuSoup4解析器，将招聘网页上的职位名称、职位类别、招聘人数、工作地点、发布时间，以及每个职位详情的点击链接存储出来

# bs4_tencent.py

from bs4 import BeautifulSoup

import urllib2

import urllib

import json    # 使用了json格式存储

def tencent():

    url = 'http://hr.tencent.com/'

    request = urllib2.Request(url + 'position.php?&start=10#a')

    response =urllib2.urlopen(request)

    resHtml = response.read()

    output =open('tencent.json','w')

    html = BeautifulSoup(resHtml,'lxml')

# 创建CSS选择器

    result = html.select('tr[class="even"]')

    result2 = html.select('tr[class="odd"]')

    result += result2

    items = []

    for site in result:

        item = {}

        name = site.select('td a')[0].get_text()

        detailLink = site.select('td a')[0].attrs['href']

        catalog = site.select('td')[1].get_text()

        recruitNumber = site.select('td')[2].get_text()

        workLocation = site.select('td')[3].get_text()

        publishTime = site.select('td')[4].get_text()

        item['name'] = name

        item['detailLink'] = url + detailLink

        item['catalog'] = catalog

        item['recruitNumber'] = recruitNumber

        item['publishTime'] = publishTime

        items.append(item)

    # 禁用ascii编码来处理中文

    line = json.dumps(items,ensure_ascii=False)

    # 存储内容时使用utf-8编码

    output.write(line.encode('utf-8'))

    output.close()

if __name__ == "__main__":

   tencent()

2.6. 案例：使用BeautifuSoup4的爬虫的更多相关文章

python 案例：使用BeautifuSoup4的爬虫
我们以腾讯社招页面来做演示:http://hr.tencent.com/position.php?&start=10#a 使用BeautifuSoup4解析器,将招聘网页上的职位名称.职位类别 ...
案例：使用BeautifuSoup4的爬虫
使用BeautifuSoup4解析器,将招聘网页上的招聘单位名称存储出来.其他信息可类似爬取即可 # -*- coding:utf-8 -*- from bs4 import BeautifulSou ...
爬虫bs4案例
案例:使用BeautifuSoup4的爬虫我们以腾讯社招页面来做演示:http://hr.tencent.com/position.php?&start=10#a 使用BeautifuSou ...
Python爬虫实战（2）：爬取京东商品列表
1,引言在上一篇<Python爬虫实战:爬取Drupal论坛帖子列表>,爬取了一个用Drupal做的论坛,是静态页面,抓取比较容易,即使直接解析html源文件都可以抓取到需要的内容.相反 ...
scrapy-redis 分布式爬虫
为什么要学? Scrapy_redis在scrapy的基础上实现了更多,更强大的功能. 有哪些功能体现? request去重.爬虫持久化.实现分布式爬虫.断点续爬(带爬取的request存在redis ...
一个简单的python爬虫程序
python|网络爬虫概述这是一个简单的python爬虫程序,仅用作技术学习与交流,主要是通过一个简单的实际案例来对网络爬虫有个基础的认识. 什么是网络爬虫简单的讲,网络爬虫就是模拟人访问web ...
NodeJs02 美女爬虫
note: demo代码要编号导出模块一个js文件就是一个模块,模块内部的所有变量,对象,方法对外界都不可见.如果想暴漏出去让别人用,就需要导出模块.语法如下: module.exports = ...
《C# 爬虫破境之道》：第一境爬虫原理 — 第五节：数据流处理的那些事儿
为什么说到数据流了呢,因为上一节中介绍了一下异步发送请求.同样,在数据流的处理上,C#也为我们提供几个有用的异步处理方法.而且,爬虫这生物,处理数据流是基础本能,比较重要.本着这个原则,就聊一聊吧. ...
吴裕雄--天生自然python学习笔记：编写网络爬虫代码获取指定网站的图片
我们经常会在网上搜索井下载图片,然而一张一张地下载就太麻烦了,本案例就是通过网络爬虫技术, 一次性下载该网站所有的图片并保存 . 网站图片下载并保存将指定网站的 .jpg 和 .png 格式的图片 ...

随机推荐

IndemindSDK数据采集程序
目录 Indemind相机数据采集 Indemind相机数据采集最近做一些实验需要自己采集一些数据玩玩,打算用之前买的indemind双目模组,实际用的时候感觉官方提供的采集程序不太好用,于是打算自 ...
【VS开发】VC下加载JPG/GIF/PNG图片的两种方法
1.用API OleLoadPicture来加载JPG.GIF格式的图片(注:不支持PNG格式,另外GIF只能加载第一帧,且不支持透明) OleLoadPicture 函数实际上创建了一个IPictu ...
最新龙采科技java校招面经（含整理过的面试题大全）
从6月到10月,经过4个月努力和坚持,自己有幸拿到了网易雷火.京东.去哪儿.龙采科技等10家互联网公司的校招Offer,因为某些自身原因最终选择了龙采科技.6.7月主要是做系统复习.项目复盘.Leet ...
Spring框架IOC和AOP介绍
说明:本文部分内容参考其他优秀博客后结合自己实战例子改编如下 Spring框架是个轻量级的Java EE框架.所谓轻量级,是指不依赖于容器就能运行的.Struts.Hibernate也是轻量级的. 轻 ...
jqGrid只向服务器请求一次的设置
也就是说,在表格初始化时请求一次服务器,以后翻页就不再请求服务器,翻页的也只是初始化数据. 一次复制别人的代码时,一直不知道为什么翻页不请求服务器. 搞到人都爆炸,原来只是一个设置的地方. loado ...
Design HashSet
Design a HashSet without using any built-in hash table libraries. To be specific, your design should ...
[转帖]中国新超算彻底告别进口CPU 国产芯片已可与国外抗衡
中国新超算彻底告别进口CPU 国产芯片已可与国外抗衡蓝天·2017-10-17·本土IC 来源: 观察者网 https://www.laoyaoba.com/html/news/newsdetail ...
tesseract 3.04在centos6上安装
tesseract是一个开源的OCR文字识别工具查找相关文章:tesseract tesseract 4.0一直安装失败,后来参照网上的方法,成功安装3.04 1 2 3 4 5 6 7 8 9 ...
Django-filter报错：__init__() got an unexpected keyword argument 'name'
原因是自从 django-filter2.0之后将Filter的name字段更名为 field_name 所以需要这样写: class GoodsFilter(filters.FilterSet ...
LeetCode 第 164 场周赛
访问所有点的最小时间不难看出,从点(x1,y1) 到 (x2,y2) 的步数需要 min(dx,dy),其中 dx = abs(x1-x2),dy = abs(y1-y2) class Soluti ...

2.6. 案例：使用BeautifuSoup4的爬虫

案例：使用BeautifuSoup4的爬虫

2.6. 案例：使用BeautifuSoup4的爬虫的更多相关文章

随机推荐

热门专题