Python爬虫开发【第1篇】【beautifulSoup4解析器】

CSS 选择器：BeautifulSoup4

Beautiful Soup 也是一个HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 数据。

pip 安装：pip install beautifulsoup4

官方文档：http://beautifulsoup.readthedocs.io/zh_CN/v4.4.0

抓取工具	速度	使用难度	安装难度
正则	最快	困难	无（内置）
BeautifulSoup	慢	最简单	简单
lxml	快	简单	一般

使用BeautifuSoup4爬腾讯社招页面

地址：http://hr.tencent.com/position.php?&start=10#a

 # bs4_tencent.py
 
 from bs4 import BeautifulSoup
 import urllib2
 import urllib
 import json    # 使用了json格式存储
 
 def tencent():
     url = 'http://hr.tencent.com/'
     request = urllib2.Request(url + 'position.php?&start=10#a')
     response =urllib2.urlopen(request)
     resHtml = response.read()
 
     output =open('tencent.json','w')
 
     html = BeautifulSoup(resHtml,'lxml')
 
 # 创建CSS选择器
     result = html.select('tr[class="even"]')
     result2 = html.select('tr[class="odd"]')
     result += result2
 
     items = []
     for site in result:
         item = {}
 
         name = site.select('td a')[0].get_text()
         detailLink = site.select('td a')[0].attrs['href']
         catalog = site.select('td')[1].get_text()
         recruitNumber = site.select('td')[2].get_text()
         workLocation = site.select('td')[3].get_text()
         publishTime = site.select('td')[4].get_text()
 
         item['name'] = name
         item['detailLink'] = url + detailLink
         item['catalog'] = catalog
         item['recruitNumber'] = recruitNumber
         item['publishTime'] = publishTime
 
         items.append(item)
 
     # 禁用ascii编码，按utf-8编码
     line = json.dumps(items,ensure_ascii=False)
 
     output.write(line.encode('utf-8'))
     output.close()
 
 if __name__ == "__main__":
    tencent()

Python爬虫开发【第1篇】【beautifulSoup4解析器】的更多相关文章

Python爬虫教程-23-数据提取-BeautifulSoup4（一）
Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据,查看文档 https://www.crummy.com/software/BeautifulSoup/bs4/doc. ...
Python爬虫开发与项目实战pdf电子书|网盘链接带提取码直接提取|
Python爬虫开发与项目实战从基本的爬虫原理开始讲解,通过介绍Pthyon编程语言与HTML基础知识引领读者入门,之后根据当前风起云涌的云计算.大数据热潮,重点讲述了云计算的相关内容及其在爬虫中的应 ...
Python爬虫开发与项目实战
Python爬虫开发与项目实战(高清版)PDF 百度网盘链接:https://pan.baidu.com/s/1MFexF6S4No_FtC5U2GCKqQ 提取码:gtz1 复制这段内容后打开百度 ...
Python爬虫教程-25-数据提取-BeautifulSoup4（三）
Python爬虫教程-25-数据提取-BeautifulSoup4(三) 本篇介绍 BeautifulSoup 中的 css 选择器 css 选择器使用 soup.select 返回一个列表通过标 ...
Python爬虫教程-24-数据提取-BeautifulSoup4（二）
Python爬虫教程-24-数据提取-BeautifulSoup4(二) 本篇介绍 bs 如何遍历一个文档对象遍历文档对象 contents:tag 的子节点以列表的方式输出 children:子节 ...
Python爬虫开发
1. 语法入门 Python教程 2. 爬虫学习系列教程 1)宁哥的小站 https://github.com/lining0806/PythonSpiderNotes 2)Python爬虫开发 3) ...
Python爬虫开发【第1篇】【动态HTML、Selenium、PhantomJS】
JavaScript JavaScript 是网络上最常用也是支持者最多的客户端脚本语言.它可以收集用户的跟踪数据,不需要重载页面直接提交表单,在页面嵌入多媒体文件,甚至运行网页游戏. 我们可以在网页 ...
Python爬虫开发【第1篇】【Json与JsonPath】
JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写.同时也方便了机器进行解析和生成.适用于进行数据交互的场景,比如网站前台与 ...
Python爬虫开发教程
正文现在Python语言大火,在网络爬虫.人工智能.大数据等领域都有很好的应用.今天我向大家介绍一下Python爬虫的一些知识和常用类库的用法,希望能对大家有所帮助.其实爬虫这个概念很简单,基 ...

随机推荐

vitualbox网络设置链接
网文摘录地址:https://blog.csdn.net/yushupan/article/details/78404395 vitualbox网络设置: 一.NAT模式特点: 1.如果主机可以上网 ...
java “==”和“equals”
菜呀,只能记笔记了 ==:如果是基本数据类型,比较值,如果是引用类型,比较地址 equals:比较值
第3节 mapreduce高级：5、6、通过inputformat实现小文件合并成为sequenceFile格式
1.1 需求无论hdfs还是mapreduce,对于小文件都有损效率,实践中,又难免面临处理大量小文件的场景,此时,就需要有相应解决方案 1.2 分析小文件的优化无非以下几种方式: 1. 在数据 ...
Android自动化测试之Monkey
本来是做Web后端的,来公司实习变成微信小程序前端了,到这周变成Android APP测试人员了,也是微醺啊. 由于对手工测试终究是有些抵触,所有昨天小试了一下不用写代码的自动化压力测试,在此记下我的 ...
ProtoBuf - Arena
1.概述最近看 Protocal Buffer 的源码,初次见到这个库源自陈硕的 muduo ,便打算看一看,在此做一下记录.官网文档不能访问,只能凭借代码的自己理解,查看的源码版本为 3.6.0. ...
python在linux下的使用
1.查看python(解释器)的版本(什么版本的解释器支持哪一版版的语言标准) 一般在linux上已经预装了python,只要在Bash Shell中输入python,即可看到如下版本信息: 按Ctr ...
JavaScript中的特殊数据类型
JavaScript中的特殊数据类型制作人:全心全意转义字符以反斜杠开头的不可显示的特殊字符通常为控制字符,也被称为转义字符.通常转义字符可以在字符串中添加不可显示的特殊字符,或者防止引号匹配混 ...
Mac使用Aria2下载百度网盘，突破下载限速的方法教程
百度网盘目前可以说是在国内网盘环境中一枝独秀,日常使用触及在所难免,尤其是对于喜欢下载资源的朋友来说,但是一些限制让它的使用越来越难,尤其是下载速度,普通用户的下载往往远低于自己的预期,特别是对于 M ...
python爬虫入门01：教你在 Chrome 浏览器轻松抓包
通过 python爬虫入门:什么是爬虫,怎么玩爬虫? 我们知道了什么是爬虫也知道了爬虫的具体流程那么在我们要对某个网站进行爬取的时候要对其数据进行分析就要知道应该怎么请求就要知道获取的数据是 ...
AD转换器的主要指标
AD转换器的主要指标如下: (1)分辨率(Resolution).指数字量变化一个最小量时模拟信号的变化量,定义为满刻度与2n的比值.分辨率又称精度,通常以数字信号的位数来表示.定义满刻度于2^n的比 ...

Python爬虫开发【第1篇】【beautifulSoup4解析器】

CSS 选择器：BeautifulSoup4

使用BeautifuSoup4爬腾讯社招页面

Python爬虫开发【第1篇】【beautifulSoup4解析器】的更多相关文章

随机推荐

热门专题