python BeautifulSoup

之前解析LXML,用的是XPath，现在临时被抓取写爬虫，接人家的代码，看到用的是BeautifulSoup，稍微学了下，也挺好用的，简单记录下用法，有机会做下和Xpath的对比测试

初始化

from bs4 import BeautifulSoup

soup = BeautifulSoup(html,"lxml")

得到soup之后，就开始提取一些比较有用的信息，比如标题：可以直接使用

soup.title

得到的结果，是带标签的，类似这种形式：<title>title</title>，但显然我们只要里面的有效信息，当然简单粗暴的话，直接用正则表达式，拿出来也是OK的

前面API不熟，项目又催的紧，我就这么干的，现在普及下他的API

print soup.title.string

print soup.title.next

print soup.title.next_element

这些都是可以得到里面那个title的，但是注意下，string的话，对于里面有多个标签的，不太好使。类似这种：<p class="hello" id="1">hello1<strong> world</strong></p>

对于这种情况，就需要使用下strings,如下所示：

pc= soup.body.p

print pc

print pc.string

for s in pc.strings:

    print s

另外要注意的一点是：直接用soup.tag的方式，是得到第一个元素的，当有多个元素同样的元素，需要提取的时候，不太好使，这时候需要使用下他的find_all函数，例如：

<html>

    <title>title</title>

    <body>

        <p id='1' class='hello'>hello1<strong> world</strong></p>

        <p id='2'>hello2

        </p>

        <p id='3'>hello3</p>

        <p id='4'>hello4</p>

        <img src="abc.jpeg"/>

        <a href="http://www.baidu.com"></a>

    </body>

</html>

我要提取所有的p中的元素，可以使用：

print soup.body.find_all("p")

当然，如果我只想要那个有class的p，怎么搞呢？

print soup.body.find_all("p",attrs={"class":"hello"})

依次类推，我们可以只提取id=3的p

那么问题来了，我现在想要找那个有class属性的p的id，怎么搞

很简单，找到对应的p之后，我们使用p['id']即可得到那个id对应的value了，但是要注意的是我们使用的是find_all方法，找到的p肯定是多个（虽然在我们这个例子里面只有一个），所以想说的是，给的肯定是一个集合，所以我们需要注意下这点：

p= soup.body.find_all("p",attrs={"class":"hello"})

print type(p)

print p[0]['id']

有了find_all之后，有时候，我们不需要那么多，我只要满足条件的第一个就可以，所以，很自然的就有find函数，方法差不多，直接忽略了

还有要注意的是找兄弟，和找父节点（后者用的比较少）

pc= soup.body.p

# 找到他的兄弟节点，用这个 属于迭代方式

for item in  pc.next_siblings:

    print item.__str__().replace("\n","")

#找到他的下一个兄弟

print pc.find_next_sibling()

# 找父节点

print pc.parent

下面来一个终极大招，现在要找一个既有class属性又有id属性的怎么搞？

def has_class_with_id(html):

    return html.has_attr('class') and  html.has_attr('id')

result = soup.find_all(is_right)

for item in result:

    print result

再来个难点的，我需要找到class=hello并且id=1的怎么搞？

def is_right(html):

    print html

    print html.has_attr('class')

    print html.has_attr('id')

    if html.has_attr('class'):

        print html['class'][0]

    if html.has_attr('id'):

        print html['id']

    print ""

    return html.has_attr('class') and  html.has_attr('id') and html['class'][0]=="hello" and html['id']=="1"

注意下，class可能含多个，所以它也是一个集合

python BeautifulSoup的更多相关文章

【转】Python BeautifulSoup 中文乱码解决方法
这篇文章主要介绍了Python BeautifulSoup中文乱码问题的2种解决方法,需要的朋友可以参考下解决方法一: 使用python的BeautifulSoup来抓取网页然后输出网页标题,但是输 ...
Python -- BeautifulSoup的学习使用
BeautifulSoup4.3 的使用下载和安装 # 下载 http://www.crummy.com/software/BeautifulSoup/bs4/download/ # 解压后使用r ...
Python beautifulsoup模块
BeautifulSoup中文文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ BeautifulSoup下载:http://w ...
Python - BeautifulSoup 安装
BeautifulSoup 3.x 1. 下载 BeautifulSoup. [huey@huey-K42JE python]$ wget http://www.crummy.com/software ...
Python BeautifulSoup中文乱码问题的2种解决方法
解决方法一: 使用python的BeautifulSoup来抓取网页然后输出网页标题,但是输出的总是乱码,找了好久找到解决办法,下面分享给大家首先是代码 from bs4 import Beautif ...
python BeautifulSoup库的基本使用
Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree). 它提供简单又常用的导航(navigating),搜索以 ...
python BeautifulSoup的简单使用
官网:https://www.crummy.com/software/BeautifulSoup/bs4/doc/ 参考:https://www.cnblogs.com/yupeng/p/336203 ...
python BeautifulSoup 介绍--安装
Python中,专门用于HTML/XML解析的库: 特点是: 即使是有bug,有问题的html代码,也可以解析. BeautifulSoup主要有两个版本 BeautifulSoup 3 之前的,比较 ...
python BeautifulSoup库用法总结
1. Beautiful Soup 简介简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据.官方解释如下: Beautiful Soup提供一些简单的.pyt ...
python beautifulsoup/xpath/re详解
自己在看python处理数据的方法,发现一篇介绍比较详细的文章转自:http://blog.csdn.net/lingojames/article/details/72835972 20170531 ...

随机推荐

effective c++ 笔记 (9-12)
//---------------------------15/03/29---------------------------- //#9 绝不在构造和析构过程中调头virtual函数 { / ...
NetBeans 插件开发简介
希望 NetBeans 为您提供更多功能吗? 您希望倾心投入到 NetBeans 的开发中,并希望它能激发您开发另一个应用程序的热情.您希望聆听音乐.浏览网页.查看邮件.存储喜欢的 URL,以及维护日 ...
浅析java构造函数前的访问限定符问题
曾经一直有个问题困扰着我,我一直以为构造函数前面不能加任何东西,但偶然间看到了一本书上写的代码中,构造函数前加了public限定符,心里很是疑惑,构造函数前加毛访问限定符啊??! 在网上查了很多资料 ...
Html_div圆角
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/ ...
C#易忘点
下面是自己总结的一些C#语言方面用的少容易忘的地方,总结一下,在用的时候看一下.(仅针对本人) 参数数组定义一个函数,用来取得数字的和,但是数字的个数不确定. 解决方案: 1,定义一个函数,参数传递 ...
LeetCode-37.解数独
编写一个程序,通过已填充的空格来解决数独问题. 一个数独的解法需遵循如下规则: 数字 1-9 在每一行只能出现一次. 数字 1-9 在每一列只能出现一次. 数字 1-9 在每一个以粗实线分隔的 3x3 ...
App云测试服务对比
前言: 我们都知道在测试移动app时最耗时的是在各种测试设备进行测试, 因为不论是安卓还是iOS都已经碎片化了.而云测试看似是解决这一问题的有效途径.因此选择哪种云测试平台来协助测试人员进行各种测试就 ...
PAT甲题题解-1119. Pre- and Post-order Traversals (30)-（根据前序、后序求中序）
(先说一句,题目还不错,很值得动手思考并且去实现.) 题意:根据前序遍历和后序遍历建树,输出中序遍历序列,序列可能不唯一,输出其中一个即可. 已知前序遍历和后序遍历序列,是无法确定一棵二叉树的,原因在 ...
D. Vasya and Arrays
链接 [http://codeforces.com/contest/1036/problem/D] 题意给你两个数组长度分别为n,m; 有这么一种操作,用某个数组的某个子区间元素之和代替这个子区间, ...
第一次scrum meeting
在这次会议中,我们确定了任务的具体分配.这里截取一部分,每个人都有20个小时左右的编程任务,整个项目共计约140小时. 明天是正式开始软件实现的第一天,下面列出前两天每个人的任务: 第一天第二天 ...

python BeautifulSoup

python BeautifulSoup的更多相关文章

随机推荐

热门专题