python 之readability与BeautifulSoup

　以前要采集某个网页，一般做法是写程序源代码爬出来，然后用正则去匹配出来，这种针对指定的网页去爬效果还可以，但是如果是批量的网页这种实现就会变得不现实，在这时候就有readability出手的意义了，readability能迅速将内容爬取出来，其他的有几种库也可以，这里就不比较了但是我觉得这个挺好用的。接着说，用pip 安装好readability模块就可以使用了。代码如下

html = urllib.urlopen("http://www.cnblogs.com/EncryptingLife/p/5156263.html").read()

readable_article = Document(html).summary()

readable_title = Document(html).short_title()

这个时候readable_article就是爬取的内容，按照常例写正则匹配，前面已经说过了这种方式不适合大量的页面，

BeautifulSoup 非常强大可以用来找出对应的东西不需要写正则。官方文档是：

http://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/#id5

简单的说说里面的几种用法吧。

　　soup =BeautifulSoup(readable_article,"lxml")

１．按照标签来获取

　　eg:

　　　　１．tag = soup.p

　　　　这个会获取p标签的内容　如果直接打印的话会显示为第一个p元素的值

　　　　２．tag = soup.head

　　　　这个获取head里面的内容

２．用css选择器来获取

　　eg:

　　　　1.soup.select(".python")

　　　　　这里会查找所有class为python的元素，ＩＤ直接是soup.select("#python")

z=soup.select("p > a")

for a in z:

	print a.get("href")

　　　　　　这个可以把p标签下的a标签全部取出来，然后获取它的url

　　　　３．soup.find_all("p", class_="body strikeout")

3.取文本的可以使用soup.get_text()

　　　　这里会取出里面所有的文本

４．find()　与find_all()

　　1.soup.find('head')

　　　　这个会查找head

　　2.soup.find_all('b')

　　　　这个是查找所有的b元素

　　３．传递方法

　　　　也可以是这样的：

　　　　　　def has_class_but_no_id(tag): return tag.has_attr('class') and not tag.has_attr('id')

　　４．也可以用正则

　　　　for tag in soup.find_all(re.compile("^b")):

　　　　　　print(tag.name)

　　５．也可以传递列表这时候会匹配出符合其中一个条件的项相当于或者

　　　　soup.find_all(["a", "b"])

　　　　这个会查找所有a标签与b标签

　　６．还可以有如下几种形式

　　　　soup.find_all(id="link2")

　　　　soup.find_all("p", "title")

　　　　soup.find_all("title")

　　　　soup.find_all(href=re.compile("elsie"))

５．还有几种类似jquery的写法

　　first_link.find_next_siblings("a")

　　last_link = soup.find("a", id="link3")

　　last_link　　# <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>

　　last_link.find_previous_siblings("a")

　　这时候会查找到符合前面条件的兄弟节点

　　下面这个可以查找父元素

　　title_tag = soup.title

　　title_tag # <title>The Dormouse's story</title>

　　title_tag.parent

　　# <head><title>The Dormouse's story</title></head>

暂时就写到这里

python 之readability与BeautifulSoup的更多相关文章

python学习之——安装Beautifulsoup、requests、lxml
安装Beautiful soup: 1.下载安装包,解压到python的安装目录: 2.cmd 进入安装包解压后的存放位置: 3.使用命令:python setup.py build , pyt ...
Python学习－使用BeautifulSoup来解析网页一：基础入门
写技术博客主要就是总结和交流的,如果文章用错,请指正啊! 以前一直在使用SGMLParser,这个太费时间和精力了,现在为了毕业设计,改用BeautifulSoup来实现HTML页面的解析工作的. 一 ...
Python爬虫：用BeautifulSoup进行NBA数据爬取
爬虫主要就是要过滤掉网页中没用的信息.抓取网页中实用的信息一般的爬虫架构为: 在python爬虫之前先要对网页的结构知识有一定的了解.如网页的标签,网页的语言等知识,推荐去W3School: W3s ...
【Python】 html解析BeautifulSoup
BeautifulSoup bs是个html解析模块,常用来做爬虫? ■ 安装 BeautifulSoup可以通过pip来安装,用pip install beautifulsoup4 即可.但是仅仅这 ...
Python爬虫基础之BeautifulSoup
一.BeautifulSoup的基本使用 from bs4 import BeautifulSoup from bs4 import SoupStrainer import re html_doc = ...
Python开发爬虫之BeautifulSoup解析网页篇：爬取安居客网站上北京二手房数据
目标:爬取安居客网站上前10页北京二手房的数据,包括二手房源的名称.价格.几室几厅.大小.建造年份.联系人.地址.标签等. 网址为:https://beijing.anjuke.com/sale/ B ...
Python HTML解析器BeautifulSoup(爬虫解析器)
BeautifulSoup简介我们知道,Python拥有出色的内置HTML解析器模块——HTMLParser,然而还有一个功能更为强大的HTML或XML解析工具——BeautifulSoup(美味的 ...
python爬虫训练——正则表达式+BeautifulSoup爬图片
这次练习爬传送门这贴吧里的美食图片. 如果通过img标签和class属性的话,用BeautifulSoup能很简单的解决,但是这次用一下正则表达式,我这也是参考了该博主的博文:传送门所有图片的s ...
Python爬虫利器：BeautifulSoup库
Beautiful Soup parses anything you give it, and does the tree traversal stuff for you. BeautifulSoup ...

随机推荐

［修改后］html+css 做成一个可浏览的表格
现在表格内容需要显示的要求如下: 1, 表格很大,界面放不小,需要放到div中. 2, 在div中可以用scroll滑动查看. 3, td中的内容保持在一行中. 4, 可以点击tr,然后可以选中并了解 ...
数据库执行sql报错Got a packet bigger than 'max_allowed_packet' bytes及重启mysql
准备在mysql上使用数据库A,但mysql5经过重装后,上面的数据库已丢失,只得通过之前备份的A.sql重新生成数据库A. 1.执行sql报错在执行A.sql的过程中,出现如下错误:Got a p ...
[Linux] mail 命令，进入邮箱及删除邮件
1. 命令行输入mail 2. 删除邮件 d 删除当前邮件,指针下移: d 1 删除标号为1的邮件: d 2-4 删除标号2到4的邮件: 3. 保存 q 退出mail命令平台,保存之前的操作,比如删除 ...
C++ exe调用dll文件
生成dll程序 extern "C"_declspec(dllexport) void maopao(int *p,int count);void maopao(int *p,in ...
【java】：多表关联、排序
SELECT * FROM (SELECT coll.collection_id, coll.report_id, coll.new_id, news.title,news.abstract_txt, ...
Unity3d Android Http 开发中的坑（吐槽
在一般的U3D网络开发中,直接使用WWW类便足够正常使用,但我在发现使用WWW下载大文件时,会导致整个程序卡顿的情况(不清楚是否我个人电脑问题),所以干脆使用HttpWebRequest/HttpWe ...
mysql:添加索引
ALTER TABLE tb_user_type ADD INDEX user_type_index3 (report_type_id) ALTER TABLE tb_user_type ADD IN ...
android图片的scaleType属性
scaleType 保持图片原有大小 scaleType="fitXY"填满盒子 scaleType="fitStart"保持纵横比缩放放在左上角 scaleT ...
[转]了解SQL Server锁争用：NOLOCK 和 ROWLOCK 的秘密_Mr_Indigo的空间
了解SQL Server锁争用:NOLOCK 和 ROWLOCK 的秘密关系型数据库,如SQL Server,使用锁来避免多用户修改数据时的并发冲突.当一组数据被某个用户锁定时,除非第一个用户结束修 ...
js获取焦点
<input type = "text" id="football" /> 对上面获取焦点. 1.获取dom对象 var domFocus = do ...

python 之readability与BeautifulSoup

python 之readability与BeautifulSoup的更多相关文章

随机推荐

热门专题