BeautifulSoup4系列一

前言

以博客园为例，爬取我的博客上首页的发布时间、标题、摘要，本篇先小试牛刀，先了解下它的强大之处，后面讲beautifulsoup4的详细功能。

一、安装

1.打开cmd用pip在线安装beautifulsoup4

>pip install beautifulsoup4

二、解析器

1.我们主要用第一个html.parser，这个是python的标准库，可以直接用。其它几个需要安装对应解析器，

下表列出了主要的解析器,以及它们的优缺点:

三、打印首页博客的时间

1.这里直接定位不好定位到，可以先定位它的父元素：class="dayTitle"

2.用requests里的get方法打开博客首页，r.content返回整个html内容，返回类型为string

3.查找所有的class属性为dayTitle的Tag类

4.获取当前Tag的标签为a的string值

四、打印摘要

1.获取标题方法跟上面一样，获取摘要的话，这里不太一样，这个父类<div class="c_b_p_desc">下多了一个子类a

2.先获取div这个Tag类，tag的 .contents 属性可以将tag的子节点以列表的方式输出

3.因为摘要可以看成是第一个子元素，取下标[0]就可以读出来

五、参考代码

# coding:utf-8
from bs4 import BeautifulSoup
import requests

r = requests.get("http://www.cnblogs.com/yoyoketang/")
# 请求首页后获取整个html界面
blog = r.content
# print blog
# 用html.parser解析html
soup = BeautifulSoup(blog, "html.parser")
# 获取所有的class属性为dayTitle，返回一个列表
times = soup.find_all(class_="dayTitle")
# for i in times:
# print i.a.string # 获取a标签的文本

title = soup.find_all(class_="postTitle")
# for i in title:
# print i.a.string

# 读取摘要内容
descs = soup.find_all(class_="postCon")
# for i in descs:
#     tag的 .contents 属性可以将tag的子节点以列表的方式输出
#     c = i.div.contents[0] # 取第一个
#     print c

for i, j, k in zip(times,title,descs):
    print i.a.string
    print j.a.string
    print k.div.contents[0]

BeautifulSoup4系列一的更多相关文章

python爬虫beautifulsoup4系列2
前言本篇详细介绍beautifulsoup4的功能,从最基础的开始讲起,让小伙伴们都能入门一.读取HTML页面 1.先写一个简单的html页面,把以下内容copy出来,保存为html格式文件 &l ...
python爬虫beautifulsoup4系列1
前言以博客园为例,爬取我的博客上首页的发布时间.标题.摘要,本篇先小试牛刀,先了解下它的强大之处,后面讲beautifulsoup4的详细功能. 一.安装 1.打开cmd用pip在线安装beauti ...
python爬虫beautifulsoup4系列4-子节点【转载】
本篇转自博客:上海-悠悠原文地址:http://www.cnblogs.com/yoyoketang/tag/beautifulsoup4/ 前言很多时候我们无法直接定位到某个元素,我们可以先定位 ...
python爬虫beautifulsoup4系列2【转载】
本篇转自博客:上海-悠悠原文地址:http://www.cnblogs.com/yoyoketang/tag/beautifulsoup4/ 前言本篇详细介绍beautifulsoup4的功能,从 ...
python爬虫beautifulsoup4系列1【转载】
本篇转自博客:上海-悠悠原文地址:http://www.cnblogs.com/yoyoketang/tag/beautifulsoup4/ 前言以博客园为例,爬取我的博客上首页的发布时间.标题. ...
BeautifulSoup4系列二
前言本篇详细介绍beautifulsoup4的功能,从最基础的开始讲起,让小伙伴们都能入门一.读取HTML页面 1.先写一个简单的html页面,把以下内容copy出来,保存为html格式文件 &l ...
python爬虫beautifulsoup4系列4-子节点
前言很多时候我们无法直接定位到某个元素,我们可以先定位它的父元素,通过父元素来找子元素就比较容易一.子节点 1.以博客园首页的摘要为例:<div class="c_b_p_desc ...
BeautifulSoup4系列四
前言很多时候我们无法直接定位到某个元素,我们可以先定位它的父元素,通过父元素来找子元素就比较容易一.子节点 1.以博客园首页的摘要为例:<div class="c_b_p_desc ...
爬虫系列 | 6、详解爬虫中BeautifulSoup4的用法
bs4,全称BeautifulSoup 4 , 它是Python独有的一种解析方式.也就是说只有Python语言才可以通过这种方式去解析数据. BeautifulSoup 3 只支持Python2,所 ...

随机推荐

Android课程设计第四天ListView运用
注意:课程设计只为完成任务,不做细节描述~ 效果图 <?xml version="1.0" encoding="utf-8"?> <Relat ...
记忆化搜索(DFS+DP) URAL 1223 Chernobyl’ Eagle on a Roof
题目传送门 /* 记忆化搜索(DFS+DP):dp[x][y] 表示x个蛋,在y楼扔后所需要的实验次数 ans = min (ans, max (dp[x][y-i], dp[x-1][i-1]) + ...
STM32CUBEMX使用注意：
一注意堆栈大小,简单来说,栈空间用于局部变量空间(size=0x400一般够用),堆(size=0x200一般够用)空间用于 alloc 或者 malloc函数动态申请变量空间
B. Connecting Universities DFS，无向树
http://codeforces.com/problemset/problem/700/B 题意是,在一颗树中,有k个大学,要求两两匹配,他们之间的距离作为贡献,使得距离总和最大. 一开始的时候无从 ...
PV,UV,IP概念
PV是网站分析的一个术语,用以衡量网站用户访问的网页的数量.对于广告主,PV值可预期它可以带来多少广告收入.一般来说,PV与来访者的数量成正比,但是PV并不直接决定页面的真实来访者数量,如同一个来访者 ...
android开发学习 ------- Error:Failed to open zip file.
我们用Android Studio Sync Project项目的时候,会出现如下的错误: 解决方案: Project视图下, 这块 https 改为 http 就可以了.
kde framework概述（KDE Framework译文）
KDE Frameworks 基于QT框架,提供简单实用的类(例如那些KCoreAddons里的类)去为桌面应用的日常需要整合出解决方案(例如KNewStuff用于在应用中获取可下载的附加内容,或者那 ...
洛谷 P2894 [USACO08FEB]酒店Hotel
题目描述 The cows are journeying north to Thunder Bay in Canada to gain cultural enrichment and enjoy a ...
ECharts是我接触过的最优秀的可视化工具，也是进步最快的软件，希望它早日成为世界级的开源项目。
ECharts的广泛网址: http://echarts.baidu.com/doc/example.html 零编程玩转图表: http://tushuo.baidu.com/?qq-pf-to=p ...
设计模式、SOLID原则：组件与联系
组件原则 - SRP The Single Responsibility Principle 单一责任原则当需要修改某个类的时候原因有且只有一个.换句话说就是让一个类只做一种类型的责任,当这个类需要 ...

BeautifulSoup4系列一

BeautifulSoup4系列一的更多相关文章

随机推荐

热门专题