BS是什么?

BeautifulSoup是一个基于标签的文本解析工具。可以根据标签提取想要的内容,很适合处理html和xml这类语言文本。如果你希望了解更多关于BS的介绍和用法,请看BeautifulSoup 4 官方文档

为什么要用BS?

BS可以和许多框架配合使用,让我们在编写爬虫程序时关注于操作逻辑,而不需要再关心其具体实现,最直观地体现就是不需要再编写正则表达式去匹配文本。

如何使用BS?

现在正式开始今天的主要内容:如何使用BS爬取慕课网所有课程及其对应的评分。本文依托的Python环境为Python 3.6.0,pip版本为pip3,BS版本为BS4。

要使用BS,首先需要安装BS:

pip3 install BeautifulSoup4

同时需要获取网页文本,需要安装request:

pip3 install request

接着来分析慕课网的网页结构:

可以看到每一门课都对应一个简单的网址,如"JAVA遇见HTML——Servlet篇"课程对应的网址为:http://www.imooc.com/learn/269 。且目前的最大课程编号为888,因此这里可以用一个简单的循环获得所有课程链接:

baseUrl = "http://www.imooc.com/learn/"
k = 0
while k < 1000:
url = baseUrl + str(k)

JAVA遇见HTML——Servlet篇中打开开发者视图,可以看到负责课程名称的内容在如下元素中:

<div class="hd clearfix">
<h2 class="l">JAVA遇见HTML——Servlet篇</h2>
</div>

负责课程评分等信息的内容在如下元素中:

<div class="statics clearfix">
<div class="moco-btn l learn-btn green-btn red-btn">
<a href="/video/5534" class="J-learn-course">开始学习</a>
<em></em>
<i class="follow-action js-follow-action icon-star_outline" data-cid="269" data-cmd="follow" title="收藏"></i>
</div>
<div class="static-item l">
<span class="meta">学习人数</span>
<span class="meta-value js-learn-num">111926</span>
</div>
<div class="static-item l">
<span class="meta">难度级别</span>
<span class="meta-value">初级</span>
<em></em>
</div>
<div class="static-item l">
<span class="meta">课程时长</span>
<span class="meta-value"> 3小时10分</span>
<em></em>
</div>
<div class="static-item l score-btn">
<span class="meta">综合评分</span>
<span class="meta-value">9.6</span>
<em></em>
</div>
</div>

这两部分内容包含了我们所有想要获得的信息,下面就可以使用BS4对页面进行处理了。

利用request获取该课程页面的网页源码:

def GetHtmlContext(url):
try:
f = request.urlopen(url)
data = f.read()
return data
'如果链接对应的内容不存在,返回0'
except:
return 0

获得源码后就可以使用BS4对网页标签进行解析了,上面已经给出了想要获得信息的界面结构,因此可以轻易地完成解析:

def GetData(html, url):
data = []
soup = BeautifulSoup(html, "html.parser") title = soup.find('div', attrs={'class': 'hd clearfix'})
data.append(title.find('h2', attrs={'class': 'l'}).getText())
lesson = soup.find('div', attrs={'class': 'statics clearfix'}) for attr in lesson.find_all('div', attrs={'class': 'static-item l'}):
data.append(attr.find('span', attrs={'class': 'meta-value'}).getText())
grade = lesson.find('div', attrs={'class': 'static-item l score-btn'})
data.append(grade.find('span', attrs={'class': 'meta-value'}).getText())
data.append(url)
data.remove('')

这里不仅获取了课程评分,还获取了课程难度,课程时长以及对应的链接。

完整的代码示例如下:

"""
爬取imooc网站评分过9的课程名称及课程链接等信息
"""
import sys
from urllib import request from bs4 import BeautifulSoup def GetHtmlContext(url):
try:
f = request.urlopen(url)
data = f.read()
return data
except:
return 0 def GetData(html, url): data = []
soup = BeautifulSoup(html, "html.parser") title = soup.find('div', attrs={'class': 'hd clearfix'})
data.append(title.find('h2', attrs={'class': 'l'}).getText())
lesson = soup.find('div', attrs={'class': 'statics clearfix'}) for attr in lesson.find_all('div', attrs={'class': 'static-item l'}):
data.append(attr.find('span', attrs={'class': 'meta-value'}).getText())
grade = lesson.find('div', attrs={'class': 'static-item l score-btn'})
data.append(grade.find('span', attrs={'class': 'meta-value'}).getText())
data.append(url)
data.remove('')
print(outputMode.format(data[0], data[1], data[2], data[3], data[4], chr(12288))) # 将输出重定向到txt文件
output = sys.stdout
outputfile = open("D:\lessondata.txt", 'w', encoding='utf-8')
sys.stdout = outputfile outputMode = "{0:{5}^20}\t{1:^10}\t{2:^10}\t{3:^10}\t{4:{5}<10}"
print(outputMode.format('课程名称', '难度', '课程时长', '综合评分', '课程链接', chr(12288)))
baseUrl = "http://www.imooc.com/learn/"
k = 0
while k < 1000:
url = baseUrl + str(k)
html = GetHtmlContext(url)
k += 1
if(html != 0):
GetData(html, url) outputfile.close()
sys.stdout = output

最后输出结果:

当然你可以也将数据输出到xml文件或数据库,那样更加便于查看和分析,这里就不详细描述了。

参考资料

Python爬虫之爬取慕课网课程评分的更多相关文章

  1. 简单python爬虫案例(爬取慕课网全部实战课程信息)

    技术选型 下载器是Requests 解析使用的是正则表达式 效果图: 准备好各个包 # -*- coding: utf-8 -*- import requests #第三方下载器 import re ...

  2. Node.js爬虫-爬取慕课网课程信息

    第一次学习Node.js爬虫,所以这时一个简单的爬虫,Node.js的好处就是可以并发的执行 这个爬虫主要就是获取慕课网的课程信息,并把获得的信息存储到一个文件中,其中要用到cheerio库,它可以让 ...

  3. python 爬虫之爬取大街网(思路)

    由于需要,本人需要对大街网招聘信息进行分析,故写了个爬虫进行爬取.这里我将记录一下,本人爬取大街网的思路. 附:爬取得数据仅供自己分析所用,并未用作其它用途. 附:本篇适合有一定 爬虫基础 crawl ...

  4. Python爬虫项目--爬取自如网房源信息

    本次爬取自如网房源信息所用到的知识点: 1. requests get请求 2. lxml解析html 3. Xpath 4. MongoDB存储 正文 1.分析目标站点 1. url: http:/ ...

  5. Python爬虫,爬取实验楼全部课程

    目的: 使用requests库以及xpath解析进行实验楼所有课程,存入MySQL数据 库中. 准备工作: 首先安装,requests库,lxml库,以及peewee库.在命令行模式,使用以下命令. ...

  6. python爬虫实战---爬取大众点评评论

    python爬虫实战—爬取大众点评评论(加密字体) 1.首先打开一个店铺找到评论 很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手.很多已经 ...

  7. 网络爬虫之定向爬虫:爬取当当网2015年图书销售排行榜信息(Crawler)

    做了个爬虫,爬取当当网--2015年图书销售排行榜 TOP500 爬取的基本思想是:通过浏览网页,列出你所想要获取的信息,然后通过浏览网页的源码和检查(这里用的是chrome)来获相关信息的节点,最后 ...

  8. [Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)

    转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍 源码下载地址:http://download.csdn.net/ ...

  9. from appium import webdriver 使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium)

    使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium) - 北平吴彦祖 - 博客园 https://www.cnblogs.com/stevenshushu/p ...

随机推荐

  1. lintcode.245 子树

    子树   描述 笔记 数据 评测 有两个不同大小的二进制树: T1 有上百万的节点: T2 有好几百的节点.请设计一种算法,判定 T2 是否为 T1的子树. 注意事项 若 T1 中存在从节点 n 开始 ...

  2. IDEA导入Eclipse项目 【未结束的注释、非法类型的开始、缺少符号】

    如果我们导入Eclipse项目的使用出现了未结束的注释.非法类型的开始.缺少符号这么一些编译时期的错误,而我们的代码明明看起来就是正常的-. 我们去检查一下是否编码的问题:把FileEncoding全 ...

  3. jquery自定义banner图滚动插件---(解决最后一张图片倒回第一张图片的bug)

    banner图的滚动效果动画 最近做项目中banner滚动的时候遇到了一个小bug,当banner滚动到最后一张图再跳回第一张图时, 会出现默认的倒回第一张图的过渡效果,看了几个插件都是这样,所以自定 ...

  4. Java 中与(&)短路与(&&)以及 或(|)短路或(||)的关系

    一.逻辑运算符的使用 1)逻辑运算符的连接的是布尔表达式,要与位运算符做区分. 2)使用方法: public class Test {  public static void main(String[ ...

  5. 分享基于分布式Http长连接框架--代码模型

    好的代码应该是方便客户端使用,代码能够自描述,规范化,大众标准化. 而且我相信代码也是有生命的,需要不断的维护它,你以什么样的态度对待它,它就会以同样的态度回敬你,所以在写代码前,先摆好自己的态度(一 ...

  6. NOIP2017SummerTraining0714

    个人感受:第一题做了字典树,还运行错误,然后就弃疗了,然后水了二三两题,总共拿了85分,倒数. 正确答案 时间限制: 2 Sec  内存限制: 256 MB提交: 702  解决: 82[提交][状态 ...

  7. Codecraft-17 and Codeforces Round #391 (Div. 1 + Div. 2, combined)D. Felicity's Big Secret Revealed

    题目连接:http://codeforces.com/contest/757/problem/D D. Felicity's Big Secret Revealed time limit per te ...

  8. js中 && 与 || 的妙用

    在js逻辑运算中,0."".null.false.undefined.NaN都会判为false,其他都为true(好像没有遗漏了吧,请各位确认下).这个一定要记住,不然应用||和& ...

  9. Lucene介绍与入门使用

    Lucene简介 Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整 ...

  10. Spring Boot Starter 介绍

    http://www.baeldung.com/spring-boot-starters 作者:baeldung 译者:http://oopsguy.com 1.概述 依赖管理是任何复杂项目的关键部分 ...