写在前面

美好的一天又开始了，今天咱继续爬取IT在线教育类网站，慕课网，这个平台的数据量并不是很多，所以爬取起来还是比较简单的

准备爬取

打开我们要爬取的页面，寻找分页点和查看是否是异步加载的数据。

进行了一些相应的分析，发现并没有异步数据，只需要模拟翻页就，在进行HTML的解析就可以获取数据了，

翻页数据如下，合计32页，在数据量上属于非常小的了。

https://www.imooc.com/course/list?page=1

https://www.imooc.com/course/list?page=2

....

https://www.imooc.com/course/list?page=32

编写代码

代码分为自动拼接URL，解析HTML，存储到mongodb三个部分组成

page = 1

def main(page):

    print(f"正在爬取{page}页数据")

    try:

        with requests.Session() as s:

            res = s.get("https://www.imooc.com/course/list?page={}".format(page))

            d = pq(res.text)

            get_content(d)  # 详细的函数内容在下面

    except Exception as e:

        print(e)

    finally:

        page+=1

        main(page)   # 页码+1，再次调用main函数

if __name__ == '__main__':

    main(1)

上述代码的功能主要用于翻页，如果你想要获取到详细的数据，需要对网页源码进行解析。解析库使用的是pyquery一款跟jquery使用方法差不多的python库，当然相应的资料只要搜索一下，就会显示非常多的入门教程。

def get_content(d):

    courses = d.items(".course-card-container")

    for course in courses:

        title = course.find(".course-card-name").text()  # 查找title

        des = course.find(".course-card-desc").text()

        level = course.find(".course-card-info>span:eq(0)").text()

        users = course.find(".course-card-info>span:eq(1)").text()

        labels = course.find(".course-label").text().split(" ")

        url = urljoin("https://www.imooc.com/learn/", course.find("a").attr("href")) # url拼接

        img_url = urljoin("https://img3.mukewang.com/", course.find("img").attr("src"))  # url拼接

        dict = {

            "title":title,

            "des":des,

            "level":level,

            "users":users,

            "labels":labels,

            "url":url,

            "img_url":img_url

        }

        save_mongodb(dict)  # 保存到mongodb

最后一步保存到mongodb是基本操作了，翻看一下以前的教程就可以了，自行完成吧。

又一个在线教育平台被我们爬了... ...

Python爬虫入门教程 20-100 慕课网免费课程抓取的更多相关文章

Python爬虫入门教程 19-100 51CTO学院IT技术课程抓取
写在前面从今天开始的几篇文章,我将就国内目前比较主流的一些在线学习平台数据进行抓取,如果时间充足的情况下,会对他们进行一些简单的分析,好了,平台大概有51CTO学院,CSDN学院,网易云课堂,慕课网 ...
Python爬虫入门教程 18-100 煎蛋网XXOO图片抓取
写在前面很高兴我这系列的文章写道第18篇了,今天写一个爬虫爱好者特别喜欢的网站煎蛋网http://jandan.net/ooxx,这个网站其实还是有点意思的,网站很多人写了N多的教程了,各种方式的都 ...
Python爬虫入门教程 23-100 石家庄链家租房数据抓取
1. 写在前面作为一个活跃在京津冀地区的开发者,要闲着没事就看看石家庄这个国际化大都市的一些数据,这篇博客爬取了链家网的租房信息,爬取到的数据在后面的博客中可以作为一些数据分析的素材. 我们需要爬取 ...
Python爬虫入门教程 36-100 酷安网全站应用爬虫 scrapy
爬前叨叨 2018年就要结束了,还有4天,就要开始写2019年的教程了,没啥感动的,一年就这么过去了,今天要爬取一个网站叫做酷安,是一个应用商店,大家可以尝试从手机APP爬取,不过爬取APP的博客,我 ...
Python爬虫入门教程 4-100 美空网未登录图片爬取
美空网未登录图片----简介上一篇写的时间有点长了,接下来继续把美空网的爬虫写完,这套教程中编写的爬虫在实际的工作中可能并不能给你增加多少有价值的技术点,因为它只是一套入门的教程,老鸟你自动绕过就可 ...
Python爬虫入门教程 3-100 美空网数据爬取
美空网数据----简介从今天开始,我们尝试用2篇博客的内容量,搞定一个网站叫做"美空网"网址为:http://www.moko.cc/, 这个网站我分析了一下,我们要爬取的图片在 ...
Python爬虫入门教程 10-100 图虫网多线程爬取
图虫网-写在前面经历了一顿噼里啪啦的操作之后,终于我把博客写到了第10篇,后面,慢慢的会涉及到更多的爬虫模块,有人问scrapy 啥时候开始用,这个我预计要在30篇以后了吧,后面的套路依旧慢节奏的, ...
Python爬虫入门教程第七讲：蜂鸟网图片爬取之二
蜂鸟网图片--简介今天玩点新鲜的,使用一个新库 aiohttp ,利用它提高咱爬虫的爬取速度. 安装模块常规套路 pip install aiohttp 运行之后等待,安装完毕,想要深造,那么官方文 ...
Python爬虫入门教程 15-100 石家庄政民互动数据爬取
石家庄政民互动数据爬取-写在前面今天,咱抓取一个网站,这个网站呢,涉及的内容就是网友留言和回复,特别简单,但是网站是gov的.网址为 http://www.sjz.gov.cn/col/14900 ...

随机推荐

Json的学习
json的简介 Json是项目中常用的一种,数据格式简单,易于读写,格式都是压缩的,占用带宽小,轻量级,支持多种语言,可以直接为服务器代码使用. json常用支持的转化,(map集合,字符串,还有对象 ...
【转载】JAVA基础复习与总结<三> Object类的常用方法
Object类是一个特殊的类,是所有类的父类,如果一个类没有用extends明确指出继承于某个类,那么它默认继承Object类.这里主要总结Object类中的三个常用方法:toString().equ ...
ThreadLocal与线程池使用的问题
感谢博主的这篇分享,见 https://www.cnblogs.com/qifenghao/p/8977378.html 在今天的面试中,突然被考官问了这个问题,当时脱口而出的是 threadloca ...
sudo命令详解
语法 sudo(选项)(参数) 选项选项说明 -b 在后台执行指令: -h 显示帮助: -H 将HOME环境变量设为新身份的HOME环境变量: -k 结束密码的有效期限,也就是下次再执行sudo时 ...
Python操作Excel, 开发和调用接口，发送邮件
笔记: 上周回顾: 模块: 导入模块的顺序 lyl.py # def hhh(): pass name = 'lyl' a.py import lyl import sys from lyl impo ...
python爬取网页内容demo
#html文本提取 from bs4 import BeautifulSoup html_sample = '\ <html> \ <body> \ <h1 id = & ...
Django——小结
课程介绍 MVC MVC框架的核心思想是:解耦,让不同的代码块之间降低耦合,增强代码的可扩展性和可移植性,实现向后兼容 M:Model,主要封装对数据库层的访问,对数据库中的数据进行增.删.改.查操作 ...
HBase MVCC 机制介绍
关键词:MVCC HBase 一致性本文最好结合源码进行阅读什么是MVCC ? MVCC(MultiVersionConsistencyControl , 多版本控制协议),是一种通过数据的多版本 ...
DOM与BOM
DOM 1.概念起源: 文档对象模型(Document Object Model,简称DOM),是W3C组织推荐的处理可扩展标志语言的标准编程接口.在网页上,组织页面(或文档)的对象被组织在一个树形结 ...
用gulp-imageisux智图api压缩图片
➣ 智图平台是什么? 智图是腾讯ISUX前端团队开发的一个专门用于图片压缩和图片格式转换的平台,其功能包括针对png,jpeg,gif等各类格式图片的压缩,以及为上传图片自动选择最优的图片格式.同时, ...

Python爬虫入门教程 20-100 慕课网免费课程抓取

写在前面

准备爬取

编写代码

Python爬虫入门教程 20-100 慕课网免费课程抓取的更多相关文章

随机推荐

热门专题