简易数据分析 04 | Web Scraper 初尝--抓取豆瓣高分电影

这是简易数据分析系列的第 4 篇文章。

今天我们开始数据抓取的第一课，完成我们的第一个爬虫。因为是刚刚开始，操作我会讲的非常详细，可能会有些啰嗦，希望各位不要嫌弃啊：）

有人之前可能学过一些爬虫知识，总觉得这是个复杂的东西，什么 HTTP、HTML、IP 池，在这里我们都不考虑这些东西。一是小的数据量根本不需要考虑，二是这些乱七八糟的东西根本没有说到爬虫的本质。

爬虫的本质是什么？其实就是找规律。

而且爬虫的找规律难度，大部分都是小学三年级的数学题水平。

我们下面拿个例子说明一下，下图历史文章的一个截图，我们可以很清晰的看到，每一条推文可以分为三大部分：标题、图片和作者，我们只要找到这个规律，就可以批量的抓取这类数据。

好了，理论的地方我们讲完了，下面我们开始进行实操。

但凡做爬虫练手，第一个爬取的网站一般都是豆瓣电影 TOP 250，网址链接是 https://movie.douban.com/top250?start=0&filter=。第一次上手，我们爬取的内容尽量简单，所以我们只爬取第一页的电影标题。

浏览器按 F12 打开控制台，并把控制台放在网页的下方（具体操作可以看上一篇文章），然后找到 Web Scraper 这个 Tab，点进去就来到了 Web Scraper 的控制页面。

进入 Web Scraper 的控制页面后，我们按照 Create new sitemap -> Create Sitemap 的操作路径，创建一个新的爬虫，sitemap 是啥意思并不重要，你就当他是个爬虫的别名就好了。

我们在接下来出现的输入框里依次输入爬虫名和要爬取的链接。

爬虫名可能会有字符类型的限制，我们看一下规则规避就好了，最后点击 Create Sitemap 这个按钮，创建我们的第一个爬虫。

这时候会跳到一个新的操作面板，不要管别的，我们直接点击 Add new selector 这个蓝底白字的按钮，顾名思义，创建一个选择器，用来选择我们想要抓取的元素。

这时候就要开始正式的数据抓取环节了！我们先观察一下这个面板有些什么东西：

1.首先有个 Id，这个就是给我们要爬取的内容标注一个 id，因为我们要抓取电影的名字，简单起见就取个 name 吧；

2.电影名字很明显是一段文字，所以 Type 类型肯定是 Text，在这个爬虫工具里，默认 Type 类型就是 Text，这次的爬取工作就不需要改动了；

3.我们把多选按钮 Multiple 勾选上，因为我们要抓的是批量的数据，不勾选的话只能抓取一个；

4.最后我们点击黄色圆圈里的 Select，开始在网页上勾选电影名字；

当你把鼠标移动到网页时，会发现网页上出现了绿色的方块儿，这些方块就是网页的构成元素，当我们点击鼠标时，绿色的方块儿就会变为红色，表示这个元素被选中了：

这时候我们就可以进行我们的抓取工作了。

我们先选择「肖生克的救赎」这个标题，然后再选择「霸王别姬」这个标题（注意：想达到多选的效果，一定要手动选取两个以上的内容）

选完这两个标题后，向下拉动网页，你就会发现所有的电影名字都被选中了：

拉动网页检查一遍，发现所有的电影标题都被选中后，我们就可以点击 Done selecting!这个按钮，表示选择完毕；

点击按钮后你会发现下图的红框位置会出现了一些字符，一般出现这个就表示选取成功了：

我们点击 Data preview 这个按钮，就可以预览我们的抓取效果了：

没什么问题的话，关闭 Data Preview 弹窗，翻到面板的最下面，有个 Save selector 的蓝色按钮，点击后我们会回退到上一个面板。

这时候你会发现多了一行数据，其实就是我们刚刚的操作内容被记录下来了。

在顶部的 tab 栏，有一个 Sitemap top250 的 tab，这个就是我们刚刚创建的爬虫。点击它，再点击下拉菜单里的 Scrape 按钮，开始我们的数据抓取。

这时候你会跳到另一个面板，里面有两个输入框，先别管他们是什么，全部输入 2000 就好了。

点击 Start scraping 蓝色按钮后，会跳出一个新的网页，Web Scraper 插件会在这里进行数据抓取：

一般弹出的网页自动关闭就代表着数据抓取结束了，我们点击面板上的 refresh 蓝色按钮，就可以看到我们抓取的数据了！

在这个预览面板上，第一列是 web scraper 自动添加的编号，没啥意义；第二列是抓取的链接，第三列就是我们抓取的数据了。

这个数据会存储在我们的浏览器里，我们也可以点击 Sitemap top250 下的 Export data as CSV，这样就可以导出成 .csv 格式的数据，这种格式可以用 Excel 打开，我们可以用 Excel 做一些数据格式化的操作。

今天我们爬取了豆瓣电影TOP250 的第 1 页数据（也就是排名最高的 25 部电影），下一篇我们讲讲，如何抓取所有的电影名。

简易数据分析 04 | Web Scraper 初尝--抓取豆瓣高分电影的更多相关文章

简易数据分析 12 | Web Scraper 翻页——抓取分页器翻页的网页
这是简易数据分析系列的第 12 篇文章. 前面几篇文章我们介绍了 Web Scraper 应对各种翻页的解决方法,比如说修改网页链接加载数据.点击"更多按钮"加载数据和下拉自动加载 ...
简易数据分析 10 | Web Scraper 翻页——抓取「滚动加载」类型网页
这是简易数据分析系列的第 10 篇文章. 友情提示:这一篇文章的内容较多,信息量比较大,希望大家学习的时候多看几遍. 我们在刷朋友圈刷微博的时候,总会强调一个『刷』字,因为看动态的时候,当把内容拉到屏 ...
简易数据分析 07 | Web Scraper 抓取多条内容
这是简易数据分析系列的第 7 篇文章. 在第 4 篇文章里,我讲解了如何抓取单个网页里的单类信息: 在第 5 篇文章里,我讲解了如何抓取多个网页里的单类信息: 今天我们要讲的是,如何抓取多个网页里的多 ...
简易数据分析 08 | Web Scraper 翻页——点击「更多按钮」翻页
这是简易数据分析系列的第 8 篇文章. 我们在Web Scraper 翻页--控制链接批量抓取数据一文中,介绍了控制网页链接批量抓取数据的办法. 但是你在预览一些网站时,会发现随着网页的下拉,你需要点 ...
简易数据分析 11 | Web Scraper 抓取表格数据
这是简易数据分析系列的第 11 篇文章. 今天我们讲讲如何抓取网页表格里的数据.首先我们分析一下,网页里的经典表格是怎么构成的. First Name 所在的行比较特殊,是一个表格的表头,表示信息分类 ...
简易数据分析 13 | Web Scraper 抓取二级页面
这是简易数据分析系列的第 13 篇文章. 不知不觉,web scraper 系列教程我已经写了 10 篇了,这 10 篇内容,基本上覆盖了 Web Scraper 大部分功能.今天的内容算这个系列的最 ...
简易数据分析 09 | Web Scraper 自动控制抓取数量 & Web Scraper 父子选择器
这是简易数据分析系列的第 9 篇文章. 今天我们说说 Web Scraper 的一些小功能:自动控制 Web Scraper 抓取数量和 Web Scraper 的父子选择器. 如何只抓取前 100 ...
Scrapy爬虫入门系列4抓取豆瓣Top250电影数据
豆瓣有些电影页面需要登录才能查看. 目录 [隐藏] 1 创建工程 2 定义Item 3 编写爬虫(Spider) 4 存储数据 5 配置文件 6 艺搜参考创建工程 scrapy startproj ...
抓取豆瓣的电影排行榜TOP100
#!/usr/bin/env python # -*- coding:utf-8 -*- """ 一个简单的Python爬虫, 用于抓取豆瓣电影Top前100的电影的名称 ...

随机推荐

随机森林与 GBDT
随机森林(random forest),GBDT(Gradient Boosting Decision Tree),前者中的森林,与后者中的 Boosting 都在说明,两种模型其实都是一种集成学习( ...
wpf中的倒影效果实现
原文:wpf中的倒影效果实现 <TextBox Name="txt" FontSize="30" ...
Angularjs 计数 $index
$index可以在ng-repeat直接使用,从0开始计数 <div ng-repeat="item in vm.data">  ...
C#：foreach语句，yield语句
原文:C#:foreach语句,yield语句 1. foreach语句 C#编译器会把foreach语句转换为IEnumerable接口的方法和属性. foreach (Person p in pe ...
Android 调试桥(adb)是多种用途的工具
Android 调试桥 Android 调试桥(adb)是多种用途的工具,该工具可以帮助你你管理设备或模拟器的状态. 可以通过下列几种方法加入adb: 在设备上运行shell命令通过端口转发来管理 ...
EPPlus导出两千万记录的测试代码
采用导入100w条记录一个文件,然后合并的方式 using System; using System.IO; using OfficeOpenXml; using System.Data; using ...
mage J和Graphpad如何对Western Blot条带灰度分析
原文 mage J和Graphpad如何对Western Blot条带灰度分析 WB是研究蛋白表达的一个经典方法.对于一些时间点或者是不同组织蛋白表达量的分析就涉及到量的变化.一些凝胶成像软件带有此分 ...
什么是YAML？
YAML是"YAML不是一种标记语言"的外语缩写 [1] (见前方参考资料原文内容):但为了强调这种语言以数据做为中心,而不是以置标语言为重点,而用返璞词重新命名.它是一种直观的能 ...
ASP如何实现注册后发送激活邮件？
<% Sub Sendemail(title,content,email) Set jmail = Server.CreateObject("JMAIL.Message") ...
AlwaysOn数据同步暂停及回退技术
随着AlwaysOn技术的流行,关于AlwayOn的问题也越来越多,某企业搭建有三副本的AlwaysOn一套,现想修改主节点上某张表的某个数据,看看会出现什么后果,如果结果正常,就同步到其他节点上:如 ...

简易数据分析 04 | Web Scraper 初尝--抓取豆瓣高分电影

简易数据分析 04 | Web Scraper 初尝--抓取豆瓣高分电影的更多相关文章

随机推荐

热门专题