Web Scraper 是一款免费的，适用于普通用户（不需要专业 IT 技术的）的爬虫工具，可以方便的通过鼠标和简单配置获取你所想要数据。例如知乎回答列表、微博热门、微博评论、淘宝、天猫、亚马逊等电商网站商品信息、博客文章列表等等。

转载请注明原地址：https://www.cnblogs.com/fengzheng/p/8440806.html

环境需求

这么简单的工具当然对环境的要求也很简单了，只需要一台能联网的电脑，一个版本不是很低的 Chrome 浏览器，具体的版本要求是大于 31 ，当然是越新越好了。目前 Chrome 的已经是60多了，也就是说这个版本要求也不是很高。

安装过程

在线安装方式

在线安装需要具有可FQ网络，可访问 Chrome 应用商店

1、在线访问 web Scraper 插件，点击 “添加至 CHROME”。

2、然后点击弹出框中的“添加扩展程序”

3、安装完成后在顶部工具栏显示 Web Scraper 的图标。

本地安装方式

不能FQ的可以使用本地FQ方式，在本公众号回复「爬虫」，可下载 Chrome 和 Web Scraper 扩展插件

1、打开 Chrome，在地址栏输入 chrome://extensions/ ，进入扩展程序管理界面，然后将下载好的扩展插件 Web-Scraper_v0.3.7.crx 拖拽到此页面，点击“添加到扩展程序”即可完成安装。如图：

2、安装完成后在顶部工具栏显示 Web Scraper 的图标。

初识 web scraper

打开 Web Scraper

开发人员可以路过看后面了

windows 系统下可以使用快捷键 F12，有的型号的笔记本需要按 Fn+F12；

Mac 系统下可以使用快捷键 command+option+i ；

也可以直接在 Chrome 界面上操作，点击设置—>更多工具—>开发者工具

打开后的效果如下，其中绿色框部分是开发者工具的完整界面，红色框部分是 Web Scraper 区域，也就是我们之后要操作的部分。

注意：如果打开开发者工具在浏览器的右侧区域，则需要调节开发者工具位置到浏览器底部。

原理及功能说明

我们抓取数据一般都是什么场景呢，如果只是零星的几条数据或者特定的某条数据也就不值得用工具了，之所以用工具是因为要批量的获取数据，而用手工方式又太耗时费力，甚至根本不能完成。例如抓取微博热门前100条，当然可以一页一页的翻，但是实在是太耗精力，再比如说知乎某个问题的所有答案，有的热门问题回答数成千上万，手工来，还是省省吧。

基于这样的一种需求，一般可采用两种方式采集这些数据，一种叫“我们程序员的方式”，另一种叫“你们普通人的方式”。

“我们程序员的方式”是指开发人员会根据需求自己写个爬虫或者利用某个爬虫框架，盯着屏幕狂敲代码，根据需求的复杂程度，敲代码的时长从一两个小时到一两天不等，当然如果时间太长的话可能是因为需求太复杂，针对这种复杂的需求来说，普通人的方式或许也就行不通了。常用的爬虫框架 Scrapy（Python）、WebMagic（Java）、Crawler4j（Java）。

这篇还是主要介绍“你们普通人的方式”，也就是 Web Scraper 这个工具，因为其界面简单、操作简单，并且可导出 Excel 格式，不懂开发的同学也可以很快上手。而且对于一些简单的需求，开发人员也没必要自己实现个爬虫，点几下鼠标毕竟要比敲半天代码快吧。

数据爬取的思路一般可以简单概括如下：

1、通过一个或多个入口地址，获取初始数据。例如一个文章列表页，或者具有某种规则的页面，例如带有分页的列表页；

2、根据入口页面的某些信息，例如链接指向，进入下一级页面，获取必要信息；

3、根据上一级的链接继续进入下一层，获取必要信息（此步骤可以无限循环下去）；

原理大致如此，接下来正式认识一下 Web Scraper 这个工具，来，打开开发者工具，点到 Web Scraper 这个标签栏，看到分为三个部分：

Create new sitemap：首先理解 sitemap ，字面意思网站地图，这里可以理解为一个入口地址，可以理解为其对应一个网站，对应一个需求，假设要获取知乎上的一个问题的回答，就创建一个 sitemap ,并将这个问题所在的地址设置为sitemap 的 Start URL，然后点击 “Create Sitemap”即可创建一个 sitemap。

Sitemaps:sitemap 的集合，所有创建过的 sitemap 都会在这里显示，并且可以在这里进入一个 sitemap 进行修改和数据抓取等操作。

Sitemap:进入某个 sitemap ,可以进行一系列的操作，如下图：

其中红色框部分 Add new selector 是必不可少的步骤。selector 是什么呢，字面意思：选择器，一个选择器对应网页上的一部分区域，也就是包含我们要收集的数据的部分。

需要解释一下，一个 sitemap 下可以有多个 selector，每个 selector 有可以包含子 selector ，一个 selector 可以只对应一个标题，也可以对应一整个区域，此区域可能包含标题、副标题、作者信息、内容等等信息。

Selectors：查看所有的选择器。

Selector graph:查看当前 sitemap 的拓扑结构图，根节点是什么，包含几个选择器，选择器下包含的子选择器。

Edit metadata:可以修改 sitemap 信息，标题和起始地址。

Scrape:开始数据抓取工作。

Export data as CSV:将抓取的数据以 CSV 格式导出。

到这里，有一个简单的认识就可以了，实践出真知，具体的操作案例才具有说服力，下面就以几个例子来说一说具体的用法。

案例实践

简单试水 hao123

由浅入深，先以一个最简单的例子为入口，只是作为进一步认识 Web Scraper 服务

需求背景：看到下面 hao123 页面中红色框住的部分了吧，我们的需求就是统计这部分区域中的所有网站名称和链接地址，最后以生成到 Excel 中。因为这部分内容足够简单，当然真正的需求可能比这复杂，这么几个数据手工统计的时间也很快。

开始操作

1、假设我们已经打开了 hao123 页面，并且在此页面的底部打开了开发者工具，并且定位到了 Web Scraper 标签栏；

2、点击“Create Sitemap”；

3、之后输入 sitemap 名称和 start url，名称只为方便我们标记，就命名为hao123（注意，不支持中文），start url 就是hao123的网址，然后点击 create sitemap；

4、之后 Web Scraper 自动定位到这个 sitemap，接下来我们添加一个选择器，点击“add new selector”；

5、首先给这个 selector 指定一个 id，就是一个便于识别名字而已，我这里命名为 hot。因为要获取名称和链接，所以将Type 设置为 Link，这个类型就是专门为网页链接准备的，选择 Link 类型后，会自动提取名称和链接两个属性；

6、之后点击 select ,然后我们在网页上移动光标，会发现光标所到之处会有颜色变化，变成绿色的，表示就是我么当前选择的区域。我们将光标定位到需求里说的那一栏的某个链接处，例如第一个头条新闻，在此处单击，这个部分就会变成红色，说明已经选中了，我们的目的是要选多个，所以选中这个之后，继续选第二个，我们会发现，这一行的链接都变成了红色，没错，这就是我们要的效果。然后点击"Done selecting!"，最后别忘了勾选 Multiple ，表示要采集多条数据；

7、最后保存，save selector。点击Element preview 可以预览选择的区域，点击 Data preview 可以在浏览器里预览抓取的数据。后面的文本框里的内容，对于懂技术的同学来说很清楚，这就是 xpath，我们可以不通过鼠标操作，直接手写 xpath 也可以；

完整操作过程如下：

8、上一步操作完，其实就可以导出了。先别急，看一下其他的操作，Sitemap hao123 下的 Selector graph，可以看出拓扑结构图，_root 是根 selector ，创建一个 sitemap 自动会有一个 _root 节点，可以看到它的子 selector，就是我们创建的 hot selector；

9、Scrape ，开始抓取数据。

10、Sitemap hao123 下的 Browse ，可以通过浏览器直接查看抓取的最后结果,需要再；

11、最后，使用 Export data as CSV，以 CSV 格式导出，其中 hot 列是标题，hot-href 列是链接；

怎么样，赶紧试一下吧

抓取知乎问题所有回答

简单的介绍完了，接下来试一个有些难度的，抓取一个知乎问题的所有答案，包括回答者昵称、赞同数量、回答内容。问题：为什么鲜有炫富的程序员？

知乎的特点是，页面向下滚动才会加载后面的回答

1、首先还是在 Chrome 中打开这个链接，链接地址为：https://www.zhihu.com/question/30692237，并调出开发者工具，定位到 Web Scraper 标签栏；

2、Create new sitemap，填写 sitemap name 和 start url;

3、接下来，开始添加选择器，点击 Add new selector；

4、先来分析一下知乎问题的结构，如图，一个问题由多个这种区域组成，一个区域就是一个回答，这个回答区域包括了昵称、赞同数、回答内容和发布时间等。红色框住的部分就是我们要抓取的内容。所以我们抓取数据的逻辑是这样的：由入口页进入，获取当前页面已加载的回答，找到一个回答区域，提取里面的昵称、赞同数、回答内容，之后依次向下执行，当已加载的区域获取完成，模拟向下滚动鼠标，加载后续的部分，一直循环往复，直到全部加载完毕；

5、内容结构的拓扑图如下，_root 根节点下包含若干个回答区域，每个区域下包含昵称、赞同数、回答内容；

6、按照上面这个拓扑图，开始来创建选择器，填写 selector id 为 answer（随意填），Type 选择 Element scroll down 。解释一下：Element 就是针对这种大范围区域的，这个区域还要包含子元素，回答区域就对应 Element，因为要从这个区域获取我们所需的数据，而 Element scroll down 是说这个区域利用向下滚动的方式可以加载更多出来，就是针对这种下拉加载的情况专门设计的。

7、接下来点击 Select，然后鼠标到页面上来，让当绿色框框住一个回答区域后点击鼠标，然后移动到下一个回答，同样当绿色框框住一个回答区域后点击鼠标。这时，除了这两个回答外，所有的回答区域都变成了红色框，然后点击"Done selecting！”，最后别忘了选择 Multiple ，之后保存；

8、接下来，单击红色区域，进入刚刚创建的 answer 选择器中，创建子选择器；

9、创建昵称选择器，设置 id 为 name，Type 设置为 Text，Select 选择昵称部分，如果没经验的话，可能第一次选的不准，发现有错误，可以调整，保存即可；

10、创建赞同数选择器；

11、创建内容选择器，由于内容是带有格式的并且较长，所以有个技巧，从下面选择会比较方便；

12、执行 Scrape 操作，由于内容较多，可能需要几分钟的时间，如果是为了做测试，可以找一个回答数较少的问题做测试。

资源获取

在本公众号内回复「爬虫」，获取 Chrome 和 Web Scraper 扩展程序的安装包
在本公众号内回复「sitemap」，获取本文中抓取 hao123 和知乎的 sitemap 文本

获取下来的 sitemap 是一段 json 文本，通过 Create new Sitemap 下的 Import Sitemap，然后输入获取到的 sitemap json 串，并起个名字，然后点击导入按钮即可。

最后，如果有什么问题，可以在公众号里直接留言或加入讨论群
公众号:古时的风筝

网页数据抓取工具，webscraper 最简单的数据抓取教程，人人都用得上的更多相关文章

抓包工具Fidder详解(主要来抓取Android中app的请求)
今天闲着没吊事,来写一篇关于怎么抓取Android中的app数据包?工欲行其事,必先利其器,上网google了一下,发现了一款神器:Fiddler,这个貌似是所有软件开发者必备神器呀!这款工具不仅可以 ...
抓包工具Fiddler的简单使用
HTTP代理 http代理,就是代理客户机的http访问,主要代理浏览器访问页面代理服务器是介于浏览器和web服务器之间的一台服务器,有了它之后,浏览器不是直接到Web服务器去取回网页而是向代理服务 ...
IOS抓包工具Stream——让移动端的抓包变得轻而易举
有一天下晚班回家,在地铁上的时候,开发发来信息说,能不能把之前创建的bug再抓包看下数据.顿时心里就想,在地铁上,我上哪抓包去.之后百度了下,发现ios有一款非常实用的抓包工具,大家可以上App St ...
android抓包工具——使用fiddler4在安卓手机抓包
Fiddler是一款非常流行并且实用的http抓包工具,它的原理是在本机开启了一个http的代理服务器,然后它会转发所有的http请求和响应,因此,它比一般的firebug或者是chrome自带的抓包 ...
大数据作业之利用MapRedeuce实现简单的数据操作
Map/Reduce编程作业现有student.txt和student_score.txt.将两个文件上传到hdfs上.使用Map/Reduce框架完成下面的题目 student.txt 20160 ...
抓包工具Charles的简单使用
一.Charles破解下载安装及破解方法: 1.下载charles并安装云盘下载地址:Windows 64bit 32bit 2.安装后先打开Charles一次(Windows版可以忽略此步 ...
【转载】抓包工具Fidder详解(主要来抓取Android中app的请求) 包括https
文章:http://blog.csdn.net/jiangwei0910410003/article/details/19806999/ Fiddler官网:http://www.telerik.co ...
抓包工具Fidder移动端HTTP请求抓包详解
第一步:下载神器Fiddler,下载链接: http://fiddler2.com/get-fiddler 下载完成之后,傻瓜式的安装一下了! 第二步:设置Fiddler打开Fiddler, ...
抓包工具Fidder设置（移动端抓包）
1.下载安装fiddler,下载链接:http://fiddler2.com/get-fiddler(我用的是免安装的fiddler2) 2.设置fiddler 打开Fiddler, Tool ...

随机推荐

【转】微软在.NET官网上线.NET 架构指南
原文地址:http://www.cnblogs.com/shanyou/p/6676357.html. 微软在Visual Studio 2017 正式发布的时候也上线了一个参考应用https://g ...
HTML入门12
开始了解响应式图片响应式,根据屏幕尺寸和分辨率的设备上都能良好工作以及其他特性的图片,接下来考虑怎样创建自适应得图片,专注于img元素,完成自适应. 分辨率切换,不同的尺寸 <img srcs ...
node08
---恢复内容开始--- 1.Axios 1)基于promise的HTTP库,可用在浏览器或nodejs中 2)使用方法: 在模块内使用需要挂载到Vue对象上: Vue.prototype.$axio ...
你不知道的JS之作用域和闭包（一）什么是作用域？
原文:你不知道的js系列什么是作用域(Scope)? 作用域是这样一组规则——它定义了如何存放变量,以及程序如何找到之前定义的变量. 编译器原理 JavaScript 通常被归类为动态语言或者解释 ...
Java课堂笔记（零）：内容索引
回想自己学习和使用Java的时间也是很长了.本科期间课堂上浅尝辄止地学习了点皮毛,后来也是搁置不用,未曾深入研究.研究生期间因为项目和实习的原因,基本算是重新拾起Java这门语言,并且接触到了Spri ...
mongodb建立索引
创建索引索引:以提升查询速度语法:db.集合.ensureIndex({属性:1}),1表示升序,-1表示降序具体操作:db.t255.ensureIndex({name:1}) db.t1.f ...
AWS MVC 详解
由于新工作是在AWS PaaS平台上进行开发,为不耽误工作,先整理一下AWS MVS的使用规范,快速上手.对AWS PaaS平台的相关介绍留到以后再来补充.本文几乎是对官方学习文档的整理,有遗漏的后补 ...
HBuilder git合作-上传项目到Git Hub
1.初始项目的创建这里假设你已经在Git Hub上面建立好了代码的远程仓库,并已经邀请好了队员在HBuidler中创建好初始的项目,然后右键,"Team"->" ...
JVM之垃圾回收
1.哪些内存需要回收?判断对象已死的方法(存活判定算法) 1.引用计数算法:难以解决对象之间相互循环引用的问题,不使用. 2.可达性分析算法:通过一系列“GC Root”对象作为起始点向下搜索,所走过 ...
Hadoop 集群安装（从节点安装配置）
1.Java环境配置 view plain copy sudo mv /tmp/java /opt/ jdk安装完配置环境变量,编辑/etc/profile: view plain copy sudo ...

网页数据抓取工具，webscraper 最简单的数据抓取教程，人人都用得上