使用 Chrome 浏览器插件 Web Scraper 10分钟轻松实现网页数据的爬取
web scraper 下载:Web-Scraper_v0.2.0.10
使用 Chrome 浏览器插件 Web Scraper 可以轻松实现网页数据的爬取,不写代码,鼠标操作,点哪爬哪,还不用考虑爬虫中的登陆、验证码、异步加载等复杂问题。
Web Scraper插件
Web Scraper 官网中的简介:
Web Scraper Extension (Free!)
Using our extension you can create a plan (sitemap) how a web site should be traversed and what should be extracted. Using these sitemaps the Web Scraper will navigate the site accordingly and extract all data. Scraped data later can be exported as CSV.
先看一下,我用 web scaper 爬取到的数据:
1. 知乎轮子哥粉丝
轮子哥有 54 万多粉丝,我只抓取了前 20 页400条记录
设定数据字段
2.简书七日热门数据
运行爬虫得到数据
导出数据
Web Scraper 抓取流程及要点:
安装Web Scraper插件后,三步完成爬取操作
1、Create new sitemap(创建爬取项目)
2、选取爬取网页中的内容,点~点~点,操作
3、开启爬取,下载CSV数据
其中最关键的是第二步,两个要点:
- 先选中数据块 Element,每块数据我们在页面上取,都是重复的,选中 Multiple
- 在数据块中再取需要的数据字段(上图Excel中的列)
爬取大量数据的要点,在于掌握分页的控制。
分页分为3种情况:
URL 参数分页(比较规整方式)
URL 中带有分页的 page 参数的,如:https://www.zhihu.com/people/excited-vczh/followers?page=2
直接在创建sitemap时,Start URL中就可以带上分页参数,写成这样:
https://www.zhihu.com/people/excited-vczh/followers?page=[1-27388]
滚动加载,点击“加载更多” 加载页面数据
点击分页数字标签(包括“下一页”标签)
注意,这里第2-3种可以归为一类方式,是异步加载的方式,大部分都可以转为第1种的方式来处理。
这种方式分页不太好控制。一般使用 Link 或 Element click 来实现分页的操作。
图示 Web Scraper 操作步骤:
第一步:创建sitemap
第二步:选取块数据Element
第三步:选取抓取的字段text
第四步:爬取
Web Scaper 使用体会:
1) 除了规整的分页方式外,其他分页方式不好控制,不同的网站受页面标签不同,操作也不一样。
2) 因为直接抓取页面显示值,抓取数据规整度不太好,需要 EXCEL 函数处理。
如,简书七日热门中文章发表时间,格式有好几种。
3) 有一点网页代码基础的上手很快,代码才是王道啊。
特别是有点Python爬虫基础的,在选取页面数据中很容易操作、理解,发现操作中出现的问题。
4) 比起八爪鱼、火车头等数据采集器,web scraper不需要下载软件,免费,无需注册,还很体会一点点代码的操作。当然 web scraper 也有付费的云爬虫。
Web Scraper 还可以导入sitemap,把下面的这段代码导入,你就可以抓取到知乎轮子哥前20页的粉丝:
{"startUrl":"https://www.zhihu.com/people/excited-vczh/followers?page=[1-20]","selectors":[{"parentSelectors":["_root"],"type":"SelectorElement","multiple":true,"id":"items","selector":"div.List-item","delay":""},{"parentSelectors":["items"],"type":"SelectorText","multiple":false,"id":"name","selector":"div.UserItem-title a.UserLink-link","regex":"","delay":""},{"parentSelectors":["items"],"type":"SelectorText","multiple":false,"id":"desc","selector":"div.RichText","regex":"","delay":""},{"parentSelectors":["items"],"type":"SelectorText","multiple":false,"id":"answers","selector":"span.ContentItem-statusItem:nth-of-type(1)","regex":"","delay":""},{"parentSelectors":["items"],"type":"SelectorText","multiple":false,"id":"articles","selector":"span.ContentItem-statusItem:nth-of-type(2)","regex":"","delay":""},{"parentSelectors":["items"],"type":"SelectorText","multiple":false,"id":"fans","selector":"span.ContentItem-statusItem:nth-of-type(3)","regex":"","delay":""}],"_id":"zh_vczh"}
PS, Web Scraper 资料教程
官网中的视频教程
http://webscraper.io/tutorials知乎@陈大欣 的回答 中写了详细的步骤,并录制了视频教程。
这个问题来源 零基础如何学爬虫技术? @陈大欣 在文章中把 Excel 爬虫,web scraper,代码爬虫做了比较分析。
写在最后:FOR Freedom 看看外边的世界,以及IT这一行,少不了去Google查资料,最后,安利一些速器代理。
网络加速工具推荐 | 免费方案 | 付费方案 | 官方网站 |
一枝红杏网络加速工具 | 免费方案暂无,稳定高速 | 输入8折优惠码wh80,年付只需80元/年 | 官网直达http://whosmall.com/go/yzhx |
网络加速工具 | 最好用的外贸网络加速工具 | 最低¥30/月 | 官网直达http://whosmall.com/go/yzhx |
LoCo网络加速工具 | 每天免费2小时 | 最低¥15/月 | 官网直达http://whosmall.com/go/yzhx |
本文标签: Mac效率工具 Mac小工具 MacOS Homebrew-Cask Mac软件包管理器
转自 SUN'S BLOG - 专注互联网知识,分享互联网精神!
原文地址: 《MacOS 如何使用软件包管理器 Homebrew-Cask 安装软件?》
相关阅读:《Mac 系统上如何用 LaunchBar 一键下载网页上的所有文件?》
相关阅读:《MacOS 如何用 LaunchBar 一键上传文件至 Google Drive?》
相关阅读:《最好用的 Mac App 快速启动及切换工具:Manico 2.0》
相关阅读:《我为什么选择 Window Tidy 作为 MacOS 分屏工具?》
相关阅读:《Chrome 扩展 Stylish :给不喜欢某个网站一键「换肤」》
相关阅读:《将 QQ 音乐、网易云音乐和虾米音乐资源「整合」一起的Chrome 扩展Listen 1》
相关阅读:《8 个「新标签页」Chrome 扩展: 教你把 New Tab 页面玩的溜溜溜》
相关阅读:《7 款实用 Chrome 扩展推荐:帮你提升 Chrome 使用体验》
相关阅读:《无扩展就不是 Chrome 了:15 款优质的Chrome 扩展推荐给大家》
相关阅读:《12 款不能少的使网页浏览获得的最佳体验Chrome 扩展》
相关阅读:《5 款可以带来幸福感的 Chrome 扩展》
相关阅读: 对程序员有用:2017最新能上Google的hosts文件下载及总结网友遇到的各种hosts问题解决方法及配置详解
使用 Chrome 浏览器插件 Web Scraper 10分钟轻松实现网页数据的爬取的更多相关文章
- 强烈推荐 10 款珍藏的 Chrome 浏览器插件
Firebug 的年代,我是火狐(Mozilla Firefox)浏览器的死忠:但后来不知道为什么,该插件停止了开发,导致我不得不寻求一个新的网页开发工具.那段时间,不少人开始推荐 Chrome 浏览 ...
- chrome浏览器插件启动本地应用程序
chrome浏览器插件启动本地应用程序 2014-04-20 00:04:30| 分类: 浏览器插件|举报|字号 订阅 下载LOFTER我的照片书 | chrome的插件开发这里就 ...
- Rest Client(Rest接口调试工具,有保存功配置功能) chrome浏览器插件
Rest Client(Rest接口调试工具,有保存功配置功能) chrome浏览器插件 下载地址 插件的操作很简单,下面是一些简单的实例. 1.安装 在谷歌应用商城搜索postman,如下图1-1所 ...
- chrome浏览器插件window resizer调试webapp页面大小
chrome浏览器插件window resizer可以调整当前浏览器分辨率大小 可以自定义大小,以适合于andorid和iphone设备
- 用Javascript编写Chrome浏览器插件
原文:http://homepage.yesky.com/62/11206062.shtml 用Javascript编写Chrome浏览器插件 2010-04-12 07:30 来源:天极网软件频道 ...
- chrome浏览器插件开发经验(一)
最近在进行chrome浏览器插件的开发,一些小的经验总结随笔. 1.首先,推荐360的chrome插件开发文档:http://open.chrome.360.cn/extension_dev/over ...
- 还在为百度网盘下载速度太慢烦恼?chrome浏览器插件帮你解决!
百度网盘已然成为分享型网盘中一家独大的“大佬”了.时代就是这样不管你喜不喜欢,上网总会遇到些百度网盘共享的文件需要下载.然而,百度网盘对免费用户的限速已经到了“感人”的地步了,常常十多KB/秒的速度真 ...
- 10分钟轻松设置出 A+ 评分的 HTTP/2 网站
前言 其实 HTTP/2 应该是 2015 年的老话题了(2015 年 5 月 14 日 HTTP/2 协议正式版的发布),但是 2018 年都到了很多网站依旧没有使用,作为新一代互联网协议,HTTP ...
- 15款Chrome浏览器插件让设计师告别拖延症
秋高气爽,分享一大波有效帮助设计师提高工作效率的Chrome浏览器扩展程序! 高效是另一种王道 无论是在工作中,还是在生活中,有些词我们说来就满满正能量,而另外一些话提起就很沮丧,后者如拖延症,前者如 ...
随机推荐
- Java 字符串拼接四种方式的性能比较分析
一.简单介绍 编写代码过程中,使用"+"和"contact"比较普遍,但是它们都不能满足大数据量的处理,一般情况下有一下四种方法处理字符串拼接,如下: 1. 加 ...
- splice() 方法通过删除现有元素和/或添加新元素来更改一个数组的内容。
var myFish = ["angel", "clown", "mandarin", "surgeon"]; //从第 ...
- cmake: error: symbol(s) not found for architecture x86_64 mac os 使用boost asio
最近在使用boost的asio库,在mac osx 上编写网络服务程序报错: :-1: error: symbol(s) not found for architecture x86_64 然后在CM ...
- 导弹拦截问题(DP+贪心)
1. 拦截导弹(Noip1999) 某国为了防御敌国的导弹袭击,发展出一种导弹拦截系统.但是这种导弹拦截系统有一个缺陷:虽然它的第一发炮弹能够到达任意的高度,但是以后每一发炮弹都不能高于前一发的高度. ...
- webpack 4.0配置2
上个博客记录了webpack 的基本配置今天主要是css-loader的介绍,包括单独提出css,压缩css.js文件 这里使用的插件npm 地址:https://www.npmjs.com/pack ...
- MyEclipse10.0的破解过程详细及图解
MyEclipse10.0的破解过程详细图解 准备阶段 : 1. 破解软件(网上有下载) 2. JDK软件(免费软件) 开始破解: 1. 关闭MyEclipse 10.0 2. 安装 JDK 然后解压 ...
- gradle 排除jar包依赖
1.直接在configuration中排除 configurations { compile.exclude module: 'commons' all*.exclude group: 'org.gr ...
- adduser与useradd的区别
问题:使用 useradd 创建用户,发现 /home 目录下没有自动创建关于用户的目录.所以做了一番调查研究 useradd是一个linux命令,但是它提供了很多参数在用户使用的时候根据自己的需要进 ...
- 浅谈spring为什么推荐使用构造器注入
转载自: https://www.cnblogs.com/joemsu/p/7688307.html 一.前言 Spring框架对Java开发的重要性不言而喻,其核心特性就是IOC(Inversi ...
- go安装依赖包
实例 比如先切换到 $GOPATH 的 src 目录,cd $GOPATH/src,然后按需要下载: git clone --depth 1 https://github.com/golang/too ...