Web Scraper 性能测试 (-

刚在研究 Python 爬虫的时候，看到了个小白工具，叫 Web Scraper，于是来测试下好不好用。

Web Scraper 是什么？

它是一个谷歌浏览器的插件，

用于批量抓取网页信息，

主要特点为，小白操作，快速上手

安装方法

去 Google WebStore 里面搜，Web Scraper，然后点击安装就行了！

使用方法

自己上网搜吧，太多了！

测试结果

首先，它适用的范围是，网页的可见范围；就是页面上能看到的，都可以抓取。
- 所以，工作范围有限；
  - 例如，当你有一个 Excel，里面有 50 只股票的名字，要找到股价，这时这个工具就做不了了，
  - 因为股票代码，在Excel里，不在网页上。
- 这种情况，需要用 Python 自己写个小爬虫，来完成！
然后，测试了抓取的精准度
1. 发现，抓取的时候，插件不会把网页往下拉。
  - 在测试抓去一个页面的，70多个视频标题，的时候，不知为何只能抓取出20多个
  - 可能是因为，这个页面每次久显示20个，然后当手动拉到最底端的时候，才会再 Load 例外20个。而，这个 Scraper，好像不会去拉动页面，只是打开就抓取，所以页面其实只 Load 了20个视频。
  - 这是插件的局限性么？
2. 再者，若是一个页面有很多信息要抓取时，会很不准确。
  - 如果一个页面，只有一个 Selector，只抓取一个 Element，会相对准确
  - 例如，当一个人网页有大量新闻的时候，需要抓取所有的，标题，作者，时间；
  - 这样需要在一个页面上，同时建立3个 Selector，来抓取3列数据。测试结果，抓去数据严重不全，基本没用。
  - 而当一个页面，只有一个 Selector，只抓取一个 Element 的时候，就会比较精确。

最后总结

测试结果差不多就这么多，遇到了我这样的用户，这软件基本被扒了层皮。

觉得，这个插件更适合，小白，和相对简单的抓取任务。

Web Scraper 性能测试 (-_-)的更多相关文章

Web Service性能测试方案
目录: 1.web Service简介 2.SoapUI介绍 3.使用SoapUI进行web service性能测试 4.使用LR进行web service性能测试 5.使用JMeter进行web s ...
软件测试_Loadrunner_APP测试_性能测试_脚本录制_基本操作流程
这次主要是写一下使用Loadrunner对APP进行性能测试的基本流程,有关性能测试监控指标请查看链接:软件测试_性能测试_关注点. 先决条件:已安装Loadrunner.如未安装,请查看链接:软件测 ...
软件测试_Loadrunner_性能测试_脚本录制_录制多server请求脚本
之前我们写过使用Loadrunner录制APP脚本的基本流程:软件测试_Loadrunner_APP测试_性能测试_脚本录制_基本操作流程,但是只能用于请求单一服务器端口适用这次主要是写的多serv ...
Web Service 性能测试工具比较
背景希望选择一款Web Service性能测试工具,能真实模拟大量用户访问网站时的请求,从而获取服务器当前的请求处理能力(请求数/秒).以微信服务器为例,每个用户用独立的登录token,做各种操作, ...
Web::Scraper 页面提取分析
一组用来提取HTML文档中元素内容的工具集,它能够理解HTML和CSS选择器以及XPath表达式. 语法 use URI; use Web::Scraper; # First, create your ...
web scraper 抓取网页数据的几个常见问题
如果你想抓取数据,又懒得写代码了,可以试试 web scraper 抓取数据. 相关文章: 最简单的数据抓取教程,人人都用得上 web scraper 进阶教程,人人都用得上如果你在使用 web s ...
web scraper 抓取分页数据和二级页面内容
如果是刚接触 web scraper 的,可以看第一篇文章. web scraper 是一款免费的,适用于普通用户(不需要专业 IT 技术的)的爬虫工具,可以方便的通过鼠标和简单配置获取你所想要数据. ...
使用 Chrome 浏览器插件 Web Scraper 10分钟轻松实现网页数据的爬取
web scraper 下载:Web-Scraper_v0.2.0.10 使用 Chrome 浏览器插件 Web Scraper 可以轻松实现网页数据的爬取,不写代码,鼠标操作,点哪爬哪,还不用考虑爬 ...
web scraper——简单的爬取数据【二】
web scraper——安装[一] 在上文中我们已经安装好了web scraper现在我们来进行简单的爬取,就来爬取百度的实时热点吧. http://top.baidu.com/buzz?b=1&a ...

随机推荐

TypeScript声明文件
为什么需要声明? 声明的本质是告知编译器一个标识符的类型信息.同时,在使用第三方库时,我们需要引用它的声明文件,才能获得对应的代码补全.接口提示等功能. 声明在TypeScript中至关重要,只有通过 ...
达拉草201771010105《面向对象程序设计（java）》第十五周学习总结
达拉草201771010105<面向对象程序设计(java)>第十四周学习总结第一部分:理论知识 JAR文件: 1.Java程序的打包:程序编译完成后,程序员将.class文件压缩打包 ...
在idea下遇到的问题汇总（间接性更新）
在idea下遇到的问题汇总(间接性更新) tomcat下的jsp代码问题: 在idea的环境下,遇到jsp代码.符号失效,首先需要考虑到jar包没有引入,情况如图: 这种情况是因为jar包没有导入进去 ...
吐槽苹果开放接口のappleid登陆
这里吐槽一下苹果的开发文档,一切源于前段时间,公司的产品app(某知名资讯app)要接入苹果登陆(ios13发布以来,apple就流氓要求新上线的app,如果有第三方登陆的话,必须要接入appleid ...
2018 C笔试题
⼀.单项选择题(15⼩题,每⼩题2分,共30分) 解析:[传值调用],实参和形参之间传递的是“地址” 解析:[优先级]:算术运算符 > 关系运算符 > 赋值运算符 [结核性 ...
PxCook+photoshop实现傻瓜式切图（推荐小白使用）
确定需求刚入门前端的小伙伴经过一个阶段的学习,已经准备小试牛刀了.但看到设计师给出的psd图,又头疼了,天啊撸,怎么办,我不会切图啊.今天我就带领小白学习傻瓜式切图.包学包会.(￣▽￣)" ...
JS中的reduce()详解
reduce()作为一个循环使用.接收四个参数:初始值(上一次返回值),当前元素值,当前元素下标,原数组. 应用作为累加器使用 var a=[4,5,6,7,8] //item代表一次回调的值初 ...
浅谈Java开发三层架构
三层架构,一般来说就是将整个业务应用划分为:表现层(UI).业务逻辑层(BLL).数据访问层(DAL).区分层次的目的即为了“高内聚,低耦合”的思想. 概念简介 1.表现层(UI):简单来说,就是展现 ...
C语言程序设计（十三）文件操作
第十三章文件操作文本文件:将数值型数据的每一位数字作为一个字符以其ASCII码的形式存储(每一位数字都单独占用一个字节的存储空间) 二进制文件:数据值是以二进制形式存储的文本文件可以方便地被其他 ...
C++ Dll中导出一个类
//定义一个头文件,创建MyObject.h的头文件并打印如下代码 #ifndef _MY_OBJECT_H #define _MY_OBJECT_H #ifndef MYDLL_EXPORTS # ...

Web Scraper 性能测试 (-_-)

Web Scraper 是什么？

安装方法

使用方法

测试结果

最后总结

Web Scraper 性能测试 (-_-)的更多相关文章

随机推荐

热门专题