Spider-Python爬虫之聚焦爬虫与通用爬虫的区别

为什么要学习爬虫？

学习爬虫，可以私人订制一个搜索引擎。

大数据时代，要进行数据分析，首先要有数据源。

对于很多SEO从业者来说，从而可以更好地进行搜索引擎优化。

什么是网络爬虫？

模拟客户端发送网络请求，接收请求对应的数据，按照一定的规则，自动抓取互联网信息的程序。

只要是客户端(浏览器)能做的的事情，原则上，爬虫都能做。意思就是，只要人类能够访问的网页，爬虫在具备铜等资源的情况下就一定可以抓取。

爬虫的用途

主要用：途数据采集

其他用途：12306抢票、各种抢购、投票、刷票、短信轰炸、网络攻击、Web漏洞扫描器

爬虫数据的用途

1.金融          金融新闻/数据            制定投资策略，进行量化交易

2.旅游          各类信息                优化出行策略

3.电商          商品信息                比价系统

4.游戏          游戏论坛                调整游戏运营

5.银行          个人交易信息             征信系统/贷款评级

6.招聘          职位信息                岗位信息

7.舆情          各大论坛                社会群体感知，舆论导向

通用爬虫

通用爬虫：搜索引擎用的爬虫系统。搜索引擎和web服务商提供的爬虫。

目标：

就是尽可能的；把互联网上的所有的网页下载下来，放到本地服务器里形成备分，在对这些网页做相关处理(提取关键字、去掉广告)，最后提供一个用户检索接口。

抓取流程：

首先选取一部分URL，把这些URL放到待爬取队列。

从队列取出URL，然后解析DNS得到主机IP，然后保存这个IP对应的服务器里下载HTML页面，保存到搜索引擎的本级服务器，之后把这个爬过的url放入已爬过的队列。

分析这些网页内容，找出网页里其他的URL链接，继续执行第二步，知道爬取结束

搜索引擎如何获取一个新网站的URL：

a)主动向搜索引擎提交网站

B)在其他网站里设置外联

C)索引擎会和DNS服务商服务商进行合作，可以快速收录新的网站

DNS把域名解析成IP的一种技术。

通用爬虫并不是万物皆可爬取，他也要遵循规则：

Robots协议：协议会指明通用爬虫可以爬取网页的权限(告诉搜索引擎那些可以抓取，那些不可以抓取)

Robots.txt 并不是所有的爬虫都遵守，一般只有大型的搜索引擎爬虫才会遵守

存在位置:robots.txt文件应该放置在网站根目录下

例如：https://www.taobao.com/robots.txt

通用爬虫工作流程：

爬取网页 存储数据 内容处理 提供检索/排名服务

搜索引擎排名：

1.PageRank值：根据网站的流量(点击量/浏览量/人气)统计，流量越高，网站排名越靠前。

2.竞价排名：谁给的钱多，谁排名就高。

通用爬虫的缺点：

1.只能提供和文本相关的内容(HTML、Word、PDF)等等，但是不能提供多媒体文件(音乐、图片、视频)和二进制文件(程序、脚本)

2.提供的结果千篇一律，不等针对不同背景领域的人提供不同的搜索结果

3.不能提供人类语义上的检索

通用搜索引擎的局限性

1.通用搜索引擎所返回的网页里90%的内容无用。

2.中文搜索引擎自然语言检索理解困难

3.信息占有量和覆盖率存在局限。

4.搜索引擎最主要的还是以关键字搜索为主，对于图片、数据库、音频、视频多媒体的内容通用搜索引擎无能为力。

5.搜索引擎的社区化和个性化不好，大多数搜索引擎没有考虑人的地域，性别，年龄的差别

6.搜索引擎抓取动态网页效果不好

  解决通用爬虫的缺点，聚焦爬虫出现了。

聚焦爬虫

聚焦爬虫：爬虫程序员写的针对某种内容爬虫。

面向主题爬虫、面向需求爬虫：会针对某种特定的能容去爬取信息，而且保证内容需求尽可能相关。

1.积累式爬虫：从开始到结束，不断爬取，过程中会进行重复操作。

2.增量式爬虫：已下载网页采取增量式更新和只爬取新产生的或者已经发生变化网页爬虫

3.Deep web爬虫：不能通过静态链接获取的、隐藏在搜索表单后的，只有用户提交一些关键词才能获得的web页面

Spider-Python爬虫之聚焦爬虫与通用爬虫的区别的更多相关文章

(Python爬虫04)了解通用爬虫和聚焦爬虫,还是理论知识.快速入门可以略过的
如果现在的你返回N年前去重新学习一门技能,你会咋做? 我会这么干: ...哦,原来这个本事学完可以成为恋爱大神啊, 我要掌握精髓需要这么几个要点一二三四..... 具体的学习步骤是这样的一二三.... ...
Python通用爬虫，聚焦爬虫概念理解
通用爬虫:百度.360.搜狐.谷歌.必应....... 原理: (1)抓取网页 (2)采集数据 (3)数据处理 (4)提供检索服务百度爬虫:Baiduspider 通用爬虫如何抓取新网站? (1)主 ...
Python 教你 4 行代码开发新闻网站通用爬虫
\ GNE(GeneralNewsExtractor)是一个通用新闻网站正文抽取模块,输入一篇新闻网页的 HTML, 输出正文内容.标题.作者.发布时间.正文中的图片地址和正文所在的标签源代码.G ...
python爬虫王者荣耀高清皮肤大图背景故事通用爬虫
wzry-spider python通用爬虫-通用爬虫爬取静态网页,面向小白基本上纯python语法切片索引,少用到第三方爬虫网络库这是一只小巧方便,强大的爬虫,由python编写主要实现了: ...
Python 通用爬虫和讯博客 scrapy
目标站点需求分析通用爬虫,获取和讯博客所有博文涉及的库 scrapy,re,requests,mysql URL RULE 解析单页源码保存到数据库结果
python scrapy 入门,10分钟完成一个爬虫
在TensorFlow热起来之前,很多人学习python的原因是因为想写爬虫.的确,有着丰富第三方库的python很适合干这种工作. Scrapy是一个易学易用的爬虫框架,尽管因为互联网多变的复杂性仍 ...
爬虫(十八)：Scrapy框架(五) Scrapy通用爬虫
1. Scrapy通用爬虫通过Scrapy,我们可以轻松地完成一个站点爬虫的编写.但如果抓取的站点量非常大,比如爬取各大媒体的新闻信息,多个Spider则可能包含很多重复代码. 如果我们将各个站点的 ...
PHP, Python, Node.js 哪个比较适合写爬虫？
PHP, Python, Node.js 哪个比较适合写爬虫? 1.对页面的解析能力2.对数据库的操作能力(mysql)3.爬取效率4.代码量推荐语言时说明所需类库或者框架,谢谢.比如:python+ ...
零基础写python爬虫之使用Scrapy框架编写爬虫
网络爬虫,是在网上进行数据抓取的程序,使用它能够抓取特定网页的HTML数据.虽然我们利用一些库开发一个爬虫程序,但是使用框架可以大大提高效率,缩短开发时间.Scrapy是一个使用Python编写的,轻 ...

随机推荐

2017 ACM-ICPC Asia East Final T1
好弱啊只会T1,在Chemist&&wxh两位dalao的指导下搞懂. 题解如下.[手写版本滑稽 code #include<bits/stdc++.h> using n ...
pycharm版本选择并安装
pycharm版本选择并安装一. 初学python最好选择专业版的,因为经测试社区版的很多插件都没有安装,如果自己安装的话会非常麻烦,而且很多根本就安装不上,比如说css,javascript,d ...
LightOj 1074 Extended Traffic (spfa+负权环)
题目链接: http://lightoj.com/volume_showproblem.php?problem=1074 题目大意: 有一个大城市有n个十字交叉口,有m条路,城市十分拥挤,因此每一个路 ...
_bzoj1088 [SCOI2005]扫雷Mine【dp】
传送门:http://www.lydsy.com/JudgeOnline/problem.php?id=1088 简单的状压dp(话说本题的编号减1,即1087,也是一道状压dp),不解释. #inc ...
QT5每日一学（二）编写QT多窗口程序
一.添加主窗口 1.首先打开Qt Creator,新建Qt Widgets Application,项目名称设置为windows,在类信息界面保持基类为QMainWindow.类名为MainWindo ...
升序 Collections.sort(list) 降序 Collections.reserve(list) 随机 Collections.shuffle(list)
package Day28ketangzuoye; import java.util.ArrayList; import java.util.Collections; import java.util ...
关于Swing中JFrame等顶级容器的层次还有设置背景的方式
资料来自:http://blog.csdn.net/qq_32006373/article/details/49659129 http://yuncode.net/code/c_5196327caac ...
AJPFX解析成员变量和局部变量
成员变量和局部变量 3.1.成员变量和局部变量 A:在类中的位置不同 * 成员变量:在类中方法外 * 局部变量:在方法定义中或者方法声明上 B:在内存中的位置不同 ...
《effective java》中文第2版 note
,第15条[66]: 为不可变类提供静态工厂, eg : Integer/BigInteger 使用了静态工厂缓存了一些常用的实例, 通常 Integer -128 ~ +127. BigIntege ...
vue学习之遇见的问题
1.本地图片加载不出来错误原因:图片放置位置不对: 解决方法:需要将图片放在static文件夹里

Spider-Python爬虫之聚焦爬虫与通用爬虫的区别

Spider-Python爬虫之聚焦爬虫与通用爬虫的区别的更多相关文章

随机推荐

热门专题