反爬概述 网络爬虫,是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成. 但是当网络爬虫被滥用后,互联网上就出现太多同质的东西,原创得不到保护. 于是,很多网站开始反网络爬虫,想方设法保护自己的内容. 他们根据ip访问频率,浏览网页速度,账户登录,输入验证码,flash封装,ajax混淆,js加密,图片等技术,来应对网络爬虫. 防的一方不惜成本,迫使抓的一方在考虑成本效益后放弃. 抓的一方不惜成本,防的一方在考虑用户流失后放弃. 反爬策略 一: User-Agent…