爬虫与反爬 爬虫:自动获取网站数据的程序,关键是批量的获取. 反爬虫:使用技术手段防止爬虫程序的方法 误伤:反爬技术将普通用户识别为爬虫,从而限制其访问,如果误伤过高,反爬效果再好也不能使用(例如封ip,只会限制ip在某段时间内不能访问) 成本:反爬虫需要的人力和机器成本 拦截:成功拦截爬虫,一般拦截率越高,误伤率越高 反爬虫1 爬虫:对网站的数据感兴趣,着手分析网络请求,用Scrapy写爬虫爬取网站数据 网站:后台监控发现请求中的User-Agent都是python,直接限制访问(不能封ip)…