(一)网路爬虫入门 1.0 爬虫是个啥 通过编写程序,模拟浏览器去上网,然后让其去互联网上抓取数据的过程 1.1 爬虫分类 通用爬虫 :抓取系统重要组成部分,抓取一整张页面的数据 聚焦爬虫:建立在通用爬虫基础之上,抓取的是页面中特定的局部内容 增量式爬虫 :检测网站中数据更新的情况,只会抓取网站中最新更新出来的数据 1.2 爬虫的矛与盾: 反爬机制: 门户网站,可以通过制定相应的策略或者技术手段,防止爬虫程序进行网站数据的爬取 反反爬策略: 爬虫程序可以通过指定相关策略或者技术手段,破解门户网站…