个人总结爬虫的学习曲线,可分为三个阶段, 一. 主要在填充基础知识,要熟悉http协议,学习正则表达式,首先基于jdk的基础包的网络功能,.net包下的 httpurlconnction 从细节上简单访问网络数据,进一步可以减去一些繁琐的封装功能(请求参数),使用httpClient (4.2.1)版本,处理的登录 页面解析可以借助regex ,jsoup ,htmlparser ,建议使用正则(要求较高),数据的锁向性准确,性能高. 二. 融入架构的思想,考虑爬取性能,爬取道德,站点处理能力…