====== python-爬虫技能升级记录 ====== ===== (一)感知爬虫及爬取流程 =====<code>从简单存取一个页面到 爬取到大量的定量数据,对技术要求更高,以百度百科数据爬取为入门练手项目.历时一个月,经历很多问题. 爬取流程:分析目标网页.得到url.拿url抓取.解析抓到的页面.存取数据和解析出的url.去重 继续迭代抓. 通过扩大关键词范围.从页面提取更多相关url源来覆盖更多可抓页,提升抓取数据量.chrome浏览器F12是个好工具,把网页解析过程看的一目了然.…