python爬虫要经历爬虫.爬虫被限制.爬虫反限制的过程.当然后续还要网页爬虫限制优化,爬虫再反限制的一系列道高一尺魔高一丈的过程. 爬虫的初级阶段,添加headers和ip代理可以解决很多问题. 贴代码:说下思路 1.到http://www.xicidaili.com/nn/抓取相应的代理ip地址,地址比较多,但是不保证能用.先保存到列表 2.多线程验证代理ip的可行性,然后写入到对应的txt文件 3.当需要代理ip的时候,倒入模块,执行main()函数,可得到可用的代理ip进行后续功能. 验…