目标地址:http://weixin.sogou.com/weixin? 这个地址是搜狗微信的文章搜索,可以搜索到微信的文章,而我们目标就是这些文章内容 这个url经过测试,当我们没登陆微信只能看到10页的内容,我们登陆后才可以查看100页的内容, 而且翻页多次会出现ip检测的反爬机制,出现302重新跳转到验证码输入页面,输入验证码后才可以继续浏览网页 于是我们就利用代理池来解决这个反爬. 首先搭建爬虫主题框架,因为是搜索类型的url,一般通过get请求,所以我们通过urlencode进行参数拼…