前言 反爬虫是网站为了维护自己的核心安全而采取的抑制爬虫的手段,反爬虫的手段有很多种,一般情况下除了百度等网站,反扒机制会常常更新以外.为了保持网站运行的高效,网站采取的反扒机制并不是太多,今天分享几个我在爬虫过程中遇到的反扒机制,并简单介绍其解决方式. 基于User-Agent反爬 简介:服务器后台对访问的User_Agent进行统计,单位时间内同一User_Agent访问的次数超过特定的阀值,则会被不同程度的封禁IP,从而造成无法进行爬虫的状况. 解决方法: 一 . 将常见的User-Age…
协议 http 协议: client 端 server 端交互的 一种形式 请求头信息: User-Agent: 情求载体的身份标识 connection: 'close' 连接状态 请求成功后 断开连接 响应头信息: Content-Type: HTTPS 协议: 数字证书认证机构是客户端与服务器都可信赖的第三方机构.证书的具体传播过程如下: 服务器的开发者携带公开密钥,向数字证书认证机构提出公开密钥的申请,数字证书认证机构在认清申请者的身份,审核通过以后,会对开发者申请的公开密钥做数字签名,…
1.1 常用反扒机制   参考博客:https://blog.csdn.net/python36/article/details/90174300 1.header  浏览器的请求头 header中添加token等验证信息 2.Referer 防盗链 1. 访问的目标链接是从哪个链接跳转过来的(做防盗链的话,就可以从它入手) 2. HTTP来源地址(referer,或 HTTP referer)是HTTP表头的一个字段,用来表示从哪儿链接到目前的网页,采用的格式是URL. 3. 换句话说,借着H…
下面列举出几种常见的错误及解决方法. Q1:无效的安装包,安装包已损坏[INSTALL_FAILED_INVALID_APK] A1:请检查安装包是否完整.如果是xpk包,可以通过 手动安装xpk来检测一下.如果是apk包,请重新下载. Q2:系统版本过低,[INSTALL_FAILED_OLDER_SDK] A2:当前程序不支持您的手机,请到应用汇下载适合你手机版本的程序. Q3:没有足够的存储空间,[INSTALL_FAILED_INSUFFICIENT_STORAGE] A3:清理空间,重…
Python UnicodeEncodeError: 'gbk' codec can't encode character 解决方法 这篇文章主要介绍了Python UnicodeEncodeError: 'gbk' codec can't encode character 解决方法,需要的朋友可以参考下   使用Python写文件的时候,或者将网络数据流写入到本地文件的时候,大部分情况下会遇到:UnicodeEncodeError: 'gbk' codec can't encode chara…
python listdir() 中文路径 中文文件夹 乱码 解决方法 listdir(path)返回的结果的编码似乎和我们提供的 path 参数的编码有关: path = 'd:/test' try: path = unicode(path, 'utf-8') # 经过编码处理 except: pass # python3 已经移除 unicode,而且默认是 utf8 编码,所以不用转 listdir(path) 这样,就算 path 下有中文的文件和文件夹,我们获得的结果是 utf-8 的…
方法: 使用urlencode函数 urllib.request.urlopen() import urllib.request import urllib.parse url = 'https://www.sogou.com/web?' #将get请求中url携带的参数封装至字典中 param = { 'query':'周杰伦' } #对url中的非ascii进行编码 param = urllib.parse.urlencode(param) #将编码后的数据值拼接回url中 url += p…
这一次呢,让我们来试一下"CSDN热门文章的抓取". 话不多说,让我们直接进入CSND官网. (其实是因为我被阿里的反爬磨到没脾气,不想说话--) 一.URL分析 输入"Python"并点击搜索: 便得到了所有关于"Python"的热门博客,包括 [ 标题,网址.阅读数 ] 等等,我们的任务,就是爬取这些博客. 分析一下上图中曲线处的URL,不难发现:p为页数,q为关键字. 二.XPath路径 打开开发者模式,匹配我们所需信息的标签: 通过//d…
参考:http://www.cnblogs.com/Eva-J/articles/8244551.html#_label5 1.黏包的表现(以客户端远程操作服务端命令为例) 注:只有在TCP协议通信的情况下,才会产生黏包问题 基于TCP协议实现的黏包 #!/usr/bin/env python # -*- coding: utf-8 -*- # tcp_server_cmd.py import socket import subprocess ip_port = ('127.0.0.1', 80…
1.在chrome浏览去中输入chrome://version  查看chrome 的安装位置 2.将chromedriver 驱动添加到可执行文件路径中 3.在Jenkins中 的系统设置中-环境变量-添加python环境 和windows 一样 4. 修改脚本添加驱动的绝对路径 5.再次构建Jenkins  结果ok 6.脚本执行无界面的解决方法 原因:Jenkins搭建完成后,默认运行自动化案例的节点都是master,master即启动jenkins的这台服务器,而在master上运行案例…