Not so long ago, we discussed on this blog the possible ways of retrieving the client’s IP address in ASP.NET Web API. With the latest changes in the Web API 2 infrastructure, and the emergence of Owin and the Katana project as the common glue betwee…
scrapy抓取一些需要js加载页面时一般要么是通过接口直接获取数据,要么是js加载,但是我通过selenium也可以获取动态页面 但是有个问题,容易给反爬,因为在scrapy中间件mid中使用selenium的ip不会跟着你在中间件中切换的ip变化,还是使用本机的ip在访问网站, 这里通过 确定网页url进行过滤,什么网页使用selenium,什么使用scrapy自带的抓取, 为selenium单独设置一个获取ip的办法,当然也可以使用全局变量 from selenium import web…
中间件 拦截请求跟响应 进行ua(User-Agent ) 伪装 代理 IP 中间件位置: 引擎 和下载器 中间 的中间件 ( 下载中间件) 引擎 跟 spider 中间 的中间件 ( 爬虫中间件)(不常用) 下载中间件中的ua 伪装 下载中间件可以拦截调度器发送给下载器的请求.可以将请求的相应信息进行篡改,主要可以通过拦截请求修改请求的ip 在settings 中开启下载中间件 DOWNLOADER_MIDDLEWARES = { 'postPro.middlewares.PostproDow…
一 介绍     selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转.输入.点击.下拉等,来拿到网页渲染之后的结果,可支持多种浏览器 from selenium import webdriver browser=webdriver.Chrome() browser=webdriver.Firefox() browser=webdriver.Phant…
一. CBV加装饰器 在视图层中,基于函数的视图叫FBV(function base views),基于类的视图叫CBV(class base views).当需要用到装饰器时,例如之前的基于Cookie与基于Session的登录验证,给FBV加装饰器很简单,一个@语法糖就OK了,那么给CBV加装饰器呢,难道直接跟单例实现的方法之一一样,类上面一个@语法糖就行了吗.其实给CBV加装饰器有三种方法. 需要先导入模块: from django.utils.decorators import meth…
问题简述 我们知道HttpRequest.META字典包含所有HTTP头部信息(可用的头部信息取决于客户端和服务器).一般情况下,HttpRequest.META.get('REMOTE_ADDR')一句代码就能获取到你想要的客户端IP.然而,如果部署了代理服务器等原因,就会导致得到的IP并不是真实的客户端IP.那么如何才能获取到真实的远程客户端IP呢? 解决方法参考 1.自定义中间件 假如代码文件路径为“custbase.http.SetRemoteAddrFromForwardedFor”.…
实验一.IIS实验 1.修改端口   开始→管理工具→Internet 信息服务(IIS)管理器,属性,将端口改为 8080 如图: 2.    IP 地址绑定 前面步骤同第一题一样,将 Ip 改为本地地址,如图: 3.  通过网站发布目录 在网站目录下创建一个 a.html 文件,如图: 4.    开启目录浏览 属性→主目录→目录浏览(打钩),如图: 5.   默认启用页面 属性→在文档中添加 1.html 文件,如图: 在浏览器访 问,默认1.html为启用页面,如图.: 6.   身份验…
面对众多动态网站比如说淘宝等,一般情况下用selenium最好 那么如何集成selenium到scrapy中呢? 因为每一次request的请求都要经过中间件,所以写在中间件中最为合适 from selenium import webdriver from scrapy.http import HtmlResponse class JSPageMiddleware(object): def process_request(self, request, spider): if spider.nam…
昨日内容拾遗 打开昨天写的DianShang项目,查看items.py class AmazonItem(scrapy.Item): name = scrapy.Field() # 商品名 price= scrapy.Field() # 价格 delivery=scrapy.Field() # 配送方式 这里的AmazonItem类名,可以随意.这里定义的3个属性,和spiders\amazon.py定义的3个key,是一一对应的 # 生成标准化数据 item = AmazonItem() #…
1.在settings文件中添加ip池 IPPOOL=['xxx.xx.xx.xx','xxx.xx.xxx.xx'] 2.在middleware文件中添加自己的代理ip类(首先需要导入ipPOOL,random模块) class Myproxymiddleware(object): def __init__(self,ip=''): self.ip = ip def process_request(self,request,spider) ip = random.choice(IPPOOL)…