downloadermiddlewares  文件夹是下载中间件 其中  process_request   还没请求时的处理函数 process_response  请求之后的处理函数 chunked.py    简单说就是传输网页数据非常大的 或者 数据长度不确定用到   参考 http://blog.csdn.net/whatday/article/details/7571451 decompression.py   读取压缩文件   然后解压文件  替换  response    76行…
开篇声明 文章讲解源码不一定从入口开始   主题更注重 思路讲解以及核心函数   ok?  废话到此为止 /scrapy/downloadermiddlewares/  文件夹下是下载器的 中间件  简单说就是 你请求 or  返回数据都经过他 其中 def process_response(self, request, response, spider):处理返回数据 def process_request(self, request, spider): 处理请求数据 def from_cra…
从英文来看是调度程序  我们看看是怎么调度 首先爬虫队列有两个 一个是保存在内存中  没有历史记录   重新开始  42行  self.mqs = self.pqclass(self._newmq) 另外一个是存在硬盘的队列  用于断点续传    大家看  43 行 self._dq() if self.dqdir else None     先是判断 是否有  join(jobdir, 'requests.queue')  这个文件 (保存已抓取request hash) 然后 获取 join…
logstats.py 爬虫启动时 打印抓取网页数   item数 memdebug.py 爬虫结束 统计还被引用的内存 也就是说gc 回收不了的内存   memusage.py 监控爬虫 内存占用  一旦超过 MEMUSAGE_LIMIT_MB  就stop spider  如果启动email  还会发送邮件     抓取过程中 还会统计 内存占用的峰值 spiderstate.py 爬虫启动时 把state 对象 读出来  关闭时 写回去 statsmailer.py 把爬虫全局统计信息 …
大家先看看 http://www.cnblogs.com/attitudeY/p/7078559.html 下面我做一些补充   最新版本1.1 已经支持 下载路径保存到  item   48行   DEFAULT_IMAGES_RESULT_FIELD = 'images'    作为保存下载地址key 同时我们会有保存 缩略图的情况  setting  增加  IMAGES_THUMBS   = {1:(10,20),2;(20:30)}    1  作为 序号   也是保存路径的依据   …
首先更大家说下  正式部署上线的爬虫会有分布式爬虫的需求  而且原本scrapy 的seen (判断重复url的池  不知道用啥词  已抓url吧 )  保存在磁盘 url 队列 也是保存在磁盘 (保存在磁盘 对爬虫效率会极大影响)   如果是断点重爬 声明 jobdir 百分百是保存在磁盘   不申明jobdir 的话保存在内存 但会有单点内存的上限问题   所以说那么多 总之  scrapy_redis  是爬虫工程师必须了解的 scrapy_redis/dupefilter.py 判断已抓…
转载请注明出处:http://blog.csdn.net/guolin_blog/article/details/11711405 我们都知道,Android UI是线程不安全的,如果想要在子线程里进行UI操作,就需要借助Android的异步消息处理机制.之前我也写过了一篇文章从源码层面分析了Android的异步消息处理机制,感兴趣的朋友可以参考 Android Handler.Message完全解析,带你从源码的角度彻底理解 . 不过为了更加方便我们在子线程中更新UI元素,Android从1.…
决定从这篇文章开始,开一个读源码系列,不限制平台语言或工具,任何自己感兴趣的都会写.前几天碰到一个小问题又读了一遍ConcurrentQueue的源码,那就拿C#中比较常用的并发队列ConcurrentQueue作为开篇来聊一聊它的实现原理. 话不多说,直奔主题. 要提前说明下的是,本文解析的源码是基于.NET Framework 4.8版本,地址是:https://referencesource.microsoft.com/#mscorlib/system/Collections/Concur…
前言 ReentrantLock 可重入锁,应该是除了 synchronized 关键字外用的最多的线程同步手段了,虽然JVM维护者疯狂优化 synchronized 使其已经拥有了很好的性能.但 ReentrantLock 仍有其存在价值,例如可以感知线程中断,公平锁模式,可以指定超时时间的抢锁等更细粒度的控制都是目前的 synchronized 做不到的. 如果不是很了解 Java 中线程的一些基本概念,可以看之前这篇: Java读源码之Thread 案例 用一个最简单的案例引出我们的主角…
MySQL是世界上最流行的开源关系数据库,带货直播源码使用MySQL,可实现分钟级别的数据库部署和弹性扩展,不仅经济实惠,而且稳定可靠,易于运维.云数据库 MySQL 提供备份恢复.监控.容灾.快速扩容.数据传输等全套解决方案,简化了带货直播源码数据库运维工作,能更加专注于带货直播源码的业务发展. 带货直播源码 一.易于使用的托管部署 带货直播源码需要的存储业务,只需在MySQL管理控制台中单击几下,即可在几分钟内启动并连接到一个可以立即投入生产的 MySQL 数据库.云数据库 MySQL 数据…