scrapy,python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.scrapy用途广泛,可以用于数据挖掘.监测和自动化测试.scrapy的安装稍显麻烦,不过按照以下步骤去进行,相信你也能很轻松的安装使用scrapy. 安装python2.7 scrapy1.0.3暂时只支持python2.7 # wget https://www.python.org/ftp/python/2.7.6/Python-2.7.6.tgz [root@rocke…
Scrapy笔记01- 入门篇 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架.可以应用在包括数据挖掘, 信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取(更确切来说,网络抓取)所设计的, 也可以应用在获取API所返回的数据(比如Web Services)或者通用的网络爬虫. Scrapy也能帮你实现高阶的爬虫框架,比如爬取时的网站认证.内容的分析处理.重复抓取.分布式爬取等等很复杂的事. 安装scrapy 我的测试环境是centos6.5 升级python到最新…
Scrapy笔记08- 文件与图片 Scrapy为我们提供了可重用的item pipelines为某个特定的Item去下载文件. 通常来说你会选择使用Files Pipeline或Images Pipeline. 这两个管道都实现了: 避免重复下载 可以指定下载后保存的地方(文件系统目录中,Amazon S3中) Images Pipeline为处理图片提供了额外的功能: 将所有下载的图片格式转换成普通的JPG并使用RGB颜色模式 生成缩略图 检查图片的宽度和高度确保它们满足最小的尺寸限制 管道…
Scrapy笔记09- 部署 本篇主要介绍两种部署爬虫的方案.如果仅仅在开发调试的时候在本地部署跑起来是很容易的,不过要是生产环境,爬虫任务量大,并且持续时间长,那么还是建议使用专业的部署方法.主要是两种方案: Scrapyd 开源方案 Scrapy Cloud 云方案 部署到Scrapyd Scrapyd是一个开源软件,用来运行蜘蛛爬虫.它提供了HTTP API的服务器,还能运行和监控Scrapy的蜘蛛 要部署爬虫到Scrapyd,需要使用到scrapyd-client部署工具集,下面我演示下…
Scrapy笔记12- 抓取动态网站 前面我们介绍的都是去抓取静态的网站页面,也就是说我们打开某个链接,它的内容全部呈现出来. 但是如今的互联网大部分的web页面都是动态的,经常逛的网站例如京东.淘宝等,商品列表都是js,并有Ajax渲染, 下载某个链接得到的页面里面含有异步加载的内容,这样再使用之前的方式我们根本获取不到异步加载的这些网页内容. 使用Javascript渲染和处理网页是种非常常见的做法,如何处理一个大量使用Javascript的页面是Scrapy爬虫开发中一个常见的问题, 这篇…
Win+R 输入cmd打开命令行 我们先把pip升级到最新版,输入代码如下: pip install --upgrade pip 不过一般这种更新方式会经常性出错,安装文件在下载到一半时就会超时报错 可以试试输入下面的代码一般不会出现什么问题了 python -m pip install -U --force-reinstall pip 升级完毕后我们就可以着手于安装scrapy框架了 为了防止接下来出现的超时问题,我们不要使用官方的方式安装框架,采用国内源进行scrapy的安装 pip3 in…
题记:早已听闻python爬虫框架的大名.近些天学习了下其中的Scrapy爬虫框架,将自己理解的跟大家分享.有表述不当之处,望大神们斧正. 一.初窥Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. 其最初是为了 页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫. 本文档将…
Tomcat安装 通常情况下我们要配置Tomcat是很容易的一件事情,但是如果您要架设多用户多服务的Java虚拟主机就不那么容易了.其中最大的一个问题就是Tomcat执行权限.普通方式配置的Tomcat是以root超级管理员的身份运行的,显然,这是非常危险的,可想而知,一但网站被挂马,您的整个服务器都可以被黑客控制了.而通过编译或在线(例如redhat系列的yum, debian系列的apt-get)的方式安装,一个服务器上又只能装一个tomcat的服务,如果将多个网站放到同一个tomcat服务…
摘要:介绍了使用Scrapy处理JSON API和AJAX页面的方法 有时候,你会发现你要爬取的页面并不存在HTML源码,譬如,在浏览器打开http://localhost:9312/static/,然后右击空白处,选择“查看网页源代码”,如下所示: 就会发现一片空白 留意到红线处指定了一个名为api.json的文件,于是打开浏览器的调试器中的Network面板,找到名为api.json的标签 在上图的红色框里就找到了原网页中的内容,这是一个简单的JSON API,有些复杂的API会要求你先登录…
我已经使用了scrapy有半年之多,但是却一直都感觉没有入门,网上关于scrapy的文章简直少得可怜,而官网上的文档(http://doc.scrapy.org/en/1.0/index.html)对于一个初学者来说实在太不友好了,尤其是像我这种英语水平还未达到炉火纯青地步的程序员来说,读官方文档只能一知半解.直到后来遇到了这本神书 购买连接:http://shop.oreilly.com/product/9781784399788.do?sortby=publicationDate# 这本书是…
ZooKeeper 笔记(1) 安装部署及hello world   先给一堆学习文档,方便以后查看 官网文档地址大全: OverView(概述) http://zookeeper.apache.org/doc/r3.4.6/zookeeperOver.html Getting Started(开始入门) http://zookeeper.apache.org/doc/r3.4.6/zookeeperStarted.html Tutorial(教程) http://zookeeper.apach…
LNMP笔记:安装 Xcache 缓存扩展,降低服务器负载 2014/11/27 教程笔记 4,743 14     WordPress 精品主机推荐:恒创主机 | 阿里云(本站目前所用云主机) 倡萌一直都是用军哥的 lnmp 一键安装包来配置服务器环境,最近一个月来,网站流量上来了些,可能还有其他原因,导致服务器负载不太稳定,负载时不时会飙升好几倍甚至十几倍,访问就非常慢啦.昨天下午直接导致服务器 nginx 进程死掉了,想来想去,最后还是决定配置 lnmp 1.1 ,顺便安装 Xcache…
scrapy之环境安装 在之前我安装了scrapy,但是在pycharm中却无法使用. 具体情况是: 我的电脑上存在多个python,有python2,python3,anaconda,其中anaconda中的python为python3. 我在PowerShell中直接键入scrapy可以使用. 解决: 我在网上找了很多解决方案,都不怎好用,最后总结发现,可能是我的电脑上安装的两个python3导致的.其中我在安装wheel的时候,显示安装成功:安装Tiwsted时,显示已经存在,但是路径为a…
Appium环境的安装以及一路上的坑 第一步环境的安装 l  javaJDK的安装以及环境变量的配置这个我就不说了网上的教程全都是,搜一个安装一下吧 l  AndroidSDK的安装也是如此我是直接安装的Studio,直接就安装了SDK l  Node.js安装下载,网址: http://nodejs.cn/download/ l   Appium的下载以及安装 网址: https://bitbucket.org/appium/appium.app/downloads/ 第二步验证环境安装成功:…
Flutter是一个移动应用程序的软件开发工具包(SDK),用一个代码库构建高性能.高保真的iOS和Android应用程序.目标是使开发人员能够为Android和iOS提供自然的高质量的应用,在滚动行为.排版.图标等方面实现零差异. 学习Flutter不需要Android或iOS的开发经验,因为Flutter程序使用Dart语言编写,如果您使用过Java或JavaScript等语言,轻易就能上手,只要有面向对象语言的经验,即使不是程序员也能开发Flutter应用程序! 搭建 flutter 开发…
安装redis时候的坑 随手记录一下,以此为借鉴. 1.按照需求下载redis服务 redis可视化文件 2.安装及环境搭建 修改服务里redis.windows-service.conf文件,或者redis.service.conf文件.如果都有一起修改.版本不同结果. 修改内容: A.指定 redis 只接收来自于该 IP 地址的请求,如果不进行设置,那么将处理所有请求,在bind前加上#,就是所有公网都可以访问. # bind 127.0.0.1 B.安全模式,建议yes加上密码,否就改为…
OracleDesigner学习笔记1――安装篇   QQ:King MSN:qiutianwh@msn.com Email:qqking@gmail.com 一.       前言 Oracle是当今最流行的关系型数据库之一,和很多朋友一样,我也是一个Oracle的爱好者,从开始的7.3(我所接触的第一个版本)到现在的10G,可以说Oracle公司每推出一个新的版本,都有很多令人激动的新东西带给我们,这可能也是令广大朋友着迷的地方吧. 众所周之,Oracle公司并仅仅是一个关系型数据库厂商,她…
Python3.5在Windows7环境下Scrapy库的安装 忙活了一下午,总算是把Scrapy库给装完了,记下来给需要帮助的人 首先安装的环境:Windows7 64位 Python的版本是:3.5.1 需要其他库:lxml.pywin32.twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml 里面的27,35,36代表的是python版本,选择合适的版本下载,我选择的是: lxml‑4.0.0‑cp35‑cp35m‑win_amd6…
笔记-docker-2安装(centos6.5环境) 1.      centos6.5安装docker 1.1.    升级内核 安装docker,官方文档要求linux kernel至少3.8以上,且docker只能运行在64位的系统中.由于CentOS6的内核版本为2.6,因此必须要先升级内核. 先看一下: [root@soft ~]# uname -r 2.6.32-431.el6.x86_64 内核库来源:elrepo是CentOS开源软件提供网站,这个第三方源主要是提供硬件驱动.内核…
笔记-redis安装配置 1.      redis安装配置 1.1.    windows环境安装 win8已有redis 查看版本:redis-server –version 想更新到5.0.0,但是redis本身不支持windows, 在https://github.com/MicrosoftArchive/redis/releases下可以下载到windows版的redis,不过最新版是3.2.100. 下载并解压就可以运行了. redis-server redis.conf 使用命令注…
Item是保存结构数据的地方,Scrapy可以将解析结果以字典形式返回,但是Python中字典缺少结构,在大型爬虫系统中很不方便. Item提供了类字典的API,并且可以很方便的声明字段,很多Scrapy组件可以利用Item的其他信息. 定义Item 定义Item非常简单,只需要继承scrapy.Item类,并将所有字段都定义为scrapy.Field类型即可 import scrapy class Product(scrapy.Item): name = scrapy.Field() pric…
[学习笔记]\(OI\) 玄学道-代码坑点 [目录] [逻辑运算符的短路运算] [\(cmath\)里的贝塞尔函数] 一:[逻辑运算符的短路运算] [运算规则] && 和 || 属于逻辑运算符.关于 && 和 || 的表达式的运算规则是这样的(用大写字母来表示表达式): \(A\) || \(B\) 只要任意一个表达式为 \(true\),则整个表达式的运算结果为 \(true(1)\). \(A\) && \(B\) 仅当所有表达式都为 \(true(1)…
Scrapy笔记02- 完整示例 这篇文章我们通过一个比较完整的例子来教你使用Scrapy,我选择爬取虎嗅网首页的新闻列表. 这里我们将完成如下几个步骤: 创建一个新的Scrapy工程 定义你所需要要抽取的Item对象 编写一个spider来爬取某个网站并提取出所有的Item对象 编写一个Item Pipline来存储提取出来的Item对象 Scrapy使用Python语言编写,如果你对这门语言还不熟,请先去学习下基本知识. 创建Scrapy工程 在任何你喜欢的目录执行如下命令 scrapy s…
Scrapy笔记03- Spider详解 Spider是爬虫框架的核心,爬取流程如下: 先初始化请求URL列表,并指定下载后处理response的回调函数.初次请求URL通过start_urls指定,调用start_requests()产生Request对象,然后注册parse方法作为回调 在parse回调中解析response并返回字典,Item对象,Request对象或它们的迭代对象.Request对象还会包含回调函数,之后Scrapy下载完后会被这里注册的回调函数处理. 在回调函数里面,你…
Scrapy笔记04- Selector详解 在你爬取网页的时候,最普遍的事情就是在页面源码中提取需要的数据,我们有几个库可以帮你完成这个任务: BeautifulSoup是python中一个非常流行的抓取库, 它还能合理的处理错误格式的标签,但是有一个唯一缺点就是:它运行很慢. lxml是一个基于ElementTree的XML解析库(同时还能解析HTML), 不过lxml并不是Python标准库 而Scrapy实现了自己的数据提取机制,它们被称为选择器,通过XPath或CSS表达式在HTML文…
Scrapy笔记05- Item详解 Item是保存结构数据的地方,Scrapy可以将解析结果以字典形式返回,但是Python中字典缺少结构,在大型爬虫系统中很不方便. Item提供了类字典的API,并且可以很方便的声明字段,很多Scrapy组件可以利用Item的其他信息. 定义Item 定义Item非常简单,只需要继承scrapy.Item类,并将所有字段都定义为scrapy.Field类型即可 import scrapy class Product(scrapy.Item): name =…
Scrapy笔记06- Item Pipeline 当一个item被蜘蛛爬取到之后会被发送给Item Pipeline,然后多个组件按照顺序处理这个item. 每个Item Pipeline组件其实就是一个实现了一个简单方法的Python类.他们接受一个item并在上面执行逻辑,还能决定这个item到底是否还要继续往下传输,如果不要了就直接丢弃. 使用Item Pipeline的常用场景: 清理HTML数据 验证被抓取的数据(检查item是否包含某些字段) 重复性检查(然后丢弃) 将抓取的数据存…
Scrapy笔记07- 内置服务 Scrapy使用Python内置的的日志系统来记录事件日志. 日志配置 LOG_ENABLED = true LOG_ENCODING = "utf-8" LOG_LEVEL = logging.INFO LOG_FILE = "log/spider.log" LOG_STDOUT = True LOG_FORMAT = "%(asctime)s [%(name)s] %(levelname)s: %(message)s&…
Scrapy笔记10- 动态配置爬虫 有很多时候我们需要从多个网站爬取所需要的数据,比如我们想爬取多个网站的新闻,将其存储到数据库同一个表中.我们是不是要对每个网站都得去定义一个Spider类呢? 其实不需要,我们可以通过维护一个规则配置表或者一个规则配置文件来动态增加或修改爬取规则,然后程序代码不需要更改就能实现多个网站爬取. 要这样做,我们就不能再使用前面的scrapy crawl test这种命令了,我们需要使用编程的方式运行Scrapy spider,参考官方文档 脚本运行Scrapy…
Scrapy笔记11- 模拟登录 有时候爬取网站的时候需要登录,在Scrapy中可以通过模拟登录保存cookie后再去爬取相应的页面.这里我通过登录github然后爬取自己的issue列表来演示下整个原理. 要想实现登录就需要表单提交,先通过浏览器访问github的登录页面https://github.com/login,然后使用浏览器调试工具来得到登录时需要提交什么东西. 我这里使用chrome浏览器的调试工具,F12打开后选择Network,并将Preserve log勾上.我故意输入错误的…