【scrapy】笔记一：安装，以及遇到的坑

scrapy初体验 - 安装遇到的坑及第一个范例

scrapy,python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.scrapy用途广泛,可以用于数据挖掘.监测和自动化测试.scrapy的安装稍显麻烦,不过按照以下步骤去进行,相信你也能很轻松的安装使用scrapy. 安装python2.7 scrapy1.0.3暂时只支持python2.7 # wget https://www.python.org/ftp/python/2.7.6/Python-2.7.6.tgz [root@rocke…

Scrapy笔记（1）- 入门篇

Scrapy笔记01- 入门篇 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架.可以应用在包括数据挖掘, 信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取(更确切来说,网络抓取)所设计的, 也可以应用在获取API所返回的数据(比如Web Services)或者通用的网络爬虫. Scrapy也能帮你实现高阶的爬虫框架,比如爬取时的网站认证.内容的分析处理.重复抓取.分布式爬取等等很复杂的事. 安装scrapy 我的测试环境是centos6.5 升级python到最新…

Scrapy笔记08- 文件与图片

Scrapy笔记08- 文件与图片 Scrapy为我们提供了可重用的item pipelines为某个特定的Item去下载文件. 通常来说你会选择使用Files Pipeline或Images Pipeline. 这两个管道都实现了: 避免重复下载可以指定下载后保存的地方(文件系统目录中,Amazon S3中) Images Pipeline为处理图片提供了额外的功能: 将所有下载的图片格式转换成普通的JPG并使用RGB颜色模式生成缩略图检查图片的宽度和高度确保它们满足最小的尺寸限制管道…

Scrapy笔记09- 部署

Scrapy笔记09- 部署本篇主要介绍两种部署爬虫的方案.如果仅仅在开发调试的时候在本地部署跑起来是很容易的,不过要是生产环境,爬虫任务量大,并且持续时间长,那么还是建议使用专业的部署方法.主要是两种方案: Scrapyd 开源方案 Scrapy Cloud 云方案部署到Scrapyd Scrapyd是一个开源软件,用来运行蜘蛛爬虫.它提供了HTTP API的服务器,还能运行和监控Scrapy的蜘蛛要部署爬虫到Scrapyd,需要使用到scrapyd-client部署工具集,下面我演示下…

Scrapy笔记12- 抓取动态网站

Scrapy笔记12- 抓取动态网站前面我们介绍的都是去抓取静态的网站页面,也就是说我们打开某个链接,它的内容全部呈现出来. 但是如今的互联网大部分的web页面都是动态的,经常逛的网站例如京东.淘宝等,商品列表都是js,并有Ajax渲染, 下载某个链接得到的页面里面含有异步加载的内容,这样再使用之前的方式我们根本获取不到异步加载的这些网页内容. 使用Javascript渲染和处理网页是种非常常见的做法,如何处理一个大量使用Javascript的页面是Scrapy爬虫开发中一个常见的问题, 这篇…

Scrapy框架的安装

Win+R 输入cmd打开命令行我们先把pip升级到最新版,输入代码如下: pip install --upgrade pip 不过一般这种更新方式会经常性出错,安装文件在下载到一半时就会超时报错可以试试输入下面的代码一般不会出现什么问题了 python -m pip install -U --force-reinstall pip 升级完毕后我们就可以着手于安装scrapy框架了为了防止接下来出现的超时问题,我们不要使用官方的方式安装框架,采用国内源进行scrapy的安装 pip3 in…

Python之Scrapy爬虫框架安装及简单使用

题记:早已听闻python爬虫框架的大名.近些天学习了下其中的Scrapy爬虫框架,将自己理解的跟大家分享.有表述不当之处,望大神们斧正. 一.初窥Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. 其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫. 本文档将…

CentOS学习笔记--Tomcat安装

Tomcat安装通常情况下我们要配置Tomcat是很容易的一件事情,但是如果您要架设多用户多服务的Java虚拟主机就不那么容易了.其中最大的一个问题就是Tomcat执行权限.普通方式配置的Tomcat是以root超级管理员的身份运行的,显然,这是非常危险的,可想而知,一但网站被挂马,您的整个服务器都可以被黑客控制了.而通过编译或在线(例如redhat系列的yum, debian系列的apt-get)的方式安装,一个服务器上又只能装一个tomcat的服务,如果将多个网站放到同一个tomcat服务…

Learning Scrapy笔记（六）- Scrapy处理JSON API和AJAX页面

摘要:介绍了使用Scrapy处理JSON API和AJAX页面的方法有时候,你会发现你要爬取的页面并不存在HTML源码,譬如,在浏览器打开http://localhost:9312/static/,然后右击空白处,选择“查看网页源代码”,如下所示: 就会发现一片空白留意到红线处指定了一个名为api.json的文件,于是打开浏览器的调试器中的Network面板,找到名为api.json的标签在上图的红色框里就找到了原网页中的内容,这是一个简单的JSON API,有些复杂的API会要求你先登录…

Learning Scrapy笔记（零） - 前言

我已经使用了scrapy有半年之多,但是却一直都感觉没有入门,网上关于scrapy的文章简直少得可怜,而官网上的文档(http://doc.scrapy.org/en/1.0/index.html)对于一个初学者来说实在太不友好了,尤其是像我这种英语水平还未达到炉火纯青地步的程序员来说,读官方文档只能一知半解.直到后来遇到了这本神书购买连接:http://shop.oreilly.com/product/9781784399788.do?sortby=publicationDate# 这本书是…

（转）ZooKeeper 笔记(1) 安装部署及hello world

ZooKeeper 笔记(1) 安装部署及hello world 先给一堆学习文档,方便以后查看官网文档地址大全: OverView(概述) http://zookeeper.apache.org/doc/r3.4.6/zookeeperOver.html Getting Started(开始入门) http://zookeeper.apache.org/doc/r3.4.6/zookeeperStarted.html Tutorial(教程) http://zookeeper.apach…

LNMP笔记：安装 Xcache 缓存扩展，降低服务器负载

LNMP笔记:安装 Xcache 缓存扩展,降低服务器负载 2014/11/27 教程笔记 4,743 14 WordPress 精品主机推荐:恒创主机 | 阿里云(本站目前所用云主机) 倡萌一直都是用军哥的 lnmp 一键安装包来配置服务器环境,最近一个月来,网站流量上来了些,可能还有其他原因,导致服务器负载不太稳定,负载时不时会飙升好几倍甚至十几倍,访问就非常慢啦.昨天下午直接导致服务器 nginx 进程死掉了,想来想去,最后还是决定配置 lnmp 1.1 ,顺便安装 Xcache…

scrapy之环境安装

scrapy之环境安装在之前我安装了scrapy,但是在pycharm中却无法使用. 具体情况是: 我的电脑上存在多个python,有python2,python3,anaconda,其中anaconda中的python为python3. 我在PowerShell中直接键入scrapy可以使用. 解决: 我在网上找了很多解决方案,都不怎好用,最后总结发现,可能是我的电脑上安装的两个python3导致的.其中我在安装wheel的时候,显示安装成功:安装Tiwsted时,显示已经存在,但是路径为a…

Appium环境的安装以及一路上的坑

Appium环境的安装以及一路上的坑第一步环境的安装 l javaJDK的安装以及环境变量的配置这个我就不说了网上的教程全都是,搜一个安装一下吧 l AndroidSDK的安装也是如此我是直接安装的Studio,直接就安装了SDK l Node.js安装下载,网址: http://nodejs.cn/download/ l Appium的下载以及安装网址: https://bitbucket.org/appium/appium.app/downloads/ 第二步验证环境安装成功:…

flutter 安装过程遇到的坑

Flutter是一个移动应用程序的软件开发工具包(SDK),用一个代码库构建高性能.高保真的iOS和Android应用程序.目标是使开发人员能够为Android和iOS提供自然的高质量的应用,在滚动行为.排版.图标等方面实现零差异. 学习Flutter不需要Android或iOS的开发经验,因为Flutter程序使用Dart语言编写,如果您使用过Java或JavaScript等语言,轻易就能上手,只要有面向对象语言的经验,即使不是程序员也能开发Flutter应用程序! 搭建 flutter 开发…

安装redis时候的坑

安装redis时候的坑随手记录一下,以此为借鉴. 1.按照需求下载redis服务 redis可视化文件 2.安装及环境搭建修改服务里redis.windows-service.conf文件,或者redis.service.conf文件.如果都有一起修改.版本不同结果. 修改内容: A.指定 redis 只接收来自于该 IP 地址的请求,如果不进行设置,那么将处理所有请求,在bind前加上#,就是所有公网都可以访问. # bind 127.0.0.1 B.安全模式,建议yes加上密码,否就改为…

OracleDesigner学习笔记1――安装篇

OracleDesigner学习笔记1――安装篇 QQ:King MSN:qiutianwh@msn.com Email:qqking@gmail.com 一．前言 Oracle是当今最流行的关系型数据库之一,和很多朋友一样,我也是一个Oracle的爱好者,从开始的7.3(我所接触的第一个版本)到现在的10G,可以说Oracle公司每推出一个新的版本,都有很多令人激动的新东西带给我们,这可能也是令广大朋友着迷的地方吧. 众所周之,Oracle公司并仅仅是一个关系型数据库厂商,她…

Python3.5在Windows7环境下Scrapy库的安装

Python3.5在Windows7环境下Scrapy库的安装忙活了一下午,总算是把Scrapy库给装完了,记下来给需要帮助的人首先安装的环境:Windows7 64位 Python的版本是:3.5.1 需要其他库:lxml.pywin32.twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml 里面的27,35,36代表的是python版本,选择合适的版本下载,我选择的是: lxml‑4.0.0‑cp35‑cp35m‑win_amd6…

笔记-docker-2安装(centos6.5环境)

笔记-docker-2安装(centos6.5环境) 1. centos6.5安装docker 1.1. 升级内核安装docker,官方文档要求linux kernel至少3.8以上,且docker只能运行在64位的系统中.由于CentOS6的内核版本为2.6,因此必须要先升级内核. 先看一下: [root@soft ~]# uname -r 2.6.32-431.el6.x86_64 内核库来源:elrepo是CentOS开源软件提供网站,这个第三方源主要是提供硬件驱动.内核…

笔记-redis安装

笔记-redis安装配置 1. redis安装配置 1.1. windows环境安装 win8已有redis 查看版本:redis-server –version 想更新到5.0.0,但是redis本身不支持windows, 在https://github.com/MicrosoftArchive/redis/releases下可以下载到windows版的redis,不过最新版是3.2.100. 下载并解压就可以运行了. redis-server redis.conf 使用命令注…

转 Scrapy笔记（5）- Item详解

Item是保存结构数据的地方,Scrapy可以将解析结果以字典形式返回,但是Python中字典缺少结构,在大型爬虫系统中很不方便. Item提供了类字典的API,并且可以很方便的声明字段,很多Scrapy组件可以利用Item的其他信息. 定义Item 定义Item非常简单,只需要继承scrapy.Item类,并将所有字段都定义为scrapy.Field类型即可 import scrapy class Product(scrapy.Item): name = scrapy.Field() pric…