Python3爬虫（十六） pyspider框架

Python 爬虫十六式 - 第二式：urllib 与 urllib3

Python请求标准库 urllib 与 urllib3 学习一时爽,一直学习一直爽! 大家好,我是 Connor,一个从无到有的技术小白.上一次我们说到了什么是HTTP协议,那么这一次我们就要动手,来真正的了解如何使用Python访问一个网站了.今天我们要说的是Python自带的标准库,Urllib与Urllib3. 1.urllib库 1.1urllib的简介 urllib`是Python中请求url连接的官方标准库,在Python2中主要为urllib和urllib2,在Pyt…

Python 爬虫十六式 - 第六式：JQuery的假兄弟-pyquery

PyQuery:一个类似jquery的python库学习一时爽,一直学习一直爽 Hello,大家好,我是 Connor,一个从无到有的技术小白.上一次我们说到了 BeautifulSoup 美味的汤,BeautifulSoup 很适合刚刚接触爬虫的新手使用.虽然 BeautifulSoup 好用,但是也有它的局限性.今天我们来讲一讲 PyQuery,让我们以 JQuery的方式来快速提取我们想要的内容.废话不多说,让我们开始吧. 1. PyQuery 的简介 pyquery 允许您在…

Python 爬虫十六式 - 第七式：正则的艺术

RE:用匹配来演绎编程的艺术学习一时爽,一直学习一直爽 Hello,大家好,我是 Connor,一个从无到有的技术小白.上一次我们说到了 pyquery 今天我们将迎来我们数据匹配部分的最后一位重量级人物,也是编程语言中普及率最高的一个东西,它就是正则.正则长期以来占据着编程新手的禁忌之地,大家对它是又爱又恨.今天,我们将揭开他神秘的面纱,直面正则,并助你征服它,让它成为你的得力助手! 1. 正则的介绍由于正则并不是 Python 所独有的内容,本文大部分会以正则的角度来进行描述和讲…

Python 爬虫十六式 - 第五式：BeautifulSoup-美味的汤

BeautifulSoup 美味的汤学习一时爽,一直学习一直爽! Hello,大家好,我是Connor,一个从无到有的技术小白.上一次我们说到了 Xpath 的使用方法.Xpath 我觉得还是比较绕该怎么办呢???有没有更加简单易懂的方法呢?答案是肯定的,当然有更加简单易懂的方法了,那就是 BeautifulSoup 美味的汤.这个方法对于正则和 Xpath 来说更加的简单方便,更加易懂,能够节省我们大量的分析时间. 1.BeautifulSoup 的简介 BeautifulSoup…

Python爬虫十六式 - 第四式: 使用Xpath提取网页内容

Xpath:简单易用的网页内容提取工具学习一时爽,一直学习一直爽 ! Hello,大家好,我是Connor,一个从无到有的技术小白.上一次我们说到了 requests 的使用方法.到上节课为止,我们已经学完了所有的 Python 常用的访问库.那么当我们获取到了访问的内容之后,我们就应该从网页上提取我们想要的内容了.所以,今天我们来讲网页内容的常用提取工具之一:Xpath .相比于 BeautifulSoup 而言,Xpath 更加简单易上手. 1.Xpath简介 Xpath 是一门在…

Python爬虫十六式 - 第三式：Requests的用法

Requests: 让 HTTP 服务人类学习一时爽,一直学习一直爽 Hello,大家好,我是Connor,一个从无到有的技术小白.今天我们继续来说我们的 Python 爬虫,上一次我们说到了 urllib 与 urllib3 ,不知道大家看了以后有何感想,今天我们来继续聊聊 Python爬虫中的另一个常用库--requests,相信你今天看了这篇文章以后一定有想要揍我的冲动. 1.request 的简介上一篇文章介绍了Python的网络请求库 urllib 和 urllib3 的使…

Python 爬虫十六式 - 第一式：HTTP协议

HTTP:伟大而又无闻的协议学习一时爽,一直学习一直爽! Hello,大家好啊,我是Connor,一个从无到有的技术小白.有的人一说什么是HTTP协议就犯愁,写东西的时候也没想过什么是HTTP协议,只是知道HTTP协议是用来网页传输的,但是再深究一点就不明白了,所以今天我们来讲一讲什么是HTTP协议. 1.HTTP 与 HTTPS 1.1 什么是HTTP协议超文本传输协议(HTTP,HyperText Transfer Protocol) 是互联网上应用最为广泛的一种网络协议.…

爬虫(十六)：Scrapy框架(三) Spider Middleware、Item Pipeline

1. Spider Middleware Spider Middleware是介入到Scrapy的Spider处理机制的钩子框架. 当Downloader生成Response之后,Response会被发送给Spider,在发送给Spider之前,Response会首先经过Spider Middleware处理,当Spider处理生成Item和Request之后,Item Request还会经过Spider Middleware的处理. Spider Middleware有三个作用: 我们可以在D…

python爬虫入门(六) Scrapy框架之原理介绍

Scrapy框架 Scrapy简介 Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便. Scrapy 使用了 Twisted['twɪstɪd](其主要对手是Tornado)异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各种需求. Scrapy架构 Scrapy Eng…

selenium-webdriver(python) (十六) --unittest 框架

学习unittest 很好的一个切入点就是从selenium IDE 录制导出脚本.相信不少新手学习selenium 也是从IED 开始的. IDE学习参考: 菜鸟学自动化测试(一)----selenium IDE 借助IED 录制脚本将脚本导出,保存为baidu.py ,通过python IDLE编辑器打开.如下: from selenium import webdriver from selenium.webdriver.common.by import By from selenium.…

python3 第十六章 - 函数

函数是组织好的,可重复使用的,用来实现单一,或相关联功能的代码段.函数能提高应用的模块性,和代码的重复利用率.你已经知道Python提供了许多内建函数,比如print().但你也可以自己创建函数,这被叫做用户自定义函数. 1.语法 Python 定义函数使用 def 关键字,一般格式如下: def 函数名(参数列表): 函数体默认情况下,参数值和参数名称是按函数声明中定义的的顺序匹配起来的. 定义一个由自己想要功能的函数,以下是简单的规则: 函数代码块以 def 关键词开头,后接函数标识符名称…

十六 Django框架，信号

Django中提供了“信号调度”,用于在框架执行操作时解耦.通俗来讲,就是一些动作发生的时候,信号允许特定的发送者去提醒一些接受者. 也就是当程序有指定动作时,触发一个信号函数 1.Django内置信号 Model signals #数据库操作时 pre_init # django的modal执行其构造方法前,自动触发 post_init # django的modal执行其构造方法后,自动触发 pre_save # django的modal对象保存前,自动触发 post_save # djang…

Python爬虫(十六)_JSON模块与JsonPath

本篇将介绍使用,更多内容请参考:Python学习指南数据提取之JSON与JsonPATH JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,它是的人们很容易的进行阅读和编写.同时也方便了机器进行解析和生成.适用于进行数据交互的场景,比如网站前台与后台之间的数据交互. JSON和XML的比较可谓不相上下. Python2.7中自带了JSON模块,直接import json就可以使用了. 官方博客:http://docs.python.org/librar…

Java基础学习笔记十六集合框架（二）

List List接口的特点: 它是一个元素存取有序的集合.例如,存元素的顺序是11.22.33.那么集合中,元素的存储就是按照11.22.33的顺序完成的. 它是一个带有索引的集合,通过索引就可以精确的操作集合中的元素(与数组的索引是一个道理). 集合中可以有重复的元素,通过元素的equals方法,来比较是否为重复的元素. List接口的常用子类有: ArrayList集合 LinkedList集合 List接口的特有方法(带索引的方法)1.增加元素方法 add(Object e):向集合末尾…

python3 第二十六章 - 内置函数之Number相关

数学函数函数返回值 ( 描述 ) 实例 abs(x) 返回数字的绝对值,如abs(-10) 返回 10 print(abs(-10)) =======输出:====== 10 ceil(x) 返回数字的上入整数,如math.ceil(4.1) 返回 5 import math print(math.ceil(4.1)) =======输出:====== 5 cmp(x, y) 如果 x < y 返回 -1, 如果 x == y 返回 0, 如果 x > y 返回 1. Python 3 已…

Python3爬虫（六）解析库的使用之Beautiful Soup

Infi-chu: http://www.cnblogs.com/Infi-chu/ Beautiful Soup 借助网页的结构和属性等特性来解析网页,这样就可以省去复杂的正则表达式的编写. Beautiful Soup是Python的一个HTML或XML的解析库. 1.解析器解析器使用方法优势劣势 Python标准库 BeautifulSoup(markup,"html.parser") 执行速度适中.文档容错能力强 2.7.3和3.2.2之前的版本容错能力差 lxml H…

python3笔记十六：python匿名函数和高阶函数

一:学习内容 lambda函数 map函数与reduce函数 filter函数 sorted函数二:匿名函数-lambda 1.概念:不使用def这样的语句去定义函数,使用lambda来创建匿名函数 2.特点: lambda只是一个表达式,函数体比def简单实现的逻辑比较简单,主体是一个表达式,而不是代码块,lambda表达式中封装简单的逻辑 lambda函数有自己的命名空间,且不能访问自由参数列表之外的或者全局命名空间的参数 3.格式: lambda 参数1,参数2,......,参数n:…

python3（十六）returnFunc

# 通常求和函数定义,调动就求和 def calc_sum(*args): ax = 0 for n in args: ax = ax + n return ax # 如果不需要立即求和 def lazy_sum(*args): def sum(): ax = 0 for n in args: ax = ax + n return ax return sum f = lazy_sum(1, 3, 5, 7, 9) print(f) # 返回的是个求和函数 <function lazy_sum.<…

python3（十六） sorted

# sorted()函数list进行排序: L = sorted([36, 5, -12, 9, -21]) print(L) # [-21, -12, 5, 9, 36] # 可以看到默认是按照升序排 LL = sorted([36, 5, -12, 9, -21], key=abs) print(LL) # [5, 9, -12, -21, 36] 自定义key 按照绝对值进行排序 lstr = sorted(['bob', 'about', 'Zoo', 'Credit']) print(…

Python爬虫之PySpider框架

概述 pyspider 是一个支持任务监控.项目管理.多种数据库,具有 WebUI 的爬虫框架,它采用 Python 语言编写,分布式架构.详细特性如下: 拥有 Web 脚本编辑界面,任务监控器,项目管理器和结构查看器: 数据库支持 MySQL.MongoDB.Redis.SQLite.Elasticsearch.PostgreSQL.SQLAlchemy: 队列服务支持 RabbitMQ.Beanstalk.Redis.Kombu: 支持抓取 JavaScript 的页面: 组件可替换,支持单…