潭州课堂25班：Ph201805201 爬虫基础第四课 Requests (课堂笔记)

优雅到骨子里的Requests 1528811134432 简介上一篇文章介绍了Python的网络请求库urllib和urllib3的使用方法,那么,作为同样是网络请求库的Requests,相对于urllib,有什么优点呢? 其实,只有两个词,简单优雅. Requests的宣言就是:HTTP for Humans.可以说,Requests彻底贯彻了Python所代表的简单优雅的精神. 之前的urllib做为Python的标准库,因为历史原因,使用的方式可以说是非常的麻烦…

潭州课堂25班：Ph201805201 爬虫基础第八课 selenium (课堂笔记）

Selenium笔记(1)安装和简单使用简介 Selenium是一个用于Web应用程序测试的工具. Selenium测试直接运行在浏览器中,就像真正的用户在操作一样.支持的浏览器包括IE(7, 8, 9, 10, 11),Firefox,Safari,Chrome,Opera等. 这个工具的主要功能包括:测试与浏览器的兼容性——测试你的应用程序看是否能够很好得工作在不同浏览器和操作系统之上.测试系统功能——创建回归测试检验软件功能和用户需求. 而用在爬虫上则是模拟正常用户访问网页并获取数据.…

潭州课堂25班：Ph201805201 爬虫基础第三课 urllib (课堂笔记)

Python网络请求urllib和urllib3详解 urllib是Python中请求url连接的官方标准库,在Python2中主要为urllib和urllib2,在Python3中整合成了urllib. 而urllib3则是增加了连接池等功能,两者互相都有补充的部分. urllib urllib作为Python的标准库,基本上涵盖了基础的网络请求功能. urllib.request urllib中,request这个模块主要负责构造和发起网络请求,并在其中加入Heade…

潭州课堂25班：Ph201805201 爬虫基础第六课选择器 (课堂笔记)

HTML解析库BeautifulSoup4 BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库,它的使用方式相对于正则来说更加的简单方便,常常能够节省我们大量的时间. BeautifulSoup也是有官方中文文档的:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html 安装 BeautifulSoup的安装也是非常方便的,pip安装即可. pip install beautifu…

潭州课堂25班：Ph201805201 爬虫基础第十三课 cookie (课堂笔记）

# -*- coding: utf-8 -*- # 斌彬电脑 # @Time : 2018/9/15 0015 4:52 #cookie 是服务器发给浏览器的特殊信息 # 可以理解为一个临时通行证 # 以 json 形式存放 # name: cookie 的名称 # value: coikie 的值 # domain: 可以使用此 cookie 的域名 # path: 可以使用此 cookie 的页面路径 # expires/Max-Age : cookie 的超时时间默认是 session…

潭州课堂25班：Ph201805201 爬虫基础第十一课点触验证码 (课堂笔记）

打开网易盾 http://dun.163.com/trial/picture-click ——在线体验——图中点选打码平台 ——超级鹰 http://www.chaojiying.com/ 网易盾抓取验证码图片 # -*- coding: utf-8 -*- # 斌彬电脑 # @Time : 2018/9/13 0013 5:27 from selenium import webdriver from selenium.webdriver.support.wait import…

潭州课堂25班：Ph201805201 爬虫基础第十课图像处理- 极验验证码 (课堂笔记）

用 python 的 selenium 访问 https://www.huxiu.com/ 自动通过验证码 # -*- coding: utf-8 -*- # 斌彬电脑 # @Time : 2018/9/11 0011 4:38 ''' 滑动验证码之极验验证码 https://www.huxiu.com/ ''' from selenium import webdriver from selenium.webdriver.support.wait import WebDriverWai…

潭州课堂25班：Ph201805201 爬虫基础第七课 Python与常见加密方式 (课堂笔记)

打开图形界面 18版 Python与常见加密方式前言我们所说的加密方式,都是对二进制编码的格式进行加密的,对应到Python中,则是我们的Bytes. 所以当我们在Python中进行加密操作的时候,要确保我们操作的是Bytes,否则就会报错. 将字符串和Bytes互相转换可以使用encode()和decode()方法.如下所示: # 方法中不传参数则是以默认的utf-8编码进行转换 In [1]: '南北'.encode() Out[1]: b'\xe5\x8d\x97\xe5\x8c\x…

潭州课堂25班：Ph201805201 爬虫基础第五课（案例）豆瓣分析 (课堂笔记)

动态讲求 , 翻页参数: # -*- coding: utf-8 -*- # 斌彬电脑 # @Time : 2018/9/1 0001 3:44 import requests,json class DouBan: def __init__(self): #请求头部信息 self.headers = {'User-Agent':"Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, li…

潭州课堂25班：Ph201805201 爬虫高级第四课 sclapy 框架 crawispider类 (课堂笔记）

以上内容以 spider 类获取 start_urls 里面的网页在这里平时只写一个,是个入口,之后通过 xpath 生成 url,继续请求, crawispider 中多了个 rules rules 中的参数 link_extractor 用来定义需要提取的连接 allow=() 满足()中正则表达式的 url 会被提取,如果为空则全部匹配, deny=() 满足()中正则表达式的 url 不提取,优先级高于allow, callback 回调函数 follow 实例:…

Python爬虫基础（四）Requests库的使用

requests文档首先需要安装:pip install requests get请求最基本的get: # -*- coding: utf-8 -*-import requests response = requests.get("http://www.baidu.com/") 添加headers及查询参数: # -*- coding: utf-8 -*- import requests kw = {'wd':'秦时明月'} headers = {"User-Agent&…

潭州课堂25班：Ph201805201 WEB 之页面编写第四课登录注册 (课堂笔记)

index.html 首页 <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>Title</title> <link rel="stylesheet" href="css/reset.css">  <link rel…

潭州课堂25班：Ph201805201 WEB 之页面编写第三课 (课堂笔记)

index.html <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>Title</title> <link rel="stylesheet" href="css/reset.css"> <link rel="stylesheet&quo…

潭州课堂25班：Ph201805201 WEB 之页面编写第二课 (课堂笔记)

index.html <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>Title</title> <link rel="stylesheet" href="css/reset.css"> <link rel="stylesheet&quo…

潭州课堂25班：Ph201805201 WEB 之页面编写第一课 (课堂笔记)

index.html <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>Title</title> <link rel="stylesheet" href="css/reset.css"> <link rel="stylesheet&quo…

潭州课堂25班：Ph201805201 第十课类的定义，属性和方法 (课堂笔记)

类的定义共同属性,特征,方法者,可分为一类,并以名命之 class Abc: # class 定义类, 后面接类名 ( 规则首字母大写 ) cls_name = '这个类的名字是Abc' # 在类里定义的变量是属性 print( Abc.cls_name ) Abc.binbin = '正在25班教室' # 可以通过类名.属性名 = 属性值给类添加属性 print( Abc.binbin ) ------>>>>> 这个类的名字是Abc 正在25班教室类是一个独…

爬虫基础以及 re,BeatifulSoup,requests模块使用

爬虫基础以及BeatifulSoup模块使用爬虫的定义:向网站发起请求,获取资源后分析并提取有用数据的程序爬虫的流程发送请求 ---> request 获取响应内容 ---> response 解析内容 ---> BeatifulSoup 保存数据 ---> mysql #1.发起请求使用http库向目标站点发起请求,即发送一个Request Request包含:请求头.请求体等 #2.获取响应内容如果服务器能正常响应,则会得到一个Response Response包含:…

潭州课堂25班：Ph201805201 爬虫基础第一课 (课堂笔记)

爬虫的概念: 其实呢,爬虫更官方点的名字叫数据采集,英文一般称作spider,就是通过编程来全自动的从互联网上采集数据.比如说搜索引擎就是一种爬虫.爬虫需要做的就是模拟正常的网络请求,比如你在网站上点击一个网址,就是一次网络请求. 爬虫的作用: 现如今大数据时代已经到来,网络爬虫技术成为这个时代不可或缺的一部分,企业需要数据来分析用户行为,来分析自己产品的不足之处,来分析竞争对手的信息等等,但是这些的首要条件就是数据的采集.这其中使用爬虫较为有名的有今日头条等公司. 爬虫的本质爬虫的本质就是自…

潭州课堂25班：Ph201805201 爬虫基础第十五课 js破解二 (课堂笔记）

PyExecJs使用 PyExecJS是Ruby的ExecJS移植到Python的一个执行JS代码的库. 安装 pip install PyExecJS 例子 >>> import execjs >>> execjs.eval("'red yellow blue'.split(' ')") ['red', 'yellow', 'blue'] >>> ctx = execjs.compile(""" ..…

潭州课堂25班：Ph201805201 爬虫基础第十二课点触验证码二 (课堂笔记）

为上次代码添加模拟人操作的鼠标的移动轨迹 # -*- coding:utf-8 -*- # 斌彬电脑 # @Time : 2018/9/14 0014 上午 8:08 from selenium import webdriver from selenium.webdriver.support.wait import WebDriverWait from selenium.webdriver.chrome.options import Options from selenium.webdriv…

潭州课堂25班：Ph201805201 爬虫基础第九课图像处理- PIL (课堂笔记）

Python图像处理-Pillow 简介 Python传统的图像处理库PIL(Python Imaging Library ),可以说基本上是Python处理图像的标准库,功能强大,使用简单. 但是由于PIL不支持Python3,而且更新缓慢.所以有志愿者在PIL的基础上创建了一个分支版本,命名为Pillow,Pillow目前最新支持到python3.6,更新活跃,并且增添了许多新的特性.所以我们安装Pillow即可. 安装 Pillow的安装比较的简单,直接pip安装即可: pip insta…