一.爬虫基本原理 1.爬虫是什么 #1.什么是互联网? 互联网是由网络设备(网线,路由器,交换机,防火墙等等)和一台台计算机连接而成,像一张网一样. #2.互联网建立的目的? 互联网的核心价值在于数据的共享/传递:数据是存放于一台台计算机上的,而将计算机互联到一起的目的就是为了能够方便彼此之间的数据共享/传递, 否则你只能拿U盘去别人的计算机上拷贝数据了. #3.什么是上网?爬虫要做的是什么? 我们所谓的上网便是由用户端计算机发送请求给目标计算机,将目标计算机的数据下载到本地的过程. #3.1…
Requests是什么 Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库 如果你看过上篇文章关于urllib库的使用,你会发现,其实urllib还是非常不方便的,而Requests它会比urllib更加方便,可以节约我们大量的工作.(用了requests之后,你基本都不愿意用urllib了)一句话,requests是python实现的最简单易用的HTTP库,建议爬虫使用requests库. 默认安装好python之后,是没有…
爬虫入门之urllib库详解(二) 1 urllib模块 urllib模块是一个运用于URL的包 urllib.request用于访问和读取URLS urllib.error包括了所有urllib.request导致的异常 urllib.parse用于解析URLS urllib.robotparser用于解析robots.txt文件(网络蜘蛛) 2 urllib读取网页的三种方式 urlopen直接打开 urlopen返回对象提供的方法 read() , readline() ,readline…
Requests是一个Python语言写的http相关设置或者请求的一个库 安装:pip install Requests或者pip3 install requests 使用的时候要import requests http://httpbin.org/:这个链接可以用来检查你请求的链接返回的内容,输出的是你请求的基本内容,可以用来测试验证 get请求 1.基本get请求的写法: import requests response = requests.get("http://httpbin.org…
Python爬虫之selenium库使用详解 本章内容如下: 什么是Selenium selenium基本使用 声明浏览器对象 访问页面 查找元素 多个元素查找 元素交互操作 交互动作 执行JavaScript 获取元素属性 获取文本值 Frame 等待 浏览器的前进和后退 选项卡管理 异常处理 ++++++++++++++++++++++++++++++++ 什么是Selenium selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(…
学习目的: request库比urllib库使用更加简洁,且更方便. 正式步骤 Step1:什么是requests requests是用Python语言编写,基于urllib,采用Apache2 Licensed开源协议的HTTP库.它比urllib更加方便,可以节约大量工作时间,还完全满足HTTP测试需求,是一个简单易用的HTTP库. Step2:实例 引入 # -*- coding:utf-8 -*- import requests response = requests.get('http…
Requests基于urllib,比urllib更加方便,可以节约我们大量的工作,完全满足HTTP测试需求. 实例引入 import requests response = requests.get('https://www.baidu.com/') print(type(response)) print(response.status_code) print(type(response.text)) print(response.cookies) <class 'requests.models…
什么是Requests Requests是用python语言编写,基于urllib,采用Apache2 licensed开源协议的HTTP库,它比urllib更加方便,可以节约我们大量的工作,完全满足HTTP测试需求.一句话总结:它是Python实现的简单易用的HTTP库 安装Requests pip install requests 验证没有报错,表示已经成功的安装了 实例引入 import requests response = requests.get('https://www.baidu…
由于web接口自动化测试需要用到python的第三方库--requests库,运用requests库可以模拟发送http请求,再结合unittest测试框架,就能完成web接口自动化测试. 所以笔者今天先来总结一下requests库的用法.希望对大家(尤其是新手)有帮助哦!大家可要仔细阅读,加油! // // 目录隐藏目录显示目录 1.GET请求   1.1查看get函数的使用   1.2 requests的get函数的入参说明   1.3 requests函数的返回值(http响应)   1.…
今天在来看一下Response容器的相关知识,其实这篇blog早就应该编写了,只是最近有点忙,所以被中断了.下面我们就来看一下Response容器的相关知识吧.Response和我们即将在后面说到的Request容器是一一对应的,他是web容器在用户每次请求服务端的时候,创建的一对容器对象,Response容器是服务端返还给客户机的一个响应内容对象容器,比如说:响应头,响应行,实体数据等信息,而Request容器对象是,代表用户请求服务端的的一个容器对象,比如客户机的请求头,请求行,以及携带的参…