Python Socket请求网站获取数据

---阻塞 I/O           ->收快递,快递如果不到,就干不了其他的活

---非阻塞I/0       ->收快递,不断的去问,有没有送到,有没有送到,...如果送到了就接收

---I/O多路复用      ->找个代理人(select), 去收快递。快递到了,就通知用户.  

一 . 阻塞方式

blocking IO 会一直block 对应的进程,直到操作完成

# 客户端请求网站-阻塞实现(一次一次的请求)
import socket
import time # 访问网站
ACCESS_URL = 'www.baidu.com'
# 端口
ACCESS_PORT = 80 # socket阻塞请求网站
def blocking(pn):
sock = socket.socket()
sock.connect((ACCESS_URL, ACCESS_PORT)) # 连接网站 ,发出一个HTTP请求
request_url = 'GET {} HTTP/1.0\r\nHost: www.baidu.com\r\n\r\n'.format('/s?wd={}'.format(pn))
sock.send(request_url.encode())
response = b''
chunk = sock.recv(1024)
while chunk: # 循环接收数据,因为一次接收不完整
response += chunk
chunk = sock.recv(1024)
# print(response.decode())
return response def block_way():
for i in range(5):
blocking(i) if __name__ == '__main__':
start = time.time()
block_way()
print('请求5次页面耗时{}'.format(time.time() - start))
"""
请求5次页面耗时2.4048924446105957
"""

二. 非阻塞方式

non-blcoking在kernel还没准备好数据的情况下,会立即返回(会抛出异常)

# 客户端请求网站-非阻塞实现
import socket
import time # 访问网站
ACCESS_URL = 'www.baidu.com'
# 端口
ACCESS_PORT = 80 # socket非阻塞请求网站(时间消耗在不断的while循环中,和阻塞的时间差不多)
def blocking(pn):
sock = socket.socket()
sock.setblocking(False) # 设置为非阻塞
try:
# connect连接需要一定时间,非阻塞发送完请求,立即返回,如果没有数据会报异常
sock.connect((ACCESS_URL, ACCESS_PORT)) # 连接网站 ,发出一个HTTP请求
except BlockingIOError: # 非阻塞套接字捕获异常
pass
request_url = 'GET {} HTTP/1.0\r\nHost: www.baidu.com\r\n\r\n'.format('/s?wd={}'.format(pn))
while True: # 不断发送http请求
try:
sock.send(request_url.encode())
break
except OSError:
pass
response = b''
while True: # 不断地接收数据
try:
chunk = sock.recv(1024) # 没有数据返回时会收到异常
while chunk: # 循环接收数据,因为一次接收不完整
response += chunk
chunk = sock.recv(1024)
break
except BlockingIOError: # 处理非阻塞异常
pass
# print(response.decode())
return response def block_way():
for i in range(5):
blocking(i) if __name__ == '__main__':
start = time.time()
block_way()
print('请求5次页面耗时{}'.format(time.time() - start))
"""
请求5次页面耗时2.681565046310425
时间消耗在不断的while循环中,和阻塞的时间差不多
"""

三. 多线程方式

# 客户端请求网站-线程池实现
import socket
from multiprocessing.pool import ThreadPool
import time # 访问网站
ACCESS_URL = 'www.baidu.com'
# 端口
ACCESS_PORT = 80 def blocking(pn):
sock = socket.socket()
sock.connect((ACCESS_URL, ACCESS_PORT)) # 连接网站 ,发出一个HTTP请求
request_url = 'GET {} HTTP/1.0\r\nHost: www.baidu.com\r\n\r\n'.format('/s?wd={}'.format(pn))
sock.send(request_url.encode())
response = b''
chunk = sock.recv(1024)
while chunk: # 循环接收数据,因为一次接收不完整
response += chunk
chunk = sock.recv(1024)
# print(response.decode())
return response def block_way():
pool = ThreadPool(5)
for i in range(10):
pool.apply_async(blocking, args=(i,))
pool.close() # close()执行后不会有新的进程加入到pool
pool.join() # join函数等待子进程结束 if __name__ == '__main__':
start = time.time()
block_way()
print('请求10次页面耗时{}'.format(time.time() - start))
"""
请求10次页面耗时1.1231656074523926
"""

四. 多进程方式

# 客户端请求网站-进程池实现
import socket
from multiprocessing import Pool
import time # 访问网站
ACCESS_URL = 'www.baidu.com'
# 端口
ACCESS_PORT = 80 def blocking(pn):
"""
发送请求,接收数据
:param pn:
:return:
"""
sock = socket.socket()
sock.connect((ACCESS_URL, ACCESS_PORT)) # 连接网站 ,发出一个HTTP请求
request_url = 'GET {} HTTP/1.0\r\nHost: www.baidu.com\r\n\r\n'.format('/s?wd={}'.format(pn))
sock.send(request_url.encode())
response = b''
chunk = sock.recv(1024)
while chunk: # 循环接收数据,因为一次接收不完整
response += chunk
chunk = sock.recv(1024)
# print(response.decode())
return response def block_way():
pool = Pool(5)
for i in range(10):
pool.apply_async(blocking, args=(i,))
pool.close() # close()执行后不会有新的进程加入到pool
pool.join() # join函数等待子进程结束 if __name__ == '__main__':
start = time.time()
block_way()
print('请求10次页面耗时{}'.format(time.time() - start))
"""
请求10次页面耗时1.1685676574707031 略慢于线程池实现方式,因为进程相对于线程开销比较大
"""

五. 协程方式

# 客户端请求网站-协程实现
from gevent import monkey;monkey.patch_all() # 加补丁,实现非阻塞
import socket
import gevent
import time # 访问网站
ACCESS_URL = 'www.baidu.com'
# 端口
ACCESS_PORT = 80 def blocking(pn):
"""
发送请求,接收数据
:param pn:
:return:
"""
sock = socket.socket()
sock.connect((ACCESS_URL, ACCESS_PORT)) # 连接网站 ,发出一个HTTP请求
request_url = 'GET {} HTTP/1.0\r\nHost: www.baidu.com\r\n\r\n'.format('/s?wd={}'.format(pn))
sock.send(request_url.encode())
response = b''
chunk = sock.recv(1024)
while chunk: # 循环接收数据,因为一次接收不完整
response += chunk
chunk = sock.recv(1024)
# print(response.decode())
return response def block_way():
tasks = [gevent.spawn(blocking,i) for i in range (10)] #启动协程
gevent.joinall(tasks) # 阻塞等待所有操作都执行完毕 if __name__ == '__main__':
start = time.time()
block_way()
print('请求10次页面耗时{}'.format(time.time() - start))
"""
请求10次页面耗时0.6231002807617188 效率高于线程方式,协程相当于单线程并发(微线程),开销小于线程
"""

六. IO多路复用

I/O多路复用就是通过一种机制,操作系统通过一个进程可以监视多个描述符,一旦某个描述符就绪(一般是读就绪或者写就绪),能够通知程序进行相应的读写操作。

# 客户端请求网站-I/O多路复用
import socket
import selectors
import time # 访问网站
ACCESS_URL = 'www.baidu.com'
# 端口
ACCESS_PORT = 80 sel = selectors.DefaultSelector()
flag = False # 结束标志
num_list = [0] * 5 class Crawler(object):
def __init__(self,pn):
self.pn = pn
self.response = b'' def req_connect(self):
"""
请求建立连接
:return:
"""
sock = socket.socket()
sock.setblocking(False)
try:
sock.connect((ACCESS_URL, ACCESS_PORT)) # 连接网站 ,发出一个HTTP请求
except BlockingIOError: # 非阻塞套接字捕获异常
pass
sel.register(sock,selectors.EVENT_WRITE, self.conn_send) # 监听socket,向服务端发送数据WRITE def conn_send(self,sock):
"""
发送请求数据
:param sock:
:return:
"""
# 取消上面注册监听的套接字
sel.unregister(sock)
request_url = 'GET {} HTTP/1.0\r\nHost: www.baidu.com\r\n\r\n'.format('/s?wd={}'.format(self.pn))
sock.send(request_url.encode()) # 当我们发送数据之后,就等接收数据
sel.register(sock,selectors.EVENT_READ, self.read) def read(self, sock):
global flag
chunk = sock.recv(1024)
if chunk:
self.response += chunk
else:
# 没有数据可读
print(self.response)
sel.unregister(sock)
num_list.pop()
if not num_list:
flag = True # 事件循环
def loop():
while not flag:
events = sel.select() # 监听发生了变化的套接字
for key, mask in events:
callback = key.data
callback(key.fileobj) if __name__ == '__main__':
start = time.time()
# print(num_list)
for i in range(5):
crawler = Crawler(i) # 实例
crawler.req_connect()
loop()
print('请求5次页面耗时{}'.format(time.time() - start))
"""
请求5次页面耗时0.5865745544433594 多路复用非阻塞效率要高于非阻塞方式
"""

Python Socket请求网站获取数据的更多相关文章

  1. 爬虫 Http请求,urllib2获取数据,第三方库requests获取数据,BeautifulSoup处理数据,使用Chrome浏览器开发者工具显示检查网页源代码,json模块的dumps,loads,dump,load方法介绍

    爬虫 Http请求,urllib2获取数据,第三方库requests获取数据,BeautifulSoup处理数据,使用Chrome浏览器开发者工具显示检查网页源代码,json模块的dumps,load ...

  2. Flutter实战视频-移动电商-08.Dio基础_伪造请求头获取数据

    08.Dio基础_伪造请求头获取数据 上节课代码清楚 重新编写HomePage这个动态组件 开始写请求的方法 请求数据 .但是由于我们没加请求的头 所以没有返回数据 451就是表示请求错错误 创建请求 ...

  3. React 中的 AJAX 请求:获取数据的方法

    React 中的 AJAX 请求:获取数据的方法 React 只是使用 props 和 state 两处的数据进行组件渲染. 因此,想要使用来自服务端的数据,必须将数据放入组件的 props 或 st ...

  4. 一、表单和ajax中的post请求&&后台获取数据方法

    一.表单和ajax中的post请求&&后台获取数据方法 最近要做后台数据接收,因为前台传来的数据太过于混乱,所以总结了一下前台数据post请求方法,顺便写了下相对应的后台接收方法. 前 ...

  5. 原生socket请求url获取状态码、消息报头、响应正文

    需求: (1)使用socket及ssl模块写通用的web客户端 (2)向服务器发起请求 (3)接受响应内容并解析出状态码.消息报头.响应正文 (4)最核心的函数: 输入一个url,返回状态码.消息报头 ...

  6. nodejs发起HTTPS请求并获取数据

    摘要:在网站中有时候需要跨域请求数据,直接用Ajax无法实现跨域,采用其他方式需要根据不同的浏览器做相应的处理.用Nodejs可以很好的解决这些问题,后台引用HTTPS模块,发送和返回的数据均为JSO ...

  7. python3实践-从网站获取数据(Carbon Market Data-GD) (bs4/Beautifulsoup)

    结合个人需求,从某个网站获取一些数据,发现网页链接是隐藏的,需要通过浏览器看后面的代码来获取真实的链接. 下面这个案例,直接是从真实的链接中爬去数据. 此外,发现用pandas的read_html不能 ...

  8. python3实践-从网站获取数据(Carbon Market Data-BJ) (pandas,bs4)

    自己边看边实践一些简单的实际应用,下面的程序是从某个网站上获取需要的数据. 在编写的过程中,通过学习陆续了解到一些方法,发现Python真的是很便捷. 尤其是用pandas获取网页中的表格数据,真的是 ...

  9. 08-Flutter移动电商实战-dio基础_伪造请求头获取数据

    在很多时候,后端为了安全都会有一些请求头的限制,只有请求头对了,才能正确返回数据.这虽然限制了一些人恶意请求数据,但是对于我们聪明的程序员来说,就是形同虚设.这篇文章就以极客时间 为例,讲一下通过伪造 ...

随机推荐

  1. 用命令生成Webservice 对应的代理类

    wsdl /language:C# /namespace:Camstar.WebPortal.WebPortlets.Shopfloor.SAP.GreatWall /out:gwSAPService ...

  2. Handler相关

    1.延迟方法 Message msg = new Message(); msg.what = 0x111; // netWorkHandler.sendMessage(msg);   //延迟方法三 ...

  3. GitLab代码行数统计--统计增加与删除行数

    #!/bin/bashmaster_dev='master'date_star='2018-11-01'date_end='2018-11-30'path1=`find /home/gitlab_da ...

  4. PowerScript语言基础

    注释: 以 "//" 开头,其后书写注释内容,常用于单行注释. "/-/"中间的部分为注释,便于多行说明. //这是一个单行注释 INTEGER I I = I ...

  5. Add custom field in Material Master

    1.Add fields in the Append Structure of table MARA. 2.Configure SPRO IMG -> Logistics General -&g ...

  6. leveldb 学习记录(一) skiplist

    leveldb LevelDb是一个持久化存储的KV系统,并非完全将数据放置于内存中,部分数据也会存储到磁盘上. 想了解这个由谷歌大神编写的经典项目. 可以从数据结构以及数据结构的处理下手,也可以从示 ...

  7. Chapter3_操作符_别名机制

    Java中的别名机制实际体现的是对于“=”这一类赋值操作符的使用规则和内涵.“=”的实际内涵是指将右边的变量的值(对于基本数据类型而言)或者某一个对象的引用(对于某个具体对象而言)复制到左边的变量名所 ...

  8. centos7 安装maven

    进入指定目录 cd /usr/local/src/   下载maven 包 wget http://mirrors.hust.edu.cn/apache/maven/maven-3/3.1.1/bin ...

  9. 团队-爬取豆瓣电影TOP250-开发环境搭建过程

    从官网下载安装包(http://www.python.org). 安装Python 选择安装路径(我选的默认) 安装Pycharm 1.从官网下载安装包(https://www.jetbrains.c ...

  10. redis集群部署那点事

    [CentOS]make cc Command not found,make: *** [adlist.o] Error 127” 参考:https://blog.csdn.net/wzygis/ar ...