客户端发送hello,如果服务端 recv(1) ,那只能接收到 h 这一个字符,然后再recv(1) 一下,可以再接收一个 e ,

因为客户端发送的结果长,所以只能把其他的先缓存下来,下次recv的时候再去接收。

这就是粘包,即两次结果粘到一起了。

粘包发生的原因是 socket 缓冲区导致的,如图:

你的程序实际上无权直接操作网卡的,你操作网卡都是通过操作系统给用户程序暴露出来的接口,那每次你的程序要给远程发数据时,其实是先把数据从用户态copy到内核态,这样的操作是耗资源和时间的,频繁的在内核态和用户态之前交换数据势必会导致发送效率降低, 因此socket 为提高传输效率,发送方往往要收集到足够多的数据后才发送一次数据给对方。若连续几次需要send的数据都很少,通常TCP socket 会根据优化算法把这些数据合成一个TCP段后一次发送出去,这样接收方就收到了粘包数据。

粘包问题只存在于TCP中,Not UDP

还是看上图,发送端可以是一K一K地发送数据,而接收端的应用程序可以两K两K地提走数据,当然也有可能一次提走3K或6K数据,或者一次只提走几个字节的数据,也就是说,应用程序所看到的数据是一个整体,或说是一个流(stream),一条消息有多少字节对应用程序是不可见的,因此TCP协议是面向流的协议,这也是容易出现粘包问题的原因。而UDP是面向消息的协议,每个UDP段都是一条消息,应用程序必须以消息为单位提取数据,不能一次提取任意字节的数据,这一点和TCP是很不同的。怎样定义消息呢?可以认为对方一次性write/send的数据为一个消息,需要明白的是当对方send一条信息的时候,无论底层怎样分段分片,TCP协议层会把构成整条消息的数据段排序完成后才呈现在内核缓冲区。

例如基于tcp的套接字客户端往服务端上传文件,发送时文件内容是按照一段一段的字节流发送的,在接收方看了,根本不知道该文件的字节流从何处开始,在何处结束

所谓粘包问题主要还是因为接收方不知道消息之间的界限,不知道一次性提取多少字节的数据所造成的。

总结

  1. TCP(transport control protocol,传输控制协议)是面向连接的,面向流的,提供高可靠性服务。收发两端(客户端和服务器端)都要有一一成对的socket,因此,发送端为了将多个发往接收端的包,更有效的发到对方,使用了优化方法(Nagle算法),将多次间隔较小且数据量小的数据,合并成一个大的数据块,然后进行封包。这样,接收端,就难于分辨出来了,必须提供科学的拆包机制。 即面向流的通信是无消息保护边界的。
  2. UDP(user datagram protocol,用户数据报协议)是无连接的,面向消息的,提供高效率服务。不会使用块的合并优化算法,, 由于UDP支持的是一对多的模式,所以接收端的skbuff(套接字缓冲区)采用了链式结构来记录每一个到达的UDP包,在每个UDP包中就有了消息头(消息来源地址,端口等信息),这样,对于接收端来说,就容易进行区分处理了。 即面向消息的通信是有消息保护边界的。
  3. tcp是基于数据流的,于是收发的消息不能为空,这就需要在客户端和服务端都添加空消息的处理机制,防止程序卡住,而udp是基于数据报的,即便是你输入的是空内容(直接回车),那也不是空消息,udp协议会帮你封装上消息头

两种情况下会发生粘包。

  • 发送端需要等缓冲区满才发送出去,造成粘包(发送数据时间间隔很短,数据了很小,会合到一起,产生粘包)
  • 接收方不及时接收缓冲区的包,造成多个包接收(客户端发送了一段数据,服务端只收了一小部分,服务端下次再收的时候还是从缓冲区拿上次遗留的数据,产生粘包)

  1. # 客户端
  2. import socket
  3. ip_port = ('127.0.0.1',9980)
  4. tcp_socket_client = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
  5. tcp_socket_client.connect(ip_port)
  6. tcp_socket_client.send('hello'.encode('utf-8'))
  7. tcp_socket_client.send('gudo'.encode('utf-8'))
  8. ----------------------------------------------------------------------------
  9. 服务端:
  10. import socket
  11. ip_port=('127.0.0.1', 9980)
  12. tcp_socket_server = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
  13. tcp_socket_server.setsockopt(socket.SOL_SOCKET, socket.SO_REUSEADDR, 1)
  14. tcp_socket_server.bind(ip_port)
  15. tcp_socket_server.listen(5)
  16. conn, addr = tcp_socket_server.accept()
  17. data1 = conn.recv(10)
  18. data2 = conn.recv(10)
  19. print('data1:', data1.decode('utf-8'))
  20. print('data2:', data2.decode('utf-8'))
  21. conn.close()
  22. # server 端接收结果:
  23. # data1: hellogudo
  24. # data2:


UDP 不存在粘包问题:

client:

  1. #!/usr/bin/env python
  2. # -*-coding:utf-8 -*-
  3. from socket import *
  4. import time
  5. ip_port = ('127.0.0.1', 9019)
  6. bufsize = 1024
  7. udp_client = socket(AF_INET, SOCK_DGRAM)
  8. while True:
  9. msg = input('>>: ').strip()
  10. if len(msg) == 0:
  11. continue
  12. udp_client.sendto(msg.encode('utf-8'), ip_port)
  13. data, addr = udp_client.recvfrom(bufsize)
  14. print(data.decode('gbk'), end='')

server:

  1. #!/usr/bin/env python
  2. # -*-coding:utf-8 -*-
  3. import socket
  4. import subprocess
  5. ip_port = ('127.0.0.1', 9019)
  6. bufsize = 1024
  7. udp_server = socket.socket(socket.AF_INET, socket.SOCK_DGRAM)
  8. udp_server.setsockopt(socket.SOL_SOCKET,socket.SO_REUSEADDR,1) #就是它,在bind前加
  9. udp_server.bind(ip_port)
  10. while True:
  11. # 收消息
  12. cmd, addr = udp_server.recvfrom(bufsize)
  13. print('用户命令----->', cmd,addr)
  14. # 逻辑处理
  15. res = subprocess.Popen(cmd.decode('utf-8'), shell=True, stderr=subprocess.PIPE, stdin=subprocess.PIPE,
  16. stdout=subprocess.PIPE)
  17. stderr = res.stderr.read()
  18. stdout = res.stdout.read()
  19. # 发消息
  20. udp_server.sendto(stdout + stderr, addr)
  21. udp_server.close()

结果:

  1. >>: ip
  2. 'ip' 不是内部或外部命令,也不是可运行的程序
  3. 或批处理文件。
  4. >>: ipconfig
  5. Traceback (most recent call last):
  6. File "D:/Python/python_learning/luffy/code/part3/02网络编程/udp不存在粘包问题/c.py", line 18, in <module>
  7. data, addr = udp_client.recvfrom(bufsize)
  8. OSError: [WinError 10040] 一个在数据报套接字上发送的消息大于内部消息缓冲区或其他一些网络限制,或该用户用于接收数据报的缓冲区比数据报小。

解决粘包问题:

问题的根源在于,接收端不知道发送端将要传送的字节流的长度,所以解决粘包的方法就是围绕,如何让发送端在发送数据前,把自己将要发送的字节流总大小让接收端知晓,然后接收端来一个死循环接收完所有数据

客户端:

  1. import socket, json, struct
  2. ip_port = ('127.0.0.1',9991)
  3. client = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
  4. client.connect(ip_port)
  5. while True:
  6. cmd=input('>>: ').strip()
  7. if not cmd : continue
  8. client.send(bytes(cmd,encoding='utf-8'))
  9. head = client.recv(4) # 先收4个bytes,这里4个bytes里包含了报头的长度
  10. head_json_len = struct.unpack('i', head)[0] # 解出报头的长度
  11. head_json = json.loads(client.recv(head_json_len).decode('utf-8')) # 拿到报头
  12. data_len = head_json['data_size'] # 取出报头内包含的信息
  13. # 开始接收数据
  14. recv_size = 0
  15. recv_data = b''
  16. while recv_size < data_len:
  17. recv_data += client.recv(1024)
  18. recv_size += len(recv_data)
  19. print(recv_data.decode('gbk')) # 命令结果的编码是以当前所在的系统为准的,如果是windows,那么res.stdout.read()读出的就是GBK编码的,mac 默认 utf-8 编码

服务端:

  1. import socket,struct,json
  2. import subprocess
  3. gd_server=socket.socket(socket.AF_INET,socket.SOCK_STREAM)
  4. gd_server.setsockopt(socket.SOL_SOCKET,socket.SO_REUSEADDR,1) #就是它,在bind前加
  5. gd_server.bind(('127.0.0.1',9991))
  6. gd_server.listen(5)
  7. while True:
  8. conn, addr = gd_server.accept()
  9. while True:
  10. cmd = conn.recv(1024)
  11. if not cmd: break
  12. print('cmd: %s' % cmd)
  13. # 命令操作
  14. res=subprocess.Popen(cmd.decode('utf-8'),
  15. shell=True,
  16. stdout=subprocess.PIPE,
  17. stderr=subprocess.PIPE)
  18. err=res.stderr.read()
  19. print(err)
  20. if err:
  21. back_msg=err
  22. else:
  23. back_msg=res.stdout.read()
  24. headers = {'data_size': len(back_msg)}
  25. head_json = json.dumps(headers) # 字典转换成字符串
  26. head_json_bytes = bytes(head_json, encoding='utf-8')
  27. conn.send(struct.pack('i', len(head_json_bytes))) # 先发报头长度
  28. conn.send(head_json_bytes) # 再发报头
  29. conn.sendall(back_msg) # 再发正式内容
  30. conn.close()


拆包的发生情况

当发送端缓冲区的长度大于网卡的MTU时,tcp会将这次发送的数据拆成几个数据包发送出去。

补充问题一:为何tcp是可靠传输,udp是不可靠传输

tcp在数据传输时,发送端先把数据发送到自己的缓存中,然后协议控制将缓存中的数据发往对端,对端返回一个ack=1,发送端则清理缓存中的数据,对端返回ack=0,则重新发送数据,所以tcp是可靠的

而udp发送数据,对端是不会返回确认信息的,因此不可靠

补充问题二:send(字节流)和recv(1024)及sendall

recv里指定的1024意思是从缓存里一次拿出1024个字节的数据

send的字节流是先放入己端缓存,然后由协议控制将缓存内容发往对端,如果待发送的字节流大小大于缓存剩余空间,那么数据丢失,用sendall就会循环调用send,数据不会丢失

python 解决粘包问题的更多相关文章

  1. python 解决粘包问题的例子(ftp文件的上传与下载)简单版本

    服务端 ! /user/bin/env python3 -- coding:utf_8 -- """ Author:Markli # 2019/9/9,16:41 &qu ...

  2. Python进阶----粘包,解决粘包(旗舰版)

    Python进阶----粘包,解决粘包(旗舰版) 一丶粘包 只有TCP有粘包现象,UDP永远不会粘包 什么是粘包     存在于客户端接收数据时,不能一次性收取全部缓冲区中的数据.当下一次再有数据来时 ...

  3. Python开发【socket篇】解决粘包

    客户端 import os import json import struct import socket sk = socket.socket() sk.connect(('127.0.0.1',8 ...

  4. python全栈开发day28-网络编程之粘包、解决粘包,上传和下载的作业

    一.昨日内容回顾 1. tcp和udp编码 2. 自定义mysocket解决编码问题 二.今日内容总结 1.粘包 1)产生粘包原因: (1).接收方不知道消息之间的边界,不知道一次性要取多少字节的数据 ...

  5. 【python】-- Socket粘包问题 ,解决粘包的几种方法、socket文件下载,md5值检验

    上一篇随笔:“socket 接收大数据”,在win系统上能够运行,并且解决了大数据量的数据传输出现的问题,但是运行在linux系统上就会出现如下图所示的情况: 就是服务端两次发送给客户端的数据(第一次 ...

  6. Python socket粘包问题(初级解决办法)

    server端配置: import socket,subprocess,struct from socket import * server=socket(AF_INET,SOCK_STREAM) s ...

  7. python 31 升级版解决粘包现象

    目录 1. recv 工作原理 2.升级版解决粘包问题 3. 基于UDP协议的socket通信 1. recv 工作原理 1.能够接收来自socket缓冲区的字节数据: 2.当缓冲区没有数据可以读取时 ...

  8. python socket--TCP解决粘包的方法

    1.为什么会出现粘包?? 让我们基于tcp先制作一个远程执行命令的程序(1:执行错误命令 2:执行ls 3:执行ifconfig) 注意注意注意: res=subprocess.Popen(cmd.d ...

  9. Python socket 粘包

    目录 1 TCP的三次握手四次挥手 0 1.1 三次握手 1 1.2 四次挥手 2 2 粘包现象 3 2.1 基于TCP制作远程执行命令操作(win服务端) 4 2.1 基于TCP制作远程执行命令操作 ...

随机推荐

  1. AI从入门到放弃:CNN的导火索,用MLP做图像分类识别?

    欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 作者:郑善友 腾讯MIG后台开发工程师 导语:在没有CNN以及更先进的神经网络的时代,朴素的想法是用多层感知机(MLP)做图片分类的识别:但 ...

  2. 深入理解JavaScript系列(12):变量对象(Variable Object)

    介绍 JavaScript编程的时候总避免不了声明函数和变量,以成功构建我们的系统,但是解释器是如何并且在什么地方去查找这些函数和变量呢?我们引用这些对象的时候究竟发生了什么? 原始发布:Dmitry ...

  3. [转]mvc5+ef6+Bootstrap 项目心得--身份验证和权限管理

    本文转自:http://www.cnblogs.com/shootingstar/p/5629668.html 1.mvc5+ef6+Bootstrap 项目心得--创立之初 2.mvc5+ef6+B ...

  4. JavaScript的作用域(Scope)和上下文(Context)

    JavaScript对于作用域(Scope)和上下文(Context)的实现是这门语言的一个非常独到的地方,部分归功于其独特的灵活性. 函数可以接收不同的的上下文和作用域.这些概念为JavaScrip ...

  5. vsCode代码缩略图

    vsCode配置代码缩略图: 文件--首选项--设置 搜索 minimap    true 打开 false 关闭

  6. 从零开始的全栈工程师——JS面向对象(复习)

    作用域 栈内存:js执行的环境堆内存:存放代码块的空间 存放方式 键值对形式存放 字符串的形式存放js在执行之前 浏览器会给他一个全局作用域叫window 每个作用域下都分为两个模块 一个是内存模块一 ...

  7. Lucene 初识

    因为业务需要,虽然自己不是专门写搜索的,但是需要自己拼一些搜索条件去调用搜索的接口,而之前看的JVM crash里也涉及到了Lucene,所以大概了解一下. 参考文档: http://www.itey ...

  8. vue 上拉加载更多

    var _this=this; var goods_id = _this.$route.query.id; var isscroll = true; _this.$nextTick(() => ...

  9. android Viewpager取消预加载及Fragment方法的学习

    1.在使用ViewPager嵌套Fragment的时候,由于VIewPager的几个Adapter的设置来说,都会有一定的预加载.通过设置setOffscreenPageLimit(int numbe ...

  10. 通过 Powershell 来调整 ARM 模式下虚拟机的尺寸

    需求描述 在部署完 ARM 模式的虚拟机以后,可以通过 PowerShell 命令来调整虚拟机的尺寸,以下是通过 PowerShell 命令来调整 ARM 模式的虚拟机尺寸. Note 本文只限于 A ...