Python编程-网络编程

一、Socket复习

1.Socket参数

sk.bind(address) 必会

　　s.bind(address) 将套接字绑定到地址。address地址的格式取决于地址族。在AF_INET下，以元组（host,port）的形式表示地址。

sk.listen(backlog) 必会

　　开始监听传入连接。backlog指定在拒绝连接之前，可以挂起的最大连接数量。

backlog等于5，表示内核已经接到了连接请求，但服务器还没有调用accept进行处理的连接个数最大为5

这个值不能无限大，因为要在内核中维护连接队列

sk.setblocking(bool) 必会

　　是否阻塞（默认True），如果设置False，那么accept和recv时一旦无数据，则报错。

sk.accept() 必会

　　接受连接并返回（conn,address）,其中conn是新的套接字对象，可以用来接收和发送数据。address是连接客户端的地址。

　　接收TCP 客户的连接（阻塞式）等待连接的到来

sk.connect(address) 必会

　　连接到address处的套接字。一般，address的格式为元组（hostname,port）,如果连接出错，返回socket.error错误。

sk.connect_ex(address)

　　同上，只不过会有返回值，连接成功时返回 0 ，连接失败时候返回编码，例如：10061

sk.close() 必会

　　关闭套接字

sk.recv(bufsize[,flag]) 必会

　　接受套接字的数据。数据以字符串形式返回，bufsize指定最多可以接收的数量。flag提供有关消息的其他信息，通常可以忽略。

sk.recvfrom(bufsize[.flag])

　　与recv()类似，但返回值是（data,address）。其中data是包含接收数据的字符串，address是发送数据的套接字地址。

sk.send(string[,flag]) 必会

　　将string中的数据发送到连接的套接字。返回值是要发送的字节数量，该数量可能小于string的字节大小。即：可能未将指定内容全部发送。

sk.sendall(string[,flag]) 必会

　　将string中的数据发送到连接的套接字，但在返回之前会尝试发送所有数据。成功返回None，失败则抛出异常。

内部通过递归调用send，将所有内容发送出去。

sk.sendto(string[,flag],address)

　　将数据发送到套接字，address是形式为（ipaddr，port）的元组，指定远程地址。返回值是发送的字节数。该函数主要用于UDP协议。

sk.settimeout(timeout) 必会

　　设置套接字操作的超时期，timeout是一个浮点数，单位是秒。值为None表示没有超时期。一般，超时期应该在刚创建套接字时设置，因为它们可能用于连接的操作（如 client 连接最多等待5s ）

sk.getpeername() 必会

　　返回连接套接字的远程地址。返回值通常是元组（ipaddr,port）。

sk.getsockname()

　　返回套接字自己的地址。通常是一个元组(ipaddr,port)

sk.fileno()

　　套接字的文件描述符

socket.sendfile(file, offset=0, count=None)

发送文件，但目前多数情况下并无什么卵用。

2.通过socket实现简单的ssh

服务端

import socket

import os

server = socket.socket() #获得socket实例

#server.setsockopt(socket.SOL_SOCKET, socket.SO_REUSEADDR, 1)

server.bind(("localhost",9998)) #绑定ip port

server.listen()  #开始监听

while True: #第一层loop

    print("等待客户端的连接...")

    conn,addr = server.accept() #接受并建立与客户端的连接,程序在此处开始阻塞,只到有客户端连接进来...

    print("新连接:",addr )

    while True:

        data = conn.recv(1024)

        if not data:

            print("客户端断开了...")

            break #这里断开就会再次回到第一次外层的loop

        print("收到命令:",data)

        res = os.popen(data.decode()).read() #py3 里socket发送的只有bytes,os.popen又只能接受str,所以要decode一下

        print(len(res))

        conn.send(res.encode("utf-8"))

server.close()

客户端

import socket

client = socket.socket()

client.connect(("localhost",9998))

while True:

    msg = input(">>:").strip()

    if len(msg) == 0:continue

    client.send( msg.encode("utf-8") )

    data = client.recv(1024)

    print(data.decode()) #命令执行结果

client.close()

我们就做了一个简单的ssh , 但多试几条命令你就会发现，上面的程序有以下几个问题：

（1）不能执行top等类似的会持续输出的命令,这是因为，服务器端在收到客户端指令后，会一次性通过os.popen执行，并得到结果后返回给客户，但top这样的命令用os.popen执行你会发现永远都不会结束，所以客户端也永远拿不到返回。(真正的ssh是通过select 异步等模块实现的，我们以后会涉及)

（2）不能执行像cd这种没有返回的指令，因为客户端每发送一条指令，就会通过client.recv(1024)等待接收服务器端的返回结果，但是cd命令没有结果，服务器端调用conn.send(data)时是不会发送数据给客户端的。所以客户端就会一直等着，等到天荒地老，结果就卡死了。解决的办法是，在服务器端判断命令的执行返回结果的长度，如果结果为空，就自己加个结果返回给客户端，如写上"cmd exec success, has no output."

（3）如果执行的命令返回结果的数据量比较大，会发现，结果返回不全，在客户端上再执行一条命令，结果返回的还是上一条命令的后半段的执行结果，这是为什么呢？这是因为，我们的客户写client.recv(1024)，即客户端一次最多只接收1024个字节，如果服务器端返回的数据是2000字节，那有至少9百多字节是客户端第一次接收不了的，那怎么办呢，服务器端此时不能把数据直接扔了呀，so它会暂时存在服务器的io发送缓冲区里，等客户端下次再接收数据的时候再发送给客户端。这就是为什么客户端执行第2条命令时，却接收到了第一条命令的结果的原因。这时有同学说了，那我直接在客户端把client.recv(1024)改大一点不就好了么，改成一次接收个100mb,哈哈，这是不行的，因为socket每次接收和发送都有最大数据量限制的，毕竟网络带宽也是有限的呀，不能一次发太多，发送的数据最大量的限制就是缓冲区能缓存的数据的最大量，这个缓冲区的最大值在不同的系统上是不一样的，我实在查不到一个具体的数字，但测试的结果是，在linux上最大一次可接收10mb左右的数据，不过官方的建议是不超过8k,也就是8192，并且数据要可以被2整除，不要问为什么。anyway , 如果一次只能接收最多不超过8192的数据，那服务端返回的数据超过了这个数字怎么办呢？比如让服务器端打开一个5mb的文件并返回，客户端怎么才能完整的接受到呢？那就只能循环收取啦。

在开始解决上面问题3之前，我们要考虑，客户端要循环接收服务器端的大量数据返回直到一条命令的结果全部返回为止，但问题是客户端知道服务器端返回的数据有多大么？答案是不知道，那既然不知道服务器的要返回多大的数据，那客户端怎么知道要循环接收多少次呢？答案是不知道，那咋办？总不能靠猜吧？

当然不能，那只能让服务器在发送数据之前主动告诉客户端，要发送多少数据给客户端，然后再开始发送数据。

这里引入了一个重要的概念，“粘包”，即服务器端你调用时send 2次，但你send调用时，数据其实并没有立刻被发送给客户端，而是放到了系统的socket发送缓冲区里，等缓冲区满了、或者数据等待超时了，数据才会被send到客户端，这样就把好几次的小数据拼成一个大数据，统一发送到客户端了，这么做的目地是为了提高io利用效率，一次性发送总比连发好几次效率高嘛。但也带来一个问题，就是“粘包”，即2次或多次的数据粘在了一起统一发送了。就是我们上面看到的情况。

我们在这里必须要想办法把粘包分开，因为不分开，你就没办法取出来服务器端返回的命令执行结果的大小呀。so ,那怎么分开呢？首先你是没办法让缓冲区强制刷新把数据发给客户端的。你能做的，只有一个。就是，让缓冲区超时，超时了，系统就不会等缓冲区满了，会直接把数据发走，因为不能一个劲的等后面的数据呀，等太久，会造成数据延迟了，那可是极不好的。so如果让缓冲区超时呢？

答案就是：

（1）time.sleep(0.5),经多次测试，让服务器程序sleep 至少0.5就会造成缓冲区超时。哈哈哈，你会说，擦，这么玩不会被老板开除么，虽然我们觉得0.5s不多，但是对数据实时要求高的业务场景，比如股票交易，过了0.5s 股票价格可以就涨跌很多，搞毛线呀。但没办法，我刚学socket的时候找不到更好的办法，就是这么玩的，现在想想也真是low呀

（2）但现在我是有Tesla的男人了，不能再这么low了，所以推出nb新姿势就是，不用sleep,服务器端每发送一个数据给客户端，就立刻等待客户端进行回应，即调用 conn.recv(1024), 由于recv在接收不到数据时是阻塞的，这样就会造成，服务器端接收不到客户端的响应，就不会执行后面的conn.sendall(命令结果)的指令，收到客户端响应后，再发送命令结果时，缓冲区就已经被清空了，因为上一次的数据已经被强制发到客户端了。好机智，看下面代码实现。

接收大数据 server端

import socket

import os,subprocess

server = socket.socket() #获得socket实例

server.setsockopt(socket.SOL_SOCKET, socket.SO_REUSEADDR, 1)

server.bind(("localhost",9999)) #绑定ip port

server.listen()  #开始监听

while True: #第一层loop

    print("等待客户端的连接...")

    conn,addr = server.accept() #接受并建立与客户端的连接,程序在此处开始阻塞,只到有客户端连接进来...

    print("新连接:",addr )

    while True:

        data = conn.recv(1024)

        if not data:

            print("客户端断开了...")

            break #这里断开就会再次回到第一次外层的loop

        print("收到命令:",data)

        #res = os.popen(data.decode()).read() #py3 里socket发送的只有bytes,os.popen又只能接受str,所以要decode一下

        res = subprocess.Popen(data,shell=True,stdout=subprocess.PIPE).stdout.read() #跟上面那条命令的效果是一样的

        if len(res) == 0:

            res = "cmd exec success,has not output!".encode("utf-8")

        conn.send(str(len(res)).encode("utf-8")) #发送数据之前,先告诉客户端要发多少数据给它

        print("等待客户ack应答...")

        client_final_ack = conn.recv(1024) #等待客户端响应

        print("客户应答:",client_final_ack.decode())

        print(type(res))

        conn.sendall(res) #发送端也有最大数据量限制,所以这里用sendall,相当于重复循环调用conn.send,直至数据发送完毕

server.close()

接收大数据客户端

import socket

import sys

client = socket.socket()

client.connect(("localhost",9999))

while True:

    msg = input(">>:").strip()

    if len(msg) == 0:continue

    client.send( msg.encode("utf-8") )

    res_return_size  = client.recv(1024) #接收这条命令执行结果的大小

    print("getting cmd result , ", res_return_size)

    total_rece_size = int(res_return_size)

    print("total size:",res_return_size)

    client.send("准备好接收了,发吧loser".encode("utf-8"))

    received_size = 0 #已接收到的数据

    cmd_res = b''

    f = open("test_copy.html","wb")#把接收到的结果存下来,一会看看收到的数据 对不对

    while received_size != total_rece_size: #代表还没收完

        data = client.recv(1024)

        received_size += len(data) #为什么不是直接1024,还判断len干嘛,注意,实际收到的data有可能比1024少

        cmd_res += data

    else:

        print("数据收完了",received_size)

        #print(cmd_res.decode())

        f.write(cmd_res) #把接收到的结果存下来,一会看看收到的数据 对不对

    #print(data.decode()) #命令执行结果

client.close()

3.实例：智能机器人(武SIR实例实验失败)

服务端

import socket

ip_port = ('127.0.0.1',8888)

sk = socket.socket()

sk.bind(ip_port)

sk.listen(5)

while True:

    conn,address =  sk.accept()

    conn.sendall('欢迎致电 10086，请输入1xxx,0转人工服务.')

    Flag = True

    while Flag:

        data = conn.recv(1024)

        if data == 'exit':

            Flag = False

        elif data == '0':

            conn.sendall('通过可能会被录音.balabala一大推')

        else:

            conn.sendall('请重新输入.')

    conn.close()

客户端

import socket

ip_port = ('127.0.0.1',8005)

sk = socket.socket()

sk.connect(ip_port)

sk.settimeout(5)

while True:

    data = sk.recv(1024)

    print('receive:',data)

    inp = input('please input:').strip()

    sk.sendall(inp)

    if inp == 'exit':

        break

sk.close()

二、recv与recvfrom的区别

part1：须知

收发消息的原理须知晓--->发消息，都是将数据发送到己端的发送缓冲中，收消息都是从己端的缓冲区中收

tcp：send发消息，recv收消息
udp：sendto发消息，recvfrom收消息

part2：send与sendinto

tcp是基于数据流的，而udp是基于数据报的：

send(bytes_data):发送数据流，数据流bytes_data若为空，自己这段的缓冲区也为空，操作系统不会控制tcp协议发空包

sendinto(bytes_data,ip_port)：发送数据报，bytes_data为空，还有ip_port,所有即便是发送空的bytes_data,数据报其实也不是空的，自己这端的缓冲区收到内容，操作系统就会控制udp协议发包。

part3：recv与recvfrom

1.tcp协议：

（1）如果收消息缓冲区里的数据为空，那么recv就会阻塞（阻塞很简单，就是一直在等着收）

（2）只不过tcp协议的客户端send一个空数据就是真的空数据，客户端即使有无穷个send空，也跟没有一个样。

（3）tcp基于链接通信

基于链接，则需要listen（backlog），指定半连接池的大小
基于链接，必须先运行的服务端，然后客户端发起链接请求
对于mac系统：如果一端断开了链接，那另外一端的链接也跟着完蛋recv将不会阻塞，收到的是空(解决方法是：服务端在收消息后加上if判断，空消息就break掉通信循环)
对于windows/linux系统：如果一端断开了链接，那另外一端的链接也跟着完蛋recv将不会阻塞，收到的是空(解决方法是：服务端通信循环内加异常处理，捕捉到异常后就break掉通讯循环)

客户端发送为空，测试结果--->验证:（1）

客户端直接终止程序，测试结果--->验证:（2）

服务端

import subprocess

from socket import *

phone=socket(AF_INET,SOCK_STREAM)

phone.setsockopt(SOL_SOCKET,SO_REUSEADDR,1)

phone.bind(('127.0.0.1',8080))

phone.listen(5)

conn,addr=phone.accept()

while True:

    data=conn.recv(1024)

    print('from client msg is ',data)

    conn.send(data.upper())

客户端

import subprocess

from socket import *

phone=socket(AF_INET,SOCK_STREAM)

phone.connect(('127.0.0.1',8080))

while True:

    msg=input('>>: ')

    phone.send(msg.encode('utf-8'))

    print('Client message has been sent')

    data=phone.recv(1024)

    print('from server msg is ',data.decode('utf-8'))

phone.close()

2.udp协议

（1）如果如果收消息缓冲区里的数据为“空”，recvfrom也会阻塞

（2）只不过udp协议的客户端sendinto一个空数据并不是真的空数据（包含：空数据+地址信息，得到的报仍然不会为空），所以客户端只要有一个sendinto（不管是否发送空数据，都不是真的空数据），服务端就可以recvfrom到数据。

（3）udp无链接

无链接，因而无需listen（backlog），更加没有什么连接池之说了
无链接，udp的sendinto不用管是否有一个正在运行的服务端，可以己端一个劲的发消息，只不过数据丢失
recvfrom收的数据小于sendinto发送的数据时，在mac和linux系统上数据直接丢失，在windows系统上发送的比接收的大直接报错
只有sendinto发送数据没有recvfrom收数据，数据丢失

客户端发送空，看服务端结果--->验证（1）

服务端

from socket import *

ip_port=('127.0.0.1',9003)

bufsize=1024

udp_server=socket(AF_INET,SOCK_DGRAM)

udp_server.bind(ip_port)

while True:

    data1,addr=udp_server.recvfrom(bufsize)

    print(data1)

客户端

from socket import *

ip_port=('127.0.0.1',9003)

bufsize=1024

udp_client=socket(AF_INET,SOCK_DGRAM)

while True:

    msg=input('>>: ')

    udp_client.sendto(msg.encode('utf-8'),ip_port) #发送空,发现服务端可以接收空

分别运行服务端，客户端--->验证（2）

服务端

from socket import *

ip_port=('127.0.0.1',9003)

bufsize=1024

udp_server=socket(AF_INET,SOCK_DGRAM)

udp_server.bind(ip_port)

data1,addr=udp_server.recvfrom(1)

print('第一次收了 ',data1)

data2,addr=udp_server.recvfrom(1)

print('第二次收了 ',data2)

data3,addr=udp_server.recvfrom(1)

print('第三次收了 ',data3)

print('--------结束----------')

客户端

from socket import *

ip_port=('127.0.0.1',9003)

bufsize=1024

udp_client=socket(AF_INET,SOCK_DGRAM)

udp_client.sendto(b'hello',ip_port)

udp_client.sendto(b'world',ip_port)

udp_client.sendto(b'egon',ip_port)

不运行服务端，单独运行客户端，一点问题没有，但是消息丢了--->验证（3）

服务端

from socket import *

ip_port=('127.0.0.1',9003)

bufsize=1024

udp_server=socket(AF_INET,SOCK_DGRAM)

udp_server.bind(ip_port)

data1,addr=udp_server.recvfrom(bufsize)

print('第一次收了 ',data1)

data2,addr=udp_server.recvfrom(bufsize)

print('第二次收了 ',data2)

data3,addr=udp_server.recvfrom(bufsize)

print('第三次收了 ',data3)

print('--------结束----------')

客户端

from socket import *

import time

ip_port=('127.0.0.1',9003)

bufsize=1024

udp_client=socket(AF_INET,SOCK_DGRAM)

udp_client.sendto(b'hello',ip_port)

udp_client.sendto(b'world',ip_port)

udp_client.sendto(b'egon',ip_port)

print('客户端发完消息啦')

time.sleep(100)

注意：

1.你单独运行上面的udp的客户端，你发现并不会报错，相反tcp却会报错，因为udp协议只负责把包发出去，对方收不收，我根本不管，而tcp是基于链接的，必须有一个服务端先运行着，客户端去跟服务端建立链接然后依托于链接才能传递消息，任何一方试图把链接摧毁都会导致对方程序的崩溃。

2.上面的udp程序，你注释任何一条客户端的sendinto，服务端都会卡住，为什么？因为服务端有几个recvfrom就要对应几个sendinto，哪怕是sendinto(b'')那也要有。

三、粘包

1.粘包现象

让我们基于tcp先制作一个远程执行命令的程序（1：执行错误命令 2：执行ls 3：执行ifconfig）

注意注意注意：

res=subprocess.Popen(cmd.decode('utf-8'),

shell=True,

stderr=subprocess.PIPE,

stdout=subprocess.PIPE)

结果的编码是以当前所在的系统为准的，如果是windows，那么res.stdout.read()读出的就是GBK编码的，在接收端需要用GBK解码

且只能从管道里读一次结果

注意：

命令ls -l ; lllllll ; pwd 的结果是既有正确stdout结果，又有错误stderr结果

服务端

from socket import *

import subprocess

ip_port=('127.0.0.1',8080)

BUFSIZE=1024

tcp_socket_server=socket(AF_INET,SOCK_STREAM)

tcp_socket_server.bind(ip_port)

tcp_socket_server.listen(5)

while True:

    conn,addr=tcp_socket_server.accept()

    print('客户端',addr)

    while True:

        cmd=conn.recv(BUFSIZE)

        if len(cmd) == 0:break

        res=subprocess.Popen(cmd.decode('utf-8'),shell=True,

                         stdout=subprocess.PIPE,

                         stdin=subprocess.PIPE,

                         stderr=subprocess.PIPE)

        stderr=act_res.stderr.read()

        stdout=act_res.stdout.read()

        conn.send(stderr)

        conn.send(stdout)

客户端

import socket

BUFSIZE=1024

ip_port=('127.0.0.1',8080)

s=socket.socket(socket.AF_INET,socket.SOCK_STREAM)

res=s.connect_ex(ip_port)

while True:

    msg=input('>>: ').strip()

    if len(msg) == 0:continue

    if msg == 'quit':break

    s.send(msg.encode('utf-8'))

    act_res=s.recv(BUFSIZE)

    print(act_res.decode('utf-8'),end='')

上述程序是基于tcp的socket，在运行时会发生粘包。

让我们再基于udp制作一个远程执行命令的程序：

服务端

from socket import *

import subprocess

ip_port=('127.0.0.1',9003)

bufsize=1024

udp_server=socket(AF_INET,SOCK_DGRAM)

udp_server.bind(ip_port)

while True:

    #收消息

    cmd,addr=udp_server.recvfrom(bufsize)

    print('用户命令----->',cmd)

    #逻辑处理

    res=subprocess.Popen(cmd.decode('utf-8'),shell=True,stderr=subprocess.PIPE,stdin=subprocess.PIPE,stdout=subprocess.PIPE)

    stderr=res.stderr.read()

    stdout=res.stdout.read()

    #发消息

    udp_server.sendto(stderr,addr)

    udp_server.sendto(stdout,addr)

udp_server.close()

客户端

from socket import *

ip_port=('127.0.0.1',9003)

bufsize=1024

udp_client=socket(AF_INET,SOCK_DGRAM)

while True:

    msg=input('>>: ').strip()

    udp_client.sendto(msg.encode('utf-8'),ip_port)

    data,addr=udp_client.recvfrom(bufsize)

    print(data.decode('utf-8'),end='')

上述程序是基于udp的socket，在运行时永远不会发生粘包。

2.什么是粘包

须知：只有TCP有粘包现象，UDP永远不会粘包。

首先需要掌握一个socket收发消息的原理

发送端可以是一K一K地发送数据，而接收端的应用程序可以两K两K地提走数据，当然也有可能一次提走3K或6K数据，或者一次只提走几个字节的数据，也就是说，应用程序所看到的数据是一个整体，或说是一个流（stream），一条消息有多少字节对应用程序是不可见的，因此TCP协议是面向流的协议，这也是容易出现粘包问题的原因。而UDP是面向消息的协议，每个UDP段都是一条消息，应用程序必须以消息为单位提取数据，不能一次提取任意字节的数据，这一点和TCP是很不同的。怎样定义消息呢？可以认为对方一次性write/send的数据为一个消息，需要明白的是当对方send一条信息的时候，无论底层怎样分段分片，TCP协议层会把构成整条消息的数据段排序完成后才呈现在内核缓冲区。

例如基于tcp的套接字客户端往服务端上传文件，发送时文件内容是按照一段一段的字节流发送的，在接收方看了，根本不知道该文件的字节流从何处开始，在何处结束

所谓粘包问题主要还是因为接收方不知道消息之间的界限，不知道一次性提取多少字节的数据所造成的。

此外，发送方引起的粘包是由TCP协议本身造成的，TCP为提高传输效率，发送方往往要收集到足够多的数据后才发送一个TCP段。若连续几次需要send的数据都很少，通常TCP会根据优化算法把这些数据合成一个TCP段后一次发送出去，这样接收方就收到了粘包数据。

（1）TCP（transport control protocol，传输控制协议）是面向连接的，面向流的，提供高可靠性服务。收发两端（客户端和服务器端）都要有一一成对的socket，因此，发送端为了将多个发往接收端的包，更有效的发到对方，使用了优化方法（Nagle算法），将多次间隔较小且数据量小的数据，合并成一个大的数据块，然后进行封包。这样，接收端，就难于分辨出来了，必须提供科学的拆包机制。即面向流的通信是无消息保护边界的。

（2）UDP（user datagram protocol，用户数据报协议）是无连接的，面向消息的，提供高效率服务。不会使用块的合并优化算法，, 由于UDP支持的是一对多的模式，所以接收端的skbuff(套接字缓冲区）采用了链式结构来记录每一个到达的UDP包，在每个UDP包中就有了消息头（消息来源地址，端口等信息），这样，对于接收端来说，就容易进行区分处理了。即面向消息的通信是有消息保护边界的。

（3）tcp是基于数据流的，于是收发的消息不能为空，这就需要在客户端和服务端都添加空消息的处理机制，防止程序卡住，而udp是基于数据报的，即便是你输入的是空内容（直接回车），那也不是空消息，udp协议会帮你封装上消息头。

udp的recvfrom是阻塞的，一个recvfrom(x)必须对一个一个sendinto(y),收完了x个字节的数据就算完成,若是y>x数据就丢失，这意味着udp根本不会粘包，但是会丢数据，不可靠

tcp的协议数据不会丢，没有收完包，下次接收，会继续上次继续接收，己端总是在收到ack时才会清除缓冲区内容。数据是可靠的，但是会粘包。

两种情况下会发生粘包。

发送端需要等缓冲区满才发送出去，造成粘包（发送数据时间间隔很短，数据了很小，会合到一起，产生粘包）

服务端

from socket import *

ip_port=('127.0.0.1',8080)

tcp_socket_server=socket(AF_INET,SOCK_STREAM)

tcp_socket_server.bind(ip_port)

tcp_socket_server.listen(5)

conn,addr=tcp_socket_server.accept()

data1=conn.recv(10)

data2=conn.recv(10)

print('----->',data1.decode('utf-8'))

print('----->',data2.decode('utf-8'))

conn.close()

客户端

import socket

BUFSIZE=1024

ip_port=('127.0.0.1',8080)

s=socket.socket(socket.AF_INET,socket.SOCK_STREAM)

res=s.connect_ex(ip_port)

s.send('hello'.encode('utf-8'))

s.send('feng'.encode('utf-8'))

接收方不及时接收缓冲区的包，造成多个包接收（客户端发送了一段数据，服务端只收了一小部分，服务端下次再收的时候还是从缓冲区拿上次遗留的数据，产生粘包）

服务端

from socket import *

ip_port=('127.0.0.1',8080)

tcp_socket_server=socket(AF_INET,SOCK_STREAM)

tcp_socket_server.bind(ip_port)

tcp_socket_server.listen(5)

conn,addr=tcp_socket_server.accept()

data1=conn.recv(2) #一次没有收完整

data2=conn.recv(10)#下次收的时候,会先取旧的数据,然后取新的

print('----->',data1.decode('utf-8'))

print('----->',data2.decode('utf-8'))

conn.close()

客户端

import socket

BUFSIZE=1024

ip_port=('127.0.0.1',8080)

s=socket.socket(socket.AF_INET,socket.SOCK_STREAM)

res=s.connect_ex(ip_port)

s.send('hello feng'.encode('utf-8'))

拆包的发生情况

当发送端缓冲区的长度大于网卡的MTU时，tcp会将这次发送的数据拆成几个数据包发送出去。

补充问题一：为何tcp是可靠传输，udp是不可靠传输

基于tcp的数据传输请参考另一篇文章http://www.cnblogs.com/linhaifeng/articles/5937962.html

tcp在数据传输时，发送端先把数据发送到自己的缓存中，然后协议控制将缓存中的数据发往对端，对端返回一个ack=1，发送端则清理缓存中的数据，对端返回ack=0，则重新发送数据，所以tcp是可靠的。

而udp发送数据，对端是不会返回确认信息的，因此不可靠。

补充问题二：send(字节流)和recv(1024)及sendall

recv里指定的1024意思是从缓存里一次拿出1024个字节的数据。

send的字节流是先放入己端缓存，然后由协议控制将缓存内容发往对端，如果待发送的字节流大小大于缓存剩余空间，那么数据丢失，用sendall就会循环调用send，数据不会丢失。

3.解决粘包的方法

为字节流加上自定义固定长度报头，报头中包含字节流长度，然后一次send到对端，对端在接收时，先从缓存中取出定长的报头，然后再取真实数据

struct模块

该模块可以把一个类型，如数字，转成固定长度的bytes

>>> struct.pack('i',1111111111111)

struct.error: 'i' format requires -2147483648 <= number <= 2147483647 #这个是范围

import json,struct

#假设通过客户端上传1T:1073741824000的文件a.txt

#为避免粘包,必须自定制报头

header={'file_size':1073741824000,'file_name':'/a/b/c/d/e/a.txt','md5':'8f6fbf8347faa4924a76856701edb0f3'} #1T数据,文件路径和md5值

#为了该报头能传送,需要序列化并且转为bytes

head_bytes=bytes(json.dumps(header),encoding='utf-8') #序列化并转成bytes,用于传输

#为了让客户端知道报头的长度,用struck将报头长度这个数字转成固定长度:4个字节

head_len_bytes=struct.pack('i',len(head_bytes)) #这4个字节里只包含了一个数字,该数字是报头的长度

#客户端开始发送

conn.send(head_len_bytes) #先发报头的长度,4个bytes

conn.send(head_bytes) #再发报头的字节格式

conn.sendall(文件内容) #然后发真实内容的字节格式

#服务端开始接收

head_len_bytes=s.recv(4) #先收报头4个bytes,得到报头长度的字节格式

x=struct.unpack('i',head_len_bytes)[0] #提取报头的长度

head_bytes=s.recv(x) #按照报头长度x,收取报头的bytes格式

header=json.loads(json.dumps(header)) #提取报头

#最后根据报头的内容提取真实的数据,比如

real_data_len=s.recv(header['file_size'])

s.recv(real_data_len)

关于struct的详细用法

#http://www.cnblogs.com/coser/archive/2011/12/17/2291160.html

__author__ = 'Linhaifeng'

import struct

import binascii

import ctypes

values1 = (1, 'abc'.encode('utf-8'), 2.7)

values2 = ('defg'.encode('utf-8'),101)

s1 = struct.Struct('I3sf')

s2 = struct.Struct('4sI')

print(s1.size,s2.size)

prebuffer=ctypes.create_string_buffer(s1.size+s2.size)

print('Before : ',binascii.hexlify(prebuffer))

# t=binascii.hexlify('asdfaf'.encode('utf-8'))

# print(t)

s1.pack_into(prebuffer,0,*values1)

s2.pack_into(prebuffer,s1.size,*values2)

print('After pack',binascii.hexlify(prebuffer))

print(s1.unpack_from(prebuffer,0))

print(s2.unpack_from(prebuffer,s1.size))

s3=struct.Struct('ii')

s3.pack_into(prebuffer,0,123,123)

print('After pack',binascii.hexlify(prebuffer))

print(s3.unpack_from(prebuffer,0))

服务端（自定制报头）

import socket,struct,json

import subprocess

phone=socket.socket(socket.AF_INET,socket.SOCK_STREAM)

phone.setsockopt(socket.SOL_SOCKET,socket.SO_REUSEADDR,1) #就是它，在bind前加

phone.bind(('127.0.0.1',8080))

phone.listen(5)

while True:

    conn,addr=phone.accept()

    while True:

        cmd=conn.recv(1024)

        if not cmd:break

        print('cmd: %s' %cmd)

        res=subprocess.Popen(cmd.decode('utf-8'),

                             shell=True,

                             stdout=subprocess.PIPE,

                             stderr=subprocess.PIPE)

        err=res.stderr.read()

        print(err)

        if err:

            back_msg=err

        else:

            back_msg=res.stdout.read()

        conn.send(struct.pack('i',len(back_msg))) #先发back_msg的长度

        conn.sendall(back_msg) #在发真实的内容

    conn.close()

客户端（自定制报头）

import socket,time,struct

s=socket.socket(socket.AF_INET,socket.SOCK_STREAM)

res=s.connect_ex(('127.0.0.1',8080))

while True:

    msg=input('>>: ').strip()

    if len(msg) == 0:continue

    if msg == 'quit':break

    s.send(msg.encode('utf-8'))

    l=s.recv(4)

    x=struct.unpack('i',l)[0]

    print(type(x),x)

    # print(struct.unpack('I',l))

    r_s=0

    data=b''

    while r_s < x:

        r_d=s.recv(1024)

        data+=r_d

        r_s+=len(r_d)

    # print(data.decode('utf-8'))

    print(data.decode('gbk')) #windows默认gbk编码

我们可以把报头做成字典，字典里包含将要发送的真实数据的详细信息，然后json序列化，然后用struck将序列化后的数据长度打包成4个字节（4个自己足够用了）

发送时：

先发报头长度

再编码报头内容然后发送

最后发真实内容

接收时：

先手报头长度，用struct取出来

根据取出的长度收取报头内容，然后解码，反序列化

从反序列化的结果中取出待取数据的详细信息，然后去取真实的数据内容

服务端：定制稍微复杂一点的报头

import socket,struct,json

import subprocess

phone=socket.socket(socket.AF_INET,socket.SOCK_STREAM)

phone.setsockopt(socket.SOL_SOCKET,socket.SO_REUSEADDR,1) #就是它，在bind前加

phone.bind(('127.0.0.1',8080))

phone.listen(5)

while True:

    conn,addr=phone.accept()

    while True:

        cmd=conn.recv(1024)

        if not cmd:break

        print('cmd: %s' %cmd)

        res=subprocess.Popen(cmd.decode('utf-8'),

                             shell=True,

                             stdout=subprocess.PIPE,

                             stderr=subprocess.PIPE)

        err=res.stderr.read()

        print(err)

        if err:

            back_msg=err

        else:

            back_msg=res.stdout.read()

        headers={'data_size':len(back_msg)}

        head_json=json.dumps(headers)

        head_json_bytes=bytes(head_json,encoding='utf-8')

        conn.send(struct.pack('i',len(head_json_bytes))) #先发报头的长度

        conn.send(head_json_bytes) #再发报头

        conn.sendall(back_msg) #在发真实的内容

    conn.close()

客户端

from socket import *

import struct,json

ip_port=('127.0.0.1',8080)

client=socket(AF_INET,SOCK_STREAM)

client.connect(ip_port)

while True:

    cmd=input('>>: ')

    if not cmd:continue

    client.send(bytes(cmd,encoding='utf-8'))

    head=client.recv(4)

    head_json_len=struct.unpack('i',head)[0]

    head_json=json.loads(client.recv(head_json_len).decode('utf-8'))

    data_len=head_json['data_size']

    recv_size=0

    recv_data=b''

    while recv_size < data_len:

        recv_data+=client.recv(1024)

        recv_size+=len(recv_data)

    print(recv_data.decode('utf-8'))

    #print(recv_data.decode('gbk')) #windows默认gbk编码