DAY4-Python学习笔记

1.XML:

操作XML有两种方法：DOM和SAX

DOM:把整个XML读入内存，解析为树，因此占用内存大，解析慢，优点是可以任意遍历树的节点

SAX:是流模式，边读边解析，占用内存小，解析快，缺点是我们需要自己处理事件(优先考虑SAX)

SAX解析XML要三个函数：start_element，end_element和char_data：

<a href="/">python</a>

start_element：在读取<a href="/">时；

char_data：在读取python时；

end_element：在读取</a>时

from xml.parsers.expat import ParserCreate

class DefaultSaxHandler(object):

    def start_element(self, name, attrs):

        print('sax:start_element: %s, attrs: %s' % (name, str(attrs)))

    def end_element(self, name):

        print('sax:end_element: %s' % name)

    def char_data(self, text):

        print('sax:char_data: %s' % text)

xml = r'''<?xml version="1.0"?>

<ol>

    <li><a href="/python">Python</a></li>

    <li><a href="/ruby">Ruby</a></li>

</ol>

'''

handler = DefaultSaxHandler()

parser = ParserCreate()

parser.returns_unicode = True  #当设置为True时，返回的所有element名称和char_data都是unicode，处理国际化更方便。

parser.StartElementHandler = handler.start_element

parser.EndElementHandler = handler.end_element

parser.CharacterDataHandler = handler.char_data

parser.Parse(xml)

生成XML：拼接字符串

L = []

L.append(r'<?xml version="1.0"?>')

L.append(r'<root>')

L.append(encode('some & data'))

L.append(r'</root>')

return ''.join(L)

2.HTMLParser：

HTML本质上是XML的子集，HTMLParser用来解析HTML

from HTMLParser import HTMLParser

from htmlentitydefs import name2codepoint

class MyHTMLParser(HTMLParser):

    def handle_starttag(self, tag, attrs):

        print('<%s>' % tag)

    def handle_endtag(self, tag):

        print('</%s>' % tag)

    def handle_startendtag(self, tag, attrs):

        print('<%s/>' % tag)

    def handle_data(self, data):

        print('data')

    def handle_comment(self, data):

        print('<!-- -->')

    def handle_entityref(self, name):

        print('&%s;' % name)

    def handle_charref(self, name):

        print('&#%s;' % name)

parser = MyHTMLParser()

parser.feed('<html><head></head><body><p>Some <a href=\"#\">html</a> tutorial...<br>END</p></body></html>')

3.图形界面：

PIL：Python Imaging Library，已经是Python平台事实上的图像处理标准库了。PIL功能非常强大，但API却非常简单易用。

Tkinter：Python自带的库是支持Tk的Tkinter，Tk是一个图形库，支持多个操作系统，使用Tcl语言开发；Tk会调用操作系统提供的本地GUI接口，完成最终的GUI。

4.网络编程

TCP编程：

Socket：网络编程的一个抽象概念。一个Socket表示“打开了一个网络链接”，而打开一个Socket需要知道目标计算机的IP地址和端口号，再指定协议类型即可

大多数连接都是可靠的TCP连接；主动发起连接的叫客户端，被动响应连接的叫服务器。

创建一个基于TCP连接的Socket：

# 导入socket库:

import socket

# 创建一个socket:

s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)  #AF_INET指定使用IPv4协议，IPv6为AF_INET6

# 建立连接:

s.connect(('www.sina.com.cn', ))  #参数是一个tuple，包含地址和端口号。80端口是Web服务的标准端口

SMTP服务是25端口，FTP服务是21端口，小于1024的是Internet标准服务的端口

# 发送数据:

s.send('GET / HTTP/1.1\r\nHost: www.sina.com.cn\r\nConnection: close\r\n\r\n')

# 接收数据:

buffer = []

while True:

    # 每次最多接收1k字节:

    d = s.recv(1024) #recv(max)方法，一次最多接收指定的字节

    if d:

        buffer.append(d)

    else:

        break

data = ''.join(buffer)

# 关闭连接:

s.close()

把HTTP头和网页分离一下，把HTTP头打印出来，网页内容保存到文件：

header, html = data.split('\r\n\r\n', 1)

print header

# 把接收的数据写入文件:

with open('sina.html', 'wb') as f:

    f.write(html)

服务器:

服务器进程首先要绑定一个端口并监听来自其他客户端的连接。如果某个客户端连接过来了，服务器就与该客户端建立Socket连接，随后的通信就靠这个Socket连接了。

所以，服务器会打开固定端口（比如80）监听，每来一个客户端连接，就创建该Socket连接。由于服务器会有大量来自客户端的连接，所以，服务器要能够区分一个Socket连接是和哪个客户端绑定的。一个Socket依赖4项：服务器地址、服务器端口、客户端地址、客户端端口来唯一确定一个Socket。

但是服务器还需要同时响应多个客户端的请求，所以，每个连接都需要一个新的进程或者新的线程来处理，否则，服务器一次就只能服务一个客户端了。

接收客户端连接，把客户端发过来的字符串加上Hello再发回去:

#创建一个基于IPv4和TCP协议的Socket

s = socket.socket(socket.AF_INET, socket.SOCK_STREAM) #

# 监听端口:

s.bind(('127.0.0.1', 9999))

s.listen(5) #listen()方法开始监听端口

print 'Waiting for connection...'

#永久循环来接受来自客户端的连接

while True:

    # 接受一个新连接:

    sock, addr = s.accept() #accept()会等待并返回一个客户端的连接

    # 创建新线程来处理TCP连接:

    t = threading.Thread(target=tcplink, args=(sock, addr))

    t.start()

建新线程（或进程）来处理每个连接:,连接建立后，服务器首先发一条欢迎消息，然后等待客户端数据，并加上Hello再发送给客户端。如果客户端发送了exit字符串，就直接关闭连接。

def tcplink(sock, addr):

    print 'Accept new connection from %s:%s...' % addr

    sock.send('Welcome!')

    while True:

        data = sock.recv(1024)

        time.sleep(1)

        if data == 'exit' or not data:

            break

        sock.send('Hello, %s!' % data)

    sock.close()

    print 'Connection from %s:%s closed.' % addr

客户端程序：

s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)

# 建立连接:

s.connect(('127.0.0.1', 9999))

# 接收欢迎消息:

print s.recv(1024)

for data in ['Michael', 'Tracy', 'Sarah']:

    # 发送数据:

    s.send(data)

    print s.recv(1024)

s.send('exit')

s.close()

UDP编程:是面向无连接的协议