规则1:无论输入的字符串是何种状态,lxml包接收后一律转换成unicode,其处理结果也是unicodetype,输出到文件时,需要指定编码,转换成特定的stringtype状态.规则2:lxml用xpath解析时,如果网页文件申明的编码,与实际传递给lxml的编码不一致,将产生问题.情形1,网页编码gb2312,传递给lxml处理,ok情形2,网页编码gb2312,转换成unicode后,传递给lxml,ok情形3,网页编码gb2312,转换成utf-8后,传递给lxml,不能工作.此时需要…