有没有被网页编码抓狂,怎么转都是乱码. 通过查看requests源代码,才发现是库本身历史原因造成的. 作者是严格http协议标准写这个库的,<HTTP权威指南>里第16章国际化里提到,如果HTTP响应中Content-Type字段没有指定charset,则默认页面是'ISO-8859-1'编码. 这处理英文页面当然没有问题,但是中文页面,特别是那些不规范的页面,就会有乱码了! 比如分析jd.com 页面为gbk编码,问题就出在这里. chardet库监测编码却是GB2312,两种编码虽然兼容…