今天在用scrapy爬某个网站的数据,其中DOM解析我用的是BeautifulSoup,速度上没有XPath来得快,不过因为用了习惯了,所以一直用的bs,版本是bs4 不过在爬取过程中遇到了一些问题,其中一个是Unicode转码问题,这也算是python中一个著名问题了. 我遇到的算是BeautifulSoup中的一个奇葩bug吧,在网页中经常会有   这种标记,称为 non-breaking space character, 本来这个应该是忽略的,但在bs中会把这个符号 转义成为一个u