业余玩爬虫时,由原先的原生写法 改为 scrapy框架了,使用自带的selector时,xpath配合正则来抓取回复数和阅读数的时候,遇到的小问题,mark下. 首先获取到 我需要的数据块,(我用scrapy shell调试的) 对应的html文档是: 关于 这个 空格  被爬成了\xa0的问题,我找了一些资料,这里说下原因: \xa0 叫做不间断空白符,英文描述non-breaking space,阻止在此处自动换行和阻止多个空格被压缩成一个,属于 latin1 (ISO/IEC_88…