1,引言 GooSeeker早在9年前就开始了Semantic Web领域的产品化,MS谋数台和DS打数机是其中两个产品.对web内容做结构化转换和语义处理的主要路线是 XML -> RDF -> Ontology Engineering.所以这两款产品的输出信息是XML格式的,实现第一步:结构化转换.单纯作为一个网页采集器来说,输出XML格式也有好处,这是一种标准格式,后续的数据处理可以很容易地接入,任意发挥. 在web集成和网站前端领域,json越来越普遍,在Scrapy架构中,Scrap…