Item Pipeline简介 Item管道的主要责任是负责处理有蜘蛛从网页中抽取的Item,他的主要任务是清洗.验证和存储数据.当页面被蜘蛛解析后,将被发送到Item管道,并经过几个特定的次序处理数据.每个Item管道的组件都是有一个简单的方法组成的Python类.他们获取了Item并执行他们的方法,同时他们还需要确定的是是否需要在Item管道中继续执行下一步或是直接丢弃掉不处理. 项目管道的执行过程 清理HTML数据 验证解析到的数据(检查Item是否包含必要的字段) 检查是否是重复数据(如…