整个抓取使用了 xpath.正则表达式.消息中间件.多线程调度框架(参考).xpath 是一种结构化网页元素选择器,支持列表和单节点数据获取,他的好处可以支持规整网页数据抓取.我们使用的是google插件 XPath Helper,这个玩意可以支持在网页点击元素生成xpath,就省去了自己去查找xpath的功夫,也便于未来做到所点即所得的功能. 写抓图脚本的时候常常因为xPath 而头疼.有了xPath Helper - Chrome 浏览器的一个插件,就能轻松获取HTML元素的xPath. 只…