XPath XPath,全称 XML Path Language,即 XML 路径语言,它是一门在 XML 文档中查找信息的语言.最初是用来搜寻 XML 文档的,但同样适用于 HTML 文档的搜索.所以在做爬虫时完全可以使用 XPath 做相应的信息抽取. 1. XPath 概览 XPath 的选择功能十分强大,它提供了非常简洁明了的路径选择表达式.另外,它还提供了超过 100 个内建函数,用于字符串.数值.时间的匹配以及节点.序列的处理等,几乎所有想要定位的节点都可以用 XPa…
import requests from queue import Queue import threading from lxml import etree import re import csv class Producer(threading.Thread): headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440…