爬虫解析之css,xpath语法

一、xpath语法

xpath实例文档

<?xml version="1.0" encoding="ISO-8859-1"?>

<bookstore>

<book>

  <title lang="eng">Harry Potter</title>

  <price>29.99</price>

</book>

<book>

  <title lang="eng">Learning XML</title>

  <price>39.95</price>

</book>

</bookstore>

选取节点

XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。

下面列出了最有用的路径表达式：

实例

在下面的表格中，我们已列出了一些路径表达式以及表达式的结果：

谓语（Predicates）

谓语用来查找某个特定的节点或者包含某个指定的值的节点。

谓语被嵌在方括号中。

实例

在下面的表格中，我们列出了带有谓语的一些路径表达式，以及表达式的结果：

选取未知节点

XPath 通配符可用来选取未知的 XML 元素。

实例

在下面的表格中，我们列出了一些路径表达式，以及这些表达式的结果：

选取若干路径

通过在路径表达式中使用“|”运算符，您可以选取若干个路径。

实例

在下面的表格中，我们列出了一些路径表达式，以及这些表达式的结果：

Xpath轴
轴可以定义相对于当前节点的节点集

练习

选取所有 title

下面的例子选取所有 title 节点：

/bookstore/book/title

选取第一个 book 的 title

下面的例子选取 bookstore 元素下面的第一个 book 节点的 title：

/bookstore/book[1]/title

下面的例子选取 bookstore 元素下面的第一个 book 节点的 title：

xml.setProperty("SelectionLanguage","XPath");

xml.selectNodes("/bookstore/book[1]/title");


选取所有价格

下面的例子选取 price 节点中的所有文本：

/bookstore/book/price/text()

选取价格高于 35 的 price 节点

下面的例子选取价格高于 35 的所有 price 节点：

/bookstore/book[price>35]/price

选取价格高于 35 的 title 节点

下面的例子选取价格高于 35 的所有 title 节点：

/bookstore/book[price>35]/title

二、CSS语法

提取内容

1) 按照审查元素的写法不一定正确，要按照网页源码的才行

因为不一样，网页源码才是你看到的

2) 浏览器有自带的复制xpath功能，firefox下载firebug插件

3) xpath有c的速度，所以按照[@class=""]准确性较高

爬虫实战xpath和css

class DrugInfo(object):

    """

    提取的药品信息：

        self.drug_name                      #药品名称

        self.category                       #药品类型

        self.cite                           #国家标准

        self.company                        #生产厂家

        self.address                        #厂家地址

        self.license_number                 #批准文号

        self.approval_date                  #批准日期

        self.form_drug                      #剂型

        self.spec                           #规格

        self.store                          #储存方法

        self.period_valid                   #有效期限

        self.attention_rank                 #关注度排名

        self.indication                     #适应症

        self.component                      #成分

        self.function                       #功能主治

        self.usage_dosage                   #用法用量

        self.contraindication               #禁忌症

        self.special_population             #特殊人群用药

        self.indications                    #适应症概况

        self.is_or_not_medical_insurance    #是否属于医保

        self.is_or_not_infections           #是否有传染性

        self.related_symptoms               #相关症状

        self.related_examination            #相关检查

        self.adverse_reaction               #不良反应

        self.attention_matters              #注意事项

        self.interaction                    #药物相互作用

        self.pharmacological_action         #药理作用

        self.revision_date                  #说明书修订日期

        self.drug_use_consult               #用药咨询

        self.drug_use_experience            #用药经验

    """

    def __init__(self,drug):

        drug_dir = os.path.join(drug_path, drug)

        self.drug_name = re.findall('(.*?)\[\d+\]',drug)[0]

        self.drug_id = re.findall('.*?\[(\d+)\].*',drug)[0]

        self.drug_dir = drug_dir

        self.drug_use_experience = ''

        self.drug_use_consult = ''

        self.file_list = os.listdir(self.drug_dir)

        self.logger = Logger()

        self.result = True

        self.dispatch()

        if self.drug_use_consult.__len__()==0:self.drug_use_consult = '无'

        if self.drug_use_experience.__len__()==0:self.drug_use_experience = '无'

    def dispatch(self):

        for file in self.file_list:

            if file.endswith('药品概述.html'):

                self.drug_summary(self.file_path(file))

            elif file.endswith('详细说明书.html'):

                self.drug_instruction(self.file_path(file))

            elif re.match('.*?用药咨询.*',file):

                self.drug_consultation(self.file_path(file))

            elif re.match('.*?用药经验.*',file):

                self.drug_experience(self.file_path(file))

            else:

                self.result = False

                break

    def file_path(self,file):

        return os.path.join(self.drug_dir,file)

    def read_file(self,file):

        with open(file,'r') as f:

            html = f.read()

        return html

    def drug_summary(self,file):

        """药品概况"""

        html = self.read_file(file)

        selector = Selector(text=html)

        self.category = selector.xpath('//div[@class="t1"]/cite[1]/span/text()').extract_first()    #药品类型

        if not self.category:

            self.category = '未知'

        self.cite = selector.xpath('//div[@class="t1"]/cite[2]/span/text()').extract_first()    #国家标准

        if not self.cite:

            self.cite = '未知'

        try:

            self.company = selector.css('.t3 .company a::text').extract()[0]    #生产厂家

        except IndexError as e:

            self.company = '未知'

        try:

            self.address = selector.css('.t3 .address::text').extract()[0]  #厂家地址

        except IndexError as e:

            self.address = '未知'

        try:

            self.license_number = selector.xpath('//ul[@class="xxs"]/li[1]/text()').extract_first().strip() #批准文号

        except AttributeError:

            self.license_number = '未知'

        try:

            self.approval_date = selector.xpath('//ul[@class="xxs"]/li[2]/text()').extract_first().strip()  #批准日期

        except AttributeError:

            self.approval_date = '未知'

        try:

            self.form_drug = selector.xpath('//ul[@class="showlis"]/li[1]/text()').extract_first().strip()  #剂型

        except AttributeError:

            self.form_drug = '未知'

        try:

            self.spec = selector.xpath('//ul[@class="showlis"]/li[2]/text()').extract_first().strip()       #规格

        except AttributeError:

            self.spec = '未知'

        try:

            self.store = selector.xpath('//ul[@class="showlis"]/li[3]/text()').extract_first().strip().strip('。')     #储存方法

        except AttributeError:

            self.store = '未知'

        try:

            self.period_valid = selector.xpath('//ul[@class="showlis"]/li[4]/text()').extract_first().strip('。').replace('\n','')   #有效期限

        except AttributeError:

            self.period_valid = '未知'

        self.attention_rank = selector.css('.guanzhu cite font::text').extract_first()  #关注度排名

        if not self.attention_rank:

            self.attention_rank = '未知'

        self.indication = ','.join(selector.css('.whatsthis li::text').extract())   #适应症

        if self.indication == '':

            self.indication = '未知'

        usage_dosage = selector.css('.ps p:nth-child(3)::text').extract_first()   #用法用量

        if usage_dosage:

            self.usage_dosage = re.sub('<.*?>','',usage_dosage).strip().replace('\n','')  #禁忌症

        else:

            self.usage_dosage = '未知'

        indications = selector.css('#diseaseintro::text').extract_first()  #适应症概况

        if indications:

            self.indications = re.sub('<.*?>','',indications).strip().replace('\n','')  #禁忌症

        else:

            self.indications = '未知'

        try:

            self.is_or_not_medical_insurance = selector.css('.syz_cons p:nth-child(2)::text').extract_first().split('：')[1] #是否属于医保

        except AttributeError as e:

            self.is_or_not_medical_insurance = '未知'

        try:

            self.is_or_not_infections = selector.css('.syz_cons p:nth-child(3)::text').extract_first().split('：')[1].strip()  #是否有传染性

        except AttributeError as e:

            self.is_or_not_infections = '未知'

        self.related_symptoms = ','.join(selector.css('.syz_cons p:nth-child(4) a::text').extract()[:-1])      #相关症状

        if len(self.related_symptoms) == 0:

            self.related_symptoms = '未知'

        self.related_examination = ','.join(selector.css('.syz_cons p:nth-child(5) a::text').extract()[:-1])    #相关检查

        if len(self.related_examination) == 0:

            self.related_examination = '未知'

    def drug_instruction(self,file):

        """详细说明书"""

        html = self.read_file(file)

        selector = Selector(text=html)

        #注：不同药品之间网页结构有差别，提取的时候应注意

        component = selector.xpath('//dt[text()="【成份】"]/following::*[1]').extract_first()

        if not component:

            self.component = '未知'

        else:

            self.component = re.sub('<.*?>','',component).strip()       #成分

        contraindication= selector.xpath('//dt[text()="【禁忌】"]/following::*[1]').extract_first()

        if contraindication:

            self.contraindication = re.sub('<.*?>','',contraindication).strip().replace('\n','')  #禁忌症

        else:

            self.contraindication = '未知'

        function = selector.xpath('//dt[text()="【功能主治】"]/following::*[1]').extract_first()

        if function:

            self.function = re.sub('<.*?>','',function).strip()         #功能主治

        else:

            self.function = '未知'

        try:

            self.adverse_reaction = selector.xpath('//dt[text()="【不良反应】"]/following::*[1]/p/text()').extract_first().strip('。')  #不良反应

        except AttributeError as e:

            try:

                self.adverse_reaction = selector.xpath('//dt[text()="【不良反应】"]/following::*[1]/text()').extract_first().strip('。')  #不良反应

                self.adverse_reaction = re.sub('<.*?>','',self.adverse_reaction).strip().replace('\n','')  #注意事项

            except AttributeError:

                self.adverse_reaction = '未知'

        attention_matters = selector.xpath('//dt[text()="【注意事项】"]/following::*[1]').extract_first()

        if attention_matters:

            self.attention_matters = re.sub('<.*?>','',attention_matters).strip().replace('\n','')  #注意事项

        else:

            self.attention_matters = '未知'

            self.logger.log('{}[{}]-注意事项为空'.format(self.drug_name,self.drug_id),False)

        try:

            self.interaction = selector.xpath('//dt[text()="【药物相互作用】"]/following::*[1]/p/text()').extract_first()  #药物相互作用

            self.interaction = re.sub('<.*?>','',self.interaction).strip().replace('\n','')  #注意事项

        except TypeError:

            self.interaction = '未知'

        try:

            self.pharmacological_action = selector.xpath('//dt[text()="【药理作用】"]/following::*[1]/p/text()').extract_first()  #药理作用

            self.pharmacological_action = re.sub('<.*?>','',self.pharmacological_action).strip().replace('\n','')

        except TypeError:

            self.pharmacological_action = '未知'

        try:

            self.revision_date = selector.xpath('//dt[text()="【说明书修订日期】"]/following::*[1]/text()').extract_first().strip()  #说明书修订日期

        except AttributeError:

            self.revision_date = '未知'

        try:

            self.special_population = selector.xpath('//dt[text()="【特殊人群用药】"]/following::*[1]/text()').extract_first()  #特殊人群用药

            self.special_population = re.sub('<.*?>','',self.special_population).strip().replace('\n','')  #特殊人群用药

        except TypeError:

            self.special_population = '未知'

    def drug_consultation(self,file):

        """用药咨询"""

        html = self.read_file(file)

        selector = Selector(text=html)

        drug_use_consult = selector.css('.dpzx_con .zx p::text').extract()

        drug_use_consult = ''.join(drug_use_consult)

        drug_use_consult = re.sub('<.*?>','',drug_use_consult).strip().replace('\n','')  #用药咨询

        self.drug_use_consult += drug_use_consult

    def drug_experience(self,file):

        """用药经验"""

        html = self.read_file(file)

        selector = Selector(text=html)

        drug_use_experience = selector.css('.pls_box .pls_mid p::text').extract()

        drug_use_experience = ''.join(drug_use_experience)

        drug_use_experience = re.sub('<.*?>','',drug_use_experience).strip().replace('\n','')  #用药经验

        self.drug_use_experience += drug_use_experience.strip()

xapth的高级用法

爬虫解析之css,xpath语法的更多相关文章

Python爬虫利器三之Xpath语法与lxml库的用法
前面我们介绍了 BeautifulSoup 的用法,这个已经是非常强大的库了,不过还有一些比较流行的解析库,例如 lxml,使用的是 Xpath 语法,同样是效率比较高的解析方法.如果大家对 Beau ...
爬虫解析库：XPath
XPath XPath,全称 XML Path Language,即 XML 路径语言,它是一门在 XML 文档中查找信息的语言.最初是用来搜寻 XML 文档的,但同样适用于 HTML 文档的 ...
12.Python爬虫利器三之Xpath语法与lxml库的用法
LXML解析库使用的是Xpath语法: XPath 是一门语言 XPath可以在XML文档中查找信息 XPath支持HTML XPath通过元素和属性进行导航 XPath可以用来提取信息 XPath比 ...
python爬虫（8）--Xpath语法与lxml库
1.XPath语法 XPath 是一门在 XML 文档中查找信息的语言.XPath 可用来在 XML 文档中对元素和属性进行遍历.XPath 是 W3C XSLT 标准的主要元素,并且 XQuery ...
使用Dom4j的xPath解析xml文件------xpath语法
官方语法地址:http//www.w3school.com.cn/xpath/index.asp xpath使用路径表达式来选取xml文档中的节点或节点集.节点是通过沿着路径(path)或者步(ste ...
Xpath语法-爬虫(一)
前言这一章节主要讲解Xpath的基础语法,学习如何通过Xpath获取网页中我们想要的内容;为我们的后面学习Java网络爬虫基础准备工作. 备注:此章节为基础核心章节,未来会在网络爬虫的数据解析环节经 ...
python爬虫的页面数据解析和提取/xpath/bs4/jsonpath/正则(2)
上半部分内容链接 : https://www.cnblogs.com/lowmanisbusy/p/9069330.html 四.json和jsonpath的使用 JSON(JavaScript Ob ...
网页解析库-Xpath语法
网页解析库简介除了正则表达式外,还有其他方便快捷的页面解析工具如:lxml (xpath语法) bs4 pyquery等 Xpath 全称XML Path Language, 即XML路径语言, ...
Xpath re bs4 等爬虫解析器的性能比较
xpath re bs4 等爬虫解析器的性能比较本文原始地址:https://sitoi.cn/posts/23470.html 思路测试网站地址:http://baijiahao.baidu.c ...

随机推荐

转：sql server锁知识及锁应用
sql server锁(lock)知识及锁应用提示:这里所摘抄的关于锁的知识有的是不同sql server版本的,对应于特定版本时会有问题. 一关于锁的基础知识 (一). 为什么要引入锁当多个用 ...
Scheme来实现八皇后问题(2)
版权申明:本文为博主窗户(Colin Cai)原创,欢迎转帖.如要转贴,必须注明原文网址 http://www.cnblogs.com/Colin-Cai/p/9790466.html 作者:窗户 Q ...
【Teradata SQL】FALLBACK表改为NO FALLBACK表
FALLBACK表在数据库中会留存双份数据,增加了数据可用性,但浪费了存储空间.变更表属性语句如下: alter table tab_fallback ,no fallback;
TensorRT&Sample&Python[fc_plugin_caffe_mnist]
本文是基于TensorRT 5.0.2基础上,关于其内部的fc_plugin_caffe_mnist例子的分析和介绍. 本例子相较于前面例子的不同在于,其还包含cpp代码,且此时依赖项还挺多.该例子展 ...
SpringBoot整合RabbitMQ-消息可靠性投递
本系列是学习SpringBoot整合RabbitMQ的练手,包含服务安装,RabbitMQ整合SpringBoot2.x,消息可靠性投递实现等三篇博客. 学习路径:https://www.imooc. ...
IntelliJ IDEA编译项目报错 "xxx包不存在" 或 "找不到符号"
简介在维护一个新的项目时出现在的这个情况,项目构建时一直报错"xxx包找不到",但是引用的包和引用的类都是存在的,一开始以为是项目问题,还问了做过的同事,第一次搞好了,但是换了分 ...
html2canvas截屏在H5微信移动端踩坑，ios和安卓均可显示
1.最近在做移动端开发,框架是vue,一产品需求是,后台返回数据,通过qrcode.js(代码比较简单,百度上已经很多了)生成二维码,然后通过html2canvas,将html元素转化为canvas, ...
linux安装tomcat部署web项目
我用的是如下图的两个软件,连接linux服务器. 其中WinSCp是传输文件用的,SecureCRT是用来输入命令的. 1.复制tomcat到指定目录(可复制到你想要的目录下),命令如下: cp /路 ...
Powershell同时使用可选强制参数
支持所有PS版本在下面脚本函数中让可选参数和强制参数必须同时使用. 下面演示当可选参数出现,也必须使用这个强制参数. function Connect-Somewhere { [CmdletBind ...
vagrant之常用操作
基本操作: 查看版本: vagrant -v 初始化: vagrant init 启动虚拟机: vagrant up 关闭虚拟机: vagrant halt 重启虚拟机: vagrant reload ...