xpath笔记

1.使用lxml.etree.parse()解析html文件，该方法默认使用的是“XML”解析器，所以如果碰到不规范的html文件时就会解析错误，报错代码如下：

lxml.etree.XMLSyntaxError: Opening and ending tag mismatch: meta line 3 and head, line 3, column 87

解决办法：
自己创建html解析器，增加parser参数

from lxml import etree

parser = etree.HTMLParser(encoding="utf-8") #自定义解析器

htmlelement = etree.parse("baidu.html", parser=parser)

print(etree.tostring(htmlelement, encoding="utf-8").decode("utf-8")）

总结：

　　1.xpath方法只能对html文档使用，将字符串转为html对象的方法是etree.HTML(text),加载html文档的方法是etree.prase(.html)

　　2.先使用//*[@id=""]定位到大概位置，再使用/和//精确到要提取的位置，最后使用text()提取文本或@提取属性

　　3.提取到信息后的对象是列表，先转换为字符串类型，然后再用re.sub()方法清楚多余字符

　　4.灵活使用eval函数来使字符串变为列表

#!/usr/bin/env.python

#._*_ coding:utf-8 _*_

from lxml import etree

import requests

import re

def spider(url):

    # url = 'https://movie.douban.com/subject/26394152/'

    # html = etree.HTML(text) 将文本转换为html格式，自动补全标签

    res =requests.request('GET', url)

    return res.text

def write_file(text):

    with open("Bumblebee.html", "wb") as f:

        f.write(text.encode('utf-8'))

def xpath_use():

    html = etree.parse("./Bumblebee.html", etree.HTMLParser(encoding="utf-8")) #使用etree打开html文档,如果加载失败，则添加后面句话

    # //*[@id="results"]/tbody[2]/tr[1]

    # select = " //*[@id='celebrities']/ul//li/div/span[1]/a/text() |" \

    #        " //*[@id='celebrities']/ul//li/div/span[2]/text() " # 选择演员和对应角色

    # select = "//*[@id='recommendations']/div//dl/dd/a/text()" # 和此电影相似

    select = "//*[@class='comment-item']/div/h3/span[2]/child::*/text()" # child::*选择当前节点的所有子元素

    data = html.xpath(select)

    data = str(data) # 转换为字符串方便清洗

    # data = data.split("，")  # 以逗号分词

    data = re.sub(r"\s*","",data) # 替换多余空字符

    data = re.sub(r"\\n","",data)

    data = eval(data) # eval相当于把括号打开，不加eval的时候[]仅是字符，不是列表

    print(data)

    for i in data:

        print(i)

if __name__ == '__main__':

    xpath_use()

xpath笔记的更多相关文章

xpath 笔记
from lxml import etree info = f.read() # requests.get().text # print(info) selector=etree.HTML(info ...
python中使用XPath笔记
XPath在Python的爬虫学习中,起着举足轻重的地位,对比正则表达式 re两者可以完成同样的工作,实现的功能也差不多,但XPath明显比re具有优势,在网页分析上使re退居二线. XPath介绍: ...
XML学习笔记6——XPath语言
在上一篇笔记的结尾,我们接触到了两个用于选择XML文档中特定范围的元素<selector>和<field>,这两个元素的取值都是XPath表达式,那么,什么是XPath呢?简单 ...
Xpath学习笔记
最近复习自己上一年的课本,想起来刚学那个时候想做一个写日记的软件. 想不如做,用控制台瞎写了一个,一做就成了,没什么bug,期间使用Xpath来读数据,所以就稍微学了一下. 学习过程就这样做一点笔记, ...
JAVA与DOM解析器提高（DOM/SAX/JDOM/DOM4j/XPath）学习笔记二
要求必备知识 JAVA基础知识.XML基础知识. 开发环境 MyEclipse10 资料下载源码下载 sax.dom是两种对xml文档进行解析的方法(没有具体实现,只是接口),所以只有它们是无 ...
Scrapy:学习笔记(1)——XPath
Scrapy:学习笔记(1)——XPath 1.快速开始 XPath是一种可以快速在HTML文档中选择并抽取元素.属性和文本的方法. 在Chrome,打开开发者工具,可以使用$x工具函数来使用XPat ...
XPath路径表达式笔记（转载）
简单说,xpath就是选择XML文件中节点的方法. 所谓节点(node),就是XML文件的最小构成单位,一共分成7种. - element(元素节点)- attribute(属性节点)- text ( ...
笔记-爬虫-XPATH
笔记-爬虫-XPATH 1. xpath XPath是W3C的一个标准.它最主要的目的是为了在XML1.0或XML1.1文档节点树中定位节点所设计.目前有XPath1.0和XPath2.0两 ...
Python爬虫：Xpath语法笔记
一.选取节点常用的路劲表达式: 表达式描述实例 nodename 选取nodename节点的所有子节点 xpath(‘//div’) 选取了div节点的所有子节点 / 从根节点选取 xpat ...

随机推荐

ssh动态端口转发
ssh本地和远程端口转发都需要固定的应用服务器IP和端口,但是很多情况下,应用的端口繁多逐个转发效率不高,而且一些应用使用不固定的端口,经常跳着使用端口,一些网站还不支持IP直接访问,这导致ssh本地 ...
bpm 学习笔记一
名词解释: DC: Development Component WD:Web Dynpro Keep DC Local for Now
Mysql 用户创建与删除（基础1）
Mysql是最流行的关系型数据库管理系统之一,由瑞典MySQL AB公司开发,目前属于Oracle公司. MySQL是一种关联数据库管理系统,关联数据库将数据保存在不同的表中,而不是将所有数据放在一个 ...
Python全栈开发列表, 元组数据类型知识运用及操作 range知识
一.列表 1.什么是列表? 列表是一个可变类型,由 [ ] 表示,每一项元素用逗号隔开.列表能够装大量的数据,可以装对象的对象. 2.列表的索引和切片. 列表和字符串一样,也有索引和切片.只不过列表 ...
Ext.require 的作用(转)
Ext.require:用到哪些组件,然后就预先加载,多余不用加载的组件在实际环境中我们都会用 ext-all.js, 但是在开发调试的时候,我们使用 require 的话它可以动态加载单个的 js ...
leetcode 链表类型题总结
链表测试框架示例: // leetcodeList.cpp : 定义控制台应用程序的入口点.vs2013 测试通过 // #include "stdafx.h" #include ...
pta l2-4（这是二叉搜索树吗？）
题目链接:https://pintia.cn/problem-sets/994805046380707840/problems/994805070971912192 题意:给定n以及n个整数,问该序列 ...
198. House Robber(Array; DP)
You are a professional robber planning to rob houses along a street. Each house has a certain amount ...
转：WEB前端性能优化规则
14条规则摘自<High Performance Web Sites>,本文地址 1.减少Http请求使用图片地图使用CSS Sprites 合并JS和CSS文件这个是由于浏览器对同 ...
HDU 3691 Nubulsa Expo(全局最小割)
Problem DescriptionYou may not hear about Nubulsa, an island country on the Pacific Ocean. Nubulsa i ...

xpath笔记

xpath笔记的更多相关文章

随机推荐

热门专题