python 操作xml、html文件

简介

在一些项目中可能会使用到解析html文件，尤其是爬虫相关的，需要解析获取到的html内容，通常我们会使用lxml模块去进行html文件的解析。

html文件

当前存在一个简单的html

<!DOCTYPE html>

<html lang="en">

<head>

    <meta charset="UTF-8">

    <meta http-equiv="X-UA-Compatible" content="IE=edge">

    <meta name="viewport" content="width=device-width, initial-scale=1.0">

    <title>Document</title>

</head>

<body>

    <div class="test">

        <ul class="ul-list">

            <li class="li-test">li-text</li>

            <li class="li-test">li-text2</li>

            <li class="li-test">li-text3</li>

            <li class="li-test">li-text4</li>

        </ul>

        <ul class="ul-list2">

            <li class="li-test">li-text</li>

            <li class="li-test">li-text2</li>

            <li class="li-test">li-text3</li>

            <li class="li-test">li-text4</li>

        </ul>

    </div>

</body>

</html>

获取html中的部分标签的属性及内容

from lxml import etree

import pathlib

html_path = pathlib.Path(__file__).parent.joinpath("test.html")

html = etree.parse(html_path, parser=etree.HTMLParser())

# xpath定位元素，此处为获取div class属性为test下面的所有class属性为ul-list的ul下面的class属性为li-test的所有li元素

content = html.xpath("//div[@class='test']/ul[@class='ul-list']/li[@class='li-test']")

for item in content:

    # 获取标签的名称

    print(item.tag)

    # 获取标签中间的文本内容

    print(item.text)

    # 获取标签的所有属性，以字典形式返回

    print(item.attrib)

li

li-text

{'class': 'li-test'}

li

li-text2

{'class': 'li-test'}

li

li-text3

{'class': 'li-test'}

li

li-text4

{'class': 'li-test'}

xml文件

存在如下xml文件

<component name="ProjectCodeStyleConfiguration">

  <code_scheme name="Project" version="173">

    <HTMLCodeStyleSettings>

      <option name="HTML_SPACE_INSIDE_EMPTY_TAG" value="true" />

      <option name="HTML_ENFORCE_QUOTES" value="true" />

    </HTMLCodeStyleSettings>

    <JSCodeStyleSettings version="0">

      <option name="FORCE_SEMICOLON_STYLE" value="true" />

      <option name="SPACE_BEFORE_FUNCTION_LEFT_PARENTH" value="false" />

      <option name="FORCE_QUOTE_STYlE" value="true" />

      <option name="ENFORCE_TRAILING_COMMA" value="Remove" />

      <option name="SPACES_WITHIN_OBJECT_LITERAL_BRACES" value="true" />

      <option name="SPACES_WITHIN_IMPORTS" value="true" />

    </JSCodeStyleSettings>

    <TypeScriptCodeStyleSettings version="0">

      <option name="FORCE_SEMICOLON_STYLE" value="true" />

      <option name="SPACE_BEFORE_FUNCTION_LEFT_PARENTH" value="false" />

      <option name="FORCE_QUOTE_STYlE" value="true" />

      <option name="ENFORCE_TRAILING_COMMA" value="Remove" />

      <option name="SPACES_WITHIN_OBJECT_LITERAL_BRACES" value="true" />

      <option name="SPACES_WITHIN_IMPORTS" value="true" />

    </TypeScriptCodeStyleSettings>

    <VueCodeStyleSettings>

      <option name="INTERPOLATION_NEW_LINE_AFTER_START_DELIMITER" value="false" />

      <option name="INTERPOLATION_NEW_LINE_BEFORE_END_DELIMITER" value="false" />

    </VueCodeStyleSettings>

    <codeStyleSettings language="HTML">

      <option name="SOFT_MARGINS" value="100" />

      <indentOptions>

        <option name="CONTINUATION_INDENT_SIZE" value="4" />

      </indentOptions>

    </codeStyleSettings>

    <codeStyleSettings language="JavaScript">

      <option name="SOFT_MARGINS" value="100" />

    </codeStyleSettings>

    <codeStyleSettings language="TypeScript">

      <option name="SOFT_MARGINS" value="100" />

    </codeStyleSettings>

    <codeStyleSettings language="Vue">

      <option name="SOFT_MARGINS" value="100" />

      <indentOptions>

        <option name="INDENT_SIZE" value="4" />

        <option name="TAB_SIZE" value="4" />

      </indentOptions>

    </codeStyleSettings>

  </code_scheme>

</component>

获取xml中的部分标签的属性及内容

from lxml import etree

import pathlib

xml_path = pathlib.Path(__file__).parent.joinpath("test.xml")

html = etree.parse(xml_path, parser=etree.XMLParser())

content = html.xpath(

    "/component[@name='ProjectCodeStyleConfiguration']/ \

    code_scheme[@name]/HTMLCodeStyleSettings//option"

)

for item in content:

    # 获取标签的名称

    print(item.tag)

    # 获取标签中间的文本内容

    print(item.text)

    # 获取标签的所有属性，以字典形式返回

    print(item.attrib)

option

None

{'name': 'HTML_SPACE_INSIDE_EMPTY_TAG', 'value': 'true'}

option

None

{'name': 'HTML_ENFORCE_QUOTES', 'value': 'true'}

与html解析类似，主要是对于xpath语法的熟悉

补充

以上均需要xpath语法支撑，详细可见:xpath语法

python 操作xml、html文件的更多相关文章

使用python操作XML增删改查
使用python操作XML增删改查什么是XML? XML 指可扩展标记语言(EXtensible Markup Language) XML 是一种标记语言,很类似 HTML XML 的设计宗旨是传输 ...
python操作xml文件
一.什么是xml? xml即可扩展标记语言,它可以用来标记数据.定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言. abc.xml <?xml version="1.0&q ...
三十二、python操作XML文件
'''XML:模块 xml总结 1.解析 str 文件 tree,ElementTree,type root,Element,type2.操作 Element: tag,text,find,iter, ...
如何用python操作XML文件
备注: 基于python3 背景:在统计覆盖率的时候希望绕属性name为test的节点具体实现源码如下所示,基本都是基于节点属性操作的,当然也就可以基于tag等其他标签去做,可根据需要调整 from ...
Python 操作 MS Excel 文件
利用 Python 对 Excel 文件进行操作需要使用第三方库: openpyxl,可执行 pip install openpyxl 进行安装 1. 导入 openpyxl 模块导入 openpy ...
python操作haproxy.cfg文件
需求 1.查输入:www.oldboy.org 获取当前backend下的所有记录 2.新建输入: arg = { 'bakend': 'www.oldboy.org', 'record':{ ' ...
python操作excel表格文件--使用xlrd模块
原文: http://www.cnblogs.com/lhj588/archive/2012/01/06/2314181.html 引言: 实际工作中,可能很多情况下都会用到excel表格,像如果不需 ...
python操作上级子文件
. └── folder ├── data │ └── data.txt └── test1 └── test2 └── test.py import os '***获取当前目录***'print o ...
Python实现XML的操作
本文从以下两个方面, 用Python实现XML的操作: 一. minidom写入XML示例1 二. minidom写入XML示例2 三. ElementTree写入/修改示例四. ElementTr ...

随机推荐

Mysql数据库基础_复习思维导图
Mysql复习的一个小总结,用xmind写的.(字数没有都不给我发博客) 下面是一些备注子查询 MySQL子查询称为内部查询,而包含子查询的查询称为外部查询. 子查询可以在使用表达式的任何地方使用, ...
sklearn机器学习实战-KNN
KNN分类 KNN是惰性学习模型,也被称为基于实例的学习模型简单线性回归是勤奋学习模型,训练阶段耗费计算资源,但是预测阶段代价不高首先工作是把label的内容进行二值化(如果多分类任务,则考虑On ...
JS 的 new 是个啥？
JS 的 new 是个啥? 本文写于 2019 年 11 月 25 日 new关键字在很多语言里面,总是用于把类实例化,可是 JS 之前就没有"类"这个概念呀. 那 JS 的new ...
【多线程】创建线程方式二：实现Runnable接口
创建线程方式二:实现Runnable接口代码示例: /** * @Description 实现Runnable接口,重写run方法,执行线程需要丢入Runnable接口实现类,调用start方法 * ...
组织：EFF
电子前沿基金会(Electronic Frontier Foundation), 简称EFF,是一个非营利性的国际法律组织.该组织成立于1990年,创始人包括Mitch Kapor(Lotus公司的总 ...
PostgreSQL(一) 编译安装运行
原创,如转发需注明出处. 多年没写博客,一直用的个人笔记软件,最近准备阅读PostgreSQL源码,故记录.(这两年PostgreSQL数据库在某些环境下是比较火的,原因想必大家都清楚.) Postg ...
vs2022+resharper C++ = 拥有一个不输clion的代码体验
这篇文章详细讲一下resharper C++在vs2022中的配置,让他拥有跟clion一样好用的代码补全功能. 为什么clion写代码体验很好好用为啥还要用vs呢,因为网上很多教程都是基于visua ...
Linux系列之linux访问windows文件
Linux永久挂载windows共享文件 Linux系统必须安装samba-client Linux服务器必须能访问到Windows的共享文件服务的(445端口) 1.Windows共享文件 2.测试 ...
六张图详解LinkedList 源码解析
LinkedList 底层基于链表实现,增删不需要移动数据,所以效率很高.但是查询和修改数据的效率低,不能像数组那样根据下标快速的定位到数据,需要一个一个遍历数据. 基本结构 LinkedList 是 ...
Xshell缺失mfc110u.dll文件解决方案（有下载链接）
解决方案把下面两个文件都下载安装就可以了. 1.vcredist_x86.exe链接: https://pan.baidu.com/s/1njbNHdjqH6x34GQvj4BTBg提取码: pwq ...

python 操作xml、html文件

简介

html文件

当前存在一个简单的html

获取html中的部分标签的属性及内容

xml文件

存在如下xml文件

获取xml中的部分标签的属性及内容

补充

python 操作xml、html文件的更多相关文章

随机推荐

热门专题