前言

关于处理一些html的东西。

正文

假设有一段html文本:

<?xml version="1.0" encoding="UTF-8"?>
<!PUBLIC "-//OASIS//DTD DITA Topic//EN" "topic.dtd">
<topic id="lorem">
<title>Lorem Ipsum</title>
<body>
<p>Lorem ipsum dolor sit amet, consectetur adipiscing elit. Cras non commodo mi. Donec cursus condimentum dignissim. Nulla ac ipsum vel nisi placerat posuere. Curabitur eleifend aliquam rhoncus. Quisque sodales tempor metus commodo vehicula. Suspendisse potenti. Aliquam at tortor risus. Curabitur eget mi ut magna fringilla auctor. Fusce nibh sem, facilisis id volutpat eu, convallis in nibh. Maecenas mauris risus, gravida sed tempor sit amet, aliquam quis lectus. Mauris id metus vel lacus facilisis cursus. Aenean venenatis elementum eros, nec sollicitudin enim vulputate sed. Morbi eget neque ac dui ullamcorper ullamcorper. In convallis ligula eu purus rutrum bibendum.</p>
<p>Lorem ipsum dolor sit amet, consectetur adipiscing elit:</p>
<ul>
<li>Lorem ipsum dolor sit amet</li>
<li>Lorem ipsum dolor sit amet</li>
<li>Lorem ipsum dolor sit amet</li>
</ul>
<p>Lorem ipsum dolor sit amet, consectetur adipiscing elit. Cras non commodo mi. Donec cursus condimentum dignissim. Nulla ac ipsum vel nisi placerat posuere. Curabitur eleifend aliquam rhoncus. Quisque sodales tempor metus commodo vehicula. Suspendisse potenti. Aliquam at tortor risus. Curabitur eget mi ut magna fringilla auctor. Fusce nibh sem, facilisis id volutpat eu, convallis in nibh. Maecenas mauris risus, gravida sed tempor sit amet, aliquam quis lectus. Mauris id metus vel lacus facilisis cursus. Aenean venenatis elementum eros, nec sollicitudin enim vulputate sed. Morbi eget neque ac dui ullamcorper ullamcorper. In convallis ligula eu purus rutrum bibendum.</p>
<p>Lorem ipsum dolor sit amet, consectetur adipiscing elit. Cras non commodo mi. Donec cursus condimentum dignissim. Nulla ac ipsum vel nisi placerat posuere. Curabitur eleifend aliquam rhoncus. Quisque sodales tempor metus commodo vehicula. Suspendisse potenti. Aliquam at tortor risus. Curabitur eget mi ut magna fringilla auctor. Fusce nibh sem, facilisis id volutpat eu, convallis in nibh. Maecenas mauris risus, gravida sed tempor sit amet, aliquam quis lectus. Mauris id metus vel lacus facilisis cursus. Aenean venenatis elementum eros, nec sollicitudin enim vulputate sed. Morbi eget neque ac dui ullamcorper ullamcorper. In convallis ligula eu purus rutrum bibendum.</p>
</body>
</topic>

如何匹配标签:

<[_a-zA-Z][^>]*>



思路很简单,根据命名规则来的。

如果要匹配前后标签:

未完

后续

正则表达针对html(九)的更多相关文章

  1. HttpGet协议与正则表达

    使用HttpGet协议与正则表达实现桌面版的糗事百科   写在前面 最近在重温asp.net,找了一本相关的书籍.本书在第一章就讲了,在不使用浏览器的情况下生成一个web请求,获取服务器返回的内容.于 ...

  2. 正则表达示 for Python3

    前情提要 从大量的文字内容中找到自己想要的东西,正则似乎是最好的方法.也是写爬虫不可缺少的技能.所以,别墨迹了赶紧好好学吧! 教程来自http://www.runoob.com/python3/pyt ...

  3. 使用HttpGet协议与正则表达实现桌面版的糗事百科

    写在前面 最近在重温asp.net,找了一本相关的书籍.本书在第一章就讲了,在不使用浏览器的情况下生成一个web请求,获取服务器返回的内容.于是在网上搜索关于Http请求相关的资料,发现了很多资料都是 ...

  4. Javascript正则构造函数与正则表达字面量&&常用正则表达式

    本文不讨论正则表达式入门,即如何使用正则匹配.讨论的是两种创建正则表达式的优劣和一些细节,最后给出一些常用正则匹配表达式. Javascript中的正则表达式也是对象,我们可以使用两种方法创建正则表达 ...

  5. js正则表达test、exec和match的区别

    test的用法和exec一致,只不过返回值是 true false. 以前用js很少用到js的正则表达式,即使用到了,也是诸如邮件名称之类的判断,网上代码很多,很少有研究,拿来即用. 最近开发遇到一些 ...

  6. Python之面向对象和正则表达(代数运算和自动更正)

    面向对象 一.概念解释 面对对象编程(OOP:object oriented programming):是一种程序设计范型,同时也是一种程序开发的方法,实现OOP的程序希望能够在程序中包含各种独立而又 ...

  7. JS写法 数值与字符串的相互转换 取字符中的一部分显示 正则表达规则

    http://www.imooc.com/article/15885 正则表达规则 <script type="text/javascript"> </scrip ...

  8. shell正则表达

    shell正则表达 .*和.?的比较: 比如说匹配输入串A: 101000000000100 使用 1.*1 将会匹配到1010000000001,匹配方法:先匹配至输入串A的最后, 然后向前匹配,直 ...

  9. python 正则表达提取方法 (提取不来的信息print不出来 加个输出type 再print信息即可)

    1,正则表达提取 (findall函数提取) import re a= "<div class='content'>你大爷</div>"x=re.finda ...

  10. grep 正则表达

    常见的 grep 正则表达参数 -c # 显示匹配到得行的数目,不显示内容 -h # 不显示文件名 -i # 忽略大小写 -l # 只列出匹配行所在文件的文件名 -n # 在每一行中加上相对行号 -s ...

随机推荐

  1. 你想要一个简单的 MQ 吗?(最简单的那种)

    FolkMQ 一个简单的消息中间件(全球最简单的那种,要比谁都简单!).追世间简单为何物,可叫我生死相许! 面向简单编程 1) 启动服务 docker run -p 18602:18602 -p 86 ...

  2. (转载)Transfer-Encoding:chunked详解

    原文链接:Transfer-Encoding:chunked详解_transfer-encoding: chunked_公众号:流花鬼的博客-CSDN博客 概念 分块传输编码(Chunked tran ...

  3. leaflet 领图 一个本地的类似百度地图工具-不连外网

    官网:https://leafletjs.com/ 二次开发手册-中文:http://112.91.146.167:9090/api/ 领图(一款给力的开源离线地图解决方案) https://blog ...

  4. 数据湖-Hudi/IceBerg

  5. 23_FFmpeg像素格式转换

    简介 前面使用 SDL 显示了一张YUV图片以及YUV视频.接下来使用Qt中的QImage来实现一个简单的 YUV 播放器,查看QImage支持的像素格式,你会发现QImage仅支持显示RGB像素格式 ...

  6. python高级技术(进程二)

    一 进程对象及其他方法 '''一台计算机上面运行着很多进程,那么计算机是如何区分并管理这些进程服务端的呢?计算机会给每一个运行的进程分配一个PID号如何查看 windows电脑 进入cmd输入task ...

  7. 从 Linux 内核角度探秘 JDK MappedByteBuffer

    本文涉及到的内核源码版本为: 5.4 ,JVM 源码为:OpenJDK17,RocketMQ 源码版本为:5.1.1 在之前的文章<一步一图带你深入剖析 JDK NIO ByteBuffer 在 ...

  8. 三维模型OBJ格式轻量化压缩在大规模场景的加载和渲染的作用分析

    三维模型OBJ格式轻量化压缩在大规模场景的加载和渲染的作用分析 OBJ格式是一种常用的三维模型文件格式,它存储了三维模型的几何信息和纹理坐标等相关属性.在大规模场景中加载和渲染三维模型时,OBJ格式的 ...

  9. Web Audio API 第2章 完美的播放时机控制

    Web Audio API 第2章 完美的播放时机控制 相较于 标签, Web Audio API 拥有低延迟精确定时模型. 低延时对于游戏或交互式应用来说非常重要,因为交互操作时要快速响应给用户的听 ...

  10. PyQt5报错:This application failed to start because no Qt platform plugin could be initialized

    问题背景: 想使用PyQt5来创建一个可视化窗口,先在pycharm里面安装PyQt5,版本为5.14.0.之后在代码中调用此包:from PyQt5 import QtCore, QtGui, Qt ...