前言

关于处理一些html的东西。

正文

假设有一段html文本:

<?xml version="1.0" encoding="UTF-8"?>
<!PUBLIC "-//OASIS//DTD DITA Topic//EN" "topic.dtd">
<topic id="lorem">
<title>Lorem Ipsum</title>
<body>
<p>Lorem ipsum dolor sit amet, consectetur adipiscing elit. Cras non commodo mi. Donec cursus condimentum dignissim. Nulla ac ipsum vel nisi placerat posuere. Curabitur eleifend aliquam rhoncus. Quisque sodales tempor metus commodo vehicula. Suspendisse potenti. Aliquam at tortor risus. Curabitur eget mi ut magna fringilla auctor. Fusce nibh sem, facilisis id volutpat eu, convallis in nibh. Maecenas mauris risus, gravida sed tempor sit amet, aliquam quis lectus. Mauris id metus vel lacus facilisis cursus. Aenean venenatis elementum eros, nec sollicitudin enim vulputate sed. Morbi eget neque ac dui ullamcorper ullamcorper. In convallis ligula eu purus rutrum bibendum.</p>
<p>Lorem ipsum dolor sit amet, consectetur adipiscing elit:</p>
<ul>
<li>Lorem ipsum dolor sit amet</li>
<li>Lorem ipsum dolor sit amet</li>
<li>Lorem ipsum dolor sit amet</li>
</ul>
<p>Lorem ipsum dolor sit amet, consectetur adipiscing elit. Cras non commodo mi. Donec cursus condimentum dignissim. Nulla ac ipsum vel nisi placerat posuere. Curabitur eleifend aliquam rhoncus. Quisque sodales tempor metus commodo vehicula. Suspendisse potenti. Aliquam at tortor risus. Curabitur eget mi ut magna fringilla auctor. Fusce nibh sem, facilisis id volutpat eu, convallis in nibh. Maecenas mauris risus, gravida sed tempor sit amet, aliquam quis lectus. Mauris id metus vel lacus facilisis cursus. Aenean venenatis elementum eros, nec sollicitudin enim vulputate sed. Morbi eget neque ac dui ullamcorper ullamcorper. In convallis ligula eu purus rutrum bibendum.</p>
<p>Lorem ipsum dolor sit amet, consectetur adipiscing elit. Cras non commodo mi. Donec cursus condimentum dignissim. Nulla ac ipsum vel nisi placerat posuere. Curabitur eleifend aliquam rhoncus. Quisque sodales tempor metus commodo vehicula. Suspendisse potenti. Aliquam at tortor risus. Curabitur eget mi ut magna fringilla auctor. Fusce nibh sem, facilisis id volutpat eu, convallis in nibh. Maecenas mauris risus, gravida sed tempor sit amet, aliquam quis lectus. Mauris id metus vel lacus facilisis cursus. Aenean venenatis elementum eros, nec sollicitudin enim vulputate sed. Morbi eget neque ac dui ullamcorper ullamcorper. In convallis ligula eu purus rutrum bibendum.</p>
</body>
</topic>

如何匹配标签:

<[_a-zA-Z][^>]*>



思路很简单,根据命名规则来的。

如果要匹配前后标签:

未完

后续

正则表达针对html(九)的更多相关文章

  1. HttpGet协议与正则表达

    使用HttpGet协议与正则表达实现桌面版的糗事百科   写在前面 最近在重温asp.net,找了一本相关的书籍.本书在第一章就讲了,在不使用浏览器的情况下生成一个web请求,获取服务器返回的内容.于 ...

  2. 正则表达示 for Python3

    前情提要 从大量的文字内容中找到自己想要的东西,正则似乎是最好的方法.也是写爬虫不可缺少的技能.所以,别墨迹了赶紧好好学吧! 教程来自http://www.runoob.com/python3/pyt ...

  3. 使用HttpGet协议与正则表达实现桌面版的糗事百科

    写在前面 最近在重温asp.net,找了一本相关的书籍.本书在第一章就讲了,在不使用浏览器的情况下生成一个web请求,获取服务器返回的内容.于是在网上搜索关于Http请求相关的资料,发现了很多资料都是 ...

  4. Javascript正则构造函数与正则表达字面量&&常用正则表达式

    本文不讨论正则表达式入门,即如何使用正则匹配.讨论的是两种创建正则表达式的优劣和一些细节,最后给出一些常用正则匹配表达式. Javascript中的正则表达式也是对象,我们可以使用两种方法创建正则表达 ...

  5. js正则表达test、exec和match的区别

    test的用法和exec一致,只不过返回值是 true false. 以前用js很少用到js的正则表达式,即使用到了,也是诸如邮件名称之类的判断,网上代码很多,很少有研究,拿来即用. 最近开发遇到一些 ...

  6. Python之面向对象和正则表达(代数运算和自动更正)

    面向对象 一.概念解释 面对对象编程(OOP:object oriented programming):是一种程序设计范型,同时也是一种程序开发的方法,实现OOP的程序希望能够在程序中包含各种独立而又 ...

  7. JS写法 数值与字符串的相互转换 取字符中的一部分显示 正则表达规则

    http://www.imooc.com/article/15885 正则表达规则 <script type="text/javascript"> </scrip ...

  8. shell正则表达

    shell正则表达 .*和.?的比较: 比如说匹配输入串A: 101000000000100 使用 1.*1 将会匹配到1010000000001,匹配方法:先匹配至输入串A的最后, 然后向前匹配,直 ...

  9. python 正则表达提取方法 (提取不来的信息print不出来 加个输出type 再print信息即可)

    1,正则表达提取 (findall函数提取) import re a= "<div class='content'>你大爷</div>"x=re.finda ...

  10. grep 正则表达

    常见的 grep 正则表达参数 -c # 显示匹配到得行的数目,不显示内容 -h # 不显示文件名 -i # 忽略大小写 -l # 只列出匹配行所在文件的文件名 -n # 在每一行中加上相对行号 -s ...

随机推荐

  1. 【夏令时】用@JsonFormat(pattern = “yyyy-MM-dd“)注解,出生日期竟然年轻了一天

    前言 缘由 用@JsonFormat(pattern = "yyyy-MM-dd")注解,出生日期竟然年轻了一天 艺术源于生活,bug源于开发. 起因是艰苦奋战一个月,测试及验收都 ...

  2. Java 关于抽象类匿名子类

    1 package com.bytezreo.abstractTest; 2 3 /** 4 * 5 * @Description Abstract 关键字使用 6 * @author Bytezer ...

  3. Linux 系统编程从入门到进阶 学习指南

    引言 大家好,我是小康 ,今天我们来学习一下 Linux 系统编程相关的知识.Linux 系统编程是连接高级语言和硬件的桥梁,它对深入理解计算机系统至关重要.无论你是打算构建高性能服务器还是开发嵌入式 ...

  4. BKP备份寄存器&RTC实时时钟

    UNIX时间戳    time.h 三条路,上面主要作为系统时钟,中间的作为RTC时钟,下面的作为看门狗的时钟 与RTC有关的外部晶振(主电源断电不停)一般都i是32.768KHZ   2^15=32 ...

  5. gitee 流水线 定时触发 不能用,不能白嫖了

    gitee 流水线 定时触发 不能用,不能白嫖了 白研究半天了,只好回去拿centos服务器 搞定时任务了

  6. 回声消除AEC(Acoustic Echo Cancellation)概括介绍及基本原理分析

    回声消除的基本概念   回音消除(Acoustic Echo Cancelling)是透过音波干扰方式消除麦克风与喇叭因空气产生回受路径(feedback path)而产生的杂音.通俗一点来说,回声消 ...

  7. 从零开始写 Docker(六)---实现 mydocker run -v 支持数据卷挂载

    本文为从零开始写 Docker 系列第六篇,实现类似 docker -v 的功能,通过挂载数据卷将容器中部分数据持久化到宿主机. 完整代码见:https://github.com/lixd/mydoc ...

  8. SQL注入详细讲解概括—宽字节注入

    SQL注入详细讲解概括-宽字节注入 1.宽字节注入原理 2.宽字节注入方法 一.宽字节注入原理 What is 宽字节? 字符大小为一个字节时为窄字节 字符大小为两个及以上的字节为宽字节 英文26个字 ...

  9. 数字政府!3DCAT实时云渲染助推上海湾区数字孪生平台

    数字孪生,是一种利用物理模型.传感器数据.运行历史等信息,在虚拟空间中构建实体对象或系统的精确映射,从而实现对其全生命周期的仿真.优化和管理的技术.数字孪生可以应用于各个领域,如工业制造.智慧城市.医 ...

  10. 没想到三天10KStar的营销利器MediaCrawler开源作者已经删库了

    前言 一站式社交平台数据抓取利器,带你玩转小红书.抖音.快手.B站和微博数据分析 不经意间,来查看MediaCrawler仓库源码,发现作者已经删库了.看来是领奖了.才几天不到的时间Star数量已经直 ...