lua 标签解析器


概述


一个类xml标签解析函数,将标签解析成Lua中的表结构
它可以用来解析简单xml结构,可以作为RichLabel控件的字符串解析组件(其实它现在就是这么用的;-))

原理


使用lua的模式匹配, 使用了模式串%b<>
%b用来匹配对称的字符。常写为 %bxy,x和y是任意两个不同的字符。 x作为匹配的开始,y作为匹配的结束。
比如,%b<> 匹配以 < 开始,以 > 结束的字符串

要解析的字符串

hello world
<div>hello world</div>
你好
<div fontName='nihao' fontColor=#ffccdd>hello,world</div>
<div></div>

代码基本结构

-- 迭代所有格式为<xxx>的标签(包含了标签头和标签尾巴)
local index =
for beginindex, endindex in function() return string.find(text, "%b<>", index) end do
local label = string.sub(text, beginindex, endindex)
index = endindex +
end

上面获得的beginindex和endindex分别是标签的在字符串中开始和结束的index值 但并不区分标签头和标签尾,
还得判断标签到底是标签头还是标签尾。

-- 获得当前标签,字符串截取出来
local label = string.sub(text, beginindex, endindex)
-- 判断当前标签是不是以'</'开头,若是以'</'开头则代表为标签尾巴,否则为标签头
if string.find(label, "^</") then
else
end

至此已经可以在正确的从字符串中提取所有的标签,并且区分出标签头和标签尾了

处理标签匹配问题
为了支持标签嵌套包含,我们得用一个栈记录标签头,要不然嵌套好几层标签不好判断内容被哪个标签修饰。
具体做法:
+ 若当前标签是标签头则将栈顶标签,到新标签头之间内容用栈顶标签修饰,并且将当前标签入栈
+ 若当前标签是标签尾则将栈顶标签,到新标签尾之间内容用栈顶标签修饰,并将栈顶标签出栈
简单来说:
栈顶标签修饰当前的内容(新标签和栈顶标签之间的内容) ,然后根据新标签是头还是尾决定入栈或出栈

我们没有考虑特殊情况,若字符串最完成不是标签那最外层处理会存在点问题。
好吧,那我们可以直接在字符串外层加上一组标签

-- 检测开头和结尾是否为标签 <xxx>即为标签
if not string.find(text, "^%b<>.+%b<>$") then
-- 在最外层包装一个标签,便于解析时的统一处理,不用处理没有包装标签的情况
text = table.concat({LABEL_DIV_BEGIN, text, LABEL_DIV_END})
end

现在我们解析出了内容和修饰内容的标签,离成功不远了!!

解析标签头
这应该是最简单的一部,但又是最繁琐的一步。
因为标签头内容很少了,格式也确定了,只要提取出标签名和属性的key-value对就可以了
不过提取属性key-value对比较繁琐,要考虑value的种种可能,当然我考虑的并不全面也没打算那么全面,只要功能够用就可以了

第一步
解析出标签名,简单的模式匹配

local labelnameindex1, labelnameindex2 = string.find(label, "%w+")

因为我们要解析的串大多是手写,为了减小书写难度,标签名属性名最好不区分大小写

-- 获得标签名称
local labelname = string.sub(label, labelnameindex1, labelnameindex2)
labelname = string.lower(labelname)

第二步
获取属性,还是模式匹配,匹配形式为 propertyname=propertyvalue(等号两边不能存在空格)
propertyname 要求就是字母或者数字的组合
propertyvalue 要求就比较多, 因为颜色使用的是web的标记形式#FF33AA, 而且字符串也可能是'括起来表示。
%w: 与任何字母/数字配对
%s: 与空白字符配对

-- value要求非空白字符并且不含有'>'字符的一个单词
string.gmatch(labelhead, "%w+%=[^%s%>]+")

gmatch会返回一个迭代器,每次运行都返回一个匹配串,所以我们这么写

for property in string.gmatch(labelhead, "%w+%=[^%s%>]+") do
end

在循环中我们可以处理每个属性对字符串无非就是根据=位置分离出属性名和属性值,属性名不需要处理,
把属性值做一下处理然后放到一个table中就好了,处理如下:

local equalmarkpos = string.find(property, "=")
-- 分离属性名和属性值
local propertyname = string.sub(property, , equalmarkpos-)
local propertyvalue = string.sub(property, equalmarkpos+, string.len(property))
-- 属性名转为小写
propertyname = string.lower(propertyname)
-- 属性值处理
local continue = false
-- 1.检测是否为字符串(单引号或者双引号括起来)
local beginindex, endindex = string.find(propertyvalue, "['\"].+['\"]")
if beginindex then
propertyvalue = string.sub(propertyvalue, beginindex+, endindex-)
continue = true
end
-- 2.检测是否为布尔值
if not continue then
local propertyvalue_lower = string.lower(propertyvalue)
if propertyvalue_lower == BOOLEAN_TRUE then
propertyvalue = true
continue = true
elseif propertyvalue_lower == BOOLEAN_FALSE then
propertyvalue = false
continue = true
end
end
-- 3.检测是否为数字
if not continue then
local propertyvalue_number = tonumber(propertyvalue)
if propertyvalue_number then
propertyvalue = propertyvalue_number
continue = true
end
end
-- 若以上都不是,则默认直接为字符串
labelparams[propertyname] = propertyvalue

顺便吐槽一下lua没有关键字continue,造成程序嵌套层次变深

最后完整代码在我的github上面叫labelparser,lua5.1解析器可以直接运行,无需任何依赖

------------------------------------------------------------------------------------------------

14-11-20:更新v1.0.1

  1. 标签解析器原来没有支持自闭合标签,例如:<img src='path/img.png' />
  2. 去除setfenv函数的使用,这样lua5.2也可以直接使用了

今天晚上突然兴起决定添加上自闭合的支持,其实也很简单,首先主循环发生了改变:

local beginindex, endindex = string.find(text, "%b<>", )
while beginindex do
-- 获得当前标签
local label = string.sub(text, beginindex, endindex) -- 检测字符串是否以"</"开头
if string.find(label, "^</") then
-- 标签尾
_M.disposeLabelTail(labelheadstack, parsedtable, text, label, beginindex, endindex)
elseif string.find(label, "/>$") then -- 检测以'/>'结尾
-- 自闭合标签
_M.disposeLabelSelfClosing(labelheadstack, parsedtable, text, label, beginindex, endindex)
else-- 检测到标签头
_M.disposeLabelHead(labelheadstack, parsedtable, text, label, beginindex, endindex)
end
-- 获得下一个标签的位置
beginindex, endindex = string.find(text, "%b<>", endindex)
end

主循环这里添加了一个自闭合标签的判断,然后相关的标签处理都提取出去了,主要有两点原因:

  1. 自闭合标签的处理其实是使用了标签头和标签尾处理一样的代码,为了代码重用
  2. 三个分支再加上嵌套会使主循环嵌套过深,逻辑不清晰

参数着实不少,不过逻辑清晰了很多,主循环结构一目了然(本来也没多少行代码;-))

自闭合标签为什么加在中间呢?

自闭合标签的条件,不能以'</'开头,并且要以'/>'结尾,所以加在中间比较好判断这个条件

下面看看自闭合标签的处理,更加简单

-- 处理自闭合标签
function _M.disposeLabelSelfClosing(labelheadstack, parsedtable, text, label, beginindex, endindex)
_M.disposeLabelHead(labelheadstack, parsedtable, text, label, beginindex, endindex)
_M.disposeLabelTail(labelheadstack, parsedtable, text, label, beginindex, endindex, true)
end

直接调用处理标签头和标签尾的函数,就可以了

因为处理自闭合标签和处理一对儿有些相似之处,可以直接使用处理一对儿标签方法直接处理自闭合标签

(虽然这样处理自闭合标签过程有些冗余,但是无需专门的代码处理自闭合标签)

首先,碰到自闭合标签之后,要将自闭合标签之前内容使用栈顶标签头修饰

然后标签头可以入栈,然后又直接是标签头出栈,修饰栈顶标签到当前标签直接内容,由于两个标签是同一个标签,

它们之间内容为空,直接处理这个标签属性即可

这样其实就差不多了,具体代码还是参照github

lua标签解析器的更多相关文章

  1. spring源码深度解析— IOC 之 自定义标签解析

    概述 之前我们已经介绍了spring中默认标签的解析,解析来我们将分析自定义标签的解析,我们先回顾下自定义标签解析所使用的方法,如下图所示: 我们看到自定义标签的解析是通过BeanDefinition ...

  2. Spring源码阅读笔记05:自定义xml标签解析

    在上篇文章中,提到了在Spring中存在默认标签与自定义标签两种,并且详细分析了默认标签的解析,本文就来分析自定义标签的解析,像Spring中的AOP就是通过自定义标签来进行配置的,这里也是为后面学习 ...

  3. SpringMVC 视图和视图解析器&表单标签

    视图和视图解析器 请求处理方法执行完成后,最终返回一个 ModelAndView 对象.对于那些返回 String,View 或 ModeMap 等类型的处理方法,Spring MVC 也会在内部将它 ...

  4. SpringMVC(三)-- 视图和视图解析器、数据格式化标签、数据类型转换、SpringMVC处理JSON数据、文件上传

    1.视图和视图解析器 请求处理方法执行完成后,最终返回一个 ModelAndView 对象 对于那些返回 String,View 或 ModeMap 等类型的处理方法,SpringMVC 也会在内部将 ...

  5. 【swupdate文档 四】SWUpdate:使用默认解析器的语法和标记

    SWUpdate:使用默认解析器的语法和标记 介绍 SWUpdate使用库"libconfig"作为镜像描述的默认解析器. 但是,可以扩展SWUpdate并添加一个自己的解析器, ...

  6. SpringMVC入门案例及请求流程图(关于处理器或视图解析器或处理器映射器等的初步配置)

    SpringMVC简介:SpringMVC也叫Spring Web mvc,属于表现层的框架.Spring MVC是Spring框架的一部分,是在Spring3.0后发布的 Spring结构图 Spr ...

  7. HTML解析器HtmlAgilityPack的一些使用总结(C#)

    哎~本来这些总结是作为使用时的快速备注,但是用不上了.实际应用当中HtmlAgilityPack的可靠性不太稳定,一主要问题是:-> 一些字符会出现乱码或者变成'?',如韩语字符.由于我是已经有 ...

  8. 爬虫笔记(四)------关于BeautifulSoup4解析器与编码

    前言:本机环境配置:ubuntu 14.10,python 2.7,BeautifulSoup4 一.解析器概述 如同前几章笔记,当我们输入: soup=BeautifulSoup(response. ...

  9. pull解析器: 反序列化与序列化

    pull解析器:反序列化 读取xml文件来获取一个对象的数据 import java.io.FileInputStream; import java.io.IOException; import ja ...

随机推荐

  1. 详解使用CSS3绘制矩形、圆角矩形、圆形、椭圆形、三角形、弧

    1.矩形 绘制矩形应该是最简单的了,直接设置div的宽和高,填充颜色,效果就出来了. 2.圆角矩形 绘制圆角矩形也很简单,在1的基础上,在使用css3的border-radius,即可. 3.圆 根据 ...

  2. Google Guava学习笔记——简介

    Google Guava是什么东西?首先要追溯到2007年的“Google Collections Library”项目,它提供对Java 集合操作的工具类.后来Guava被进化为Java程序员开发必 ...

  3. Python 读写excel数据

    读取excel 文件的数据 import csv with open('D:/mystuff/11.csv','r') as f: reader = csv.reader(f) for row in ...

  4. 关于Office 2013的几个问题

    最近在阅读一些pdf的材料,想对其中做一些批注,但是PDF文档做批准比较麻烦,而且市场上的几个pdfToWord也不是很好用. 偶然的机会发现,使用office2013可以直接打开pdf文件,所以赶紧 ...

  5. 【Ubuntu】NAT配置

    1.简介 2.配置 1.简介 NAT(Network Address Translation,网络地址转换)是将IP 数据包头中的IP 地址转换为另一个IP 地址的过程.在实际应用中,NAT 主要用于 ...

  6. bzoj 1028 暴力枚举判断

    昨天梦到这道题了,所以一定要A掉(其实梦到了3道,有两道记不清了) 暴力枚举等的是哪张牌,将是哪张牌,然后贪心的判断就行了. 对于一个状态判断是否为胡牌,1-n扫一遍,然后对于每个牌,先mod 3, ...

  7. 【Ural】【1519】Formula 1

    插头DP 本题为CDQ<基于连通性状态压缩的动态规划的……(我忘了)>里的例题!(嗯就是这样……) 先膜拜一下ccy大神……http://blog.sina.com.cn/s/blog_5 ...

  8. MySQL 5.7 虚拟列 (virtual columns)

    参考资料: Generated Columns in MySQL 5.7.5 MySQL 5.7新特性之Generated Column(函数索引) MySQL 5.7原生JSON格式支持 Gener ...

  9. Javascript 性能优化的一点技巧

    把优秀的编程方式当成一种习惯,融入到日常的编程当中.下图是今天想到的一点Javascript 性能优化的技巧,分享一下,抛砖引玉.

  10. Level2行情和传统行情的区别

    序号 Level2行情 传统行情 Level 2特点 Level 2行情优势 1 每3秒钟发送一次行情信息 每6秒钟发送一次 行情显示速度更快 投资者更及时地获得交易信息 2 证券逐笔成交明细信息 证 ...