.  词法分析

1.1  词法记号及属性

词法记号、模式、词法单元

记号名       词法单元列举         模式的非形式描述

if         if            字符i,f

for        for              字符f,o,r

relation      <,<=,=,...         <或<=或=或...

id        sum,count,D5      由字母开头的字母数字串

number      3.1,10,2.8 E12      任何数值常数

literal       “seg.error”        引号“和”之间任意不含引号本身的字符串

历史上词法定义中的一些问题

---- 忽略空格带来的困难

  DO 8 I = 3.75   等同于  DO8I=3.75

  DO 8 I = 3,75

---- 关键字不保留

  IF THEN THEN THEN=ELSE; ELSE ...

---- 关键字、保留字和标准标识符的区别

  保留字是语言预先确定了含义的词法单元

  标准标识符也是预先确定了含义的标识符,但程序可以重新声明它的含义

词法记号的属性

position = initial + rate * 60 的记号和属性值:

<id,指向符号表中position条目的指针>

<assign_op>

<id,指向符号表中initial条目的指针>

<add_op>

<id,指向符号表中rate条目的指针>

<mul_op>

<number,整数值60>

词法错误

---- 词法分析器对源程序采取非常局部的观点

---- 例:难以发现下面的错误

  fi(a == f(x))....

---- 在实数是“数字串.数字串”格式写,可以发现下面的错误

  123.x

---- 紧急方式的错误恢复

  删掉当前若干个字符,直到能读出正确的记号

---- 错误修补

  进行增、删、替换和交换字符的尝试

1.2  词法记号的描述与识别

串和语言

---- 字母表:符号的有限集合,例如:Σ = {0,1}

---- 串:符号的有穷序列,例如:0100,ε

---- 语言:字母表上的一个串集

  {ε,0,00,000,...},{ε},Φ

---- 句子:属于语言的串

串的运算

---- 连接(积) xy, se = es = s

---- 幂  s0为e,si为si-1s(i>0)

语言的运算

---- 并运算:L∪M = {s|s∈L或s∈M}

---- 连接:LM={st|s∈L且t∈M}

----幂运算:L0是{e},Li是Li-1L

---- 闭包:L*=L0∪L1∪L2∪...

---- 正闭包:L+=L1∪L2∪...

正规式:

  正规式用来表示简单的语言,叫做正规集

正规式        定义的语言        备注

e          {e}

a          {a}            a∈Σ

(r)|(s)        L(r)∪L(s)         r和s是正规式

(r)(s)        L(r)∪L(s)         r和s是正规式

(r)*         (L(r))*          r是正规式

(r)         L(r)            r是正规式

((a)(b)*)|(c)可以写成ab*|c,如果按照定义了优先级可以按照这种形式写出。

其他例子:

---- a|b    {a,b}

----- (a|b)(a|b)  {aa,ab,ba,bb}

----- aa|ab|ba|bb  {aa,ab,ba,bb}

---- a*    由字母a构成的所有串集

---- (a|b)*  有a和b构成的所有串集

*表示重复若干次

正规定义

---- 对正规式的命名,使表示简介

?---可以有可以没有,+表示可选择。

ws,white space ,若干个空白符

转换图

1.3  有限自动机

不确定的有限自动机NFA

1.4  确定的有限自动机DFA

NFA到DFA的变化

一种算法示意如下:

例题:

本章总结:

  * 词法单元。词法分析器扫描源程序并输出一个由词法单元组成的序列。这些词法通常会逐个传送给语法分析器。有些词法单元只包含一个词法单元名,而其他词法单元还有一个关联的词法值,它给出了在输入中找到的这个词法单元的某个实例的有关信息。

  * 词素。每次词法分析器向语法分析器返回一个词法单元时,该词法单元都有一个关联的词素,即该词法单元所代表的输入字符串。

  * 缓冲技术。为了判断下一个词素在何处结束,常常需要预先扫描输入字符。因此,词法分析器往往需要对输入字符进行缓冲。可以使用两个技术来加速输入扫描过程:循环使用一对缓冲区,以及在每个缓冲区末尾放置特殊的哨兵标记符。该字符可以通过词法分析器已经达到了缓冲区末尾。

  * 模式。每个词法单元都有一个模式,它描述了什么样的字符序列可以组成对应的词法单元的词素。那些和一个给定模式匹配的字的集合称为该模式的语言。

  * 正则表达式。这些表达式常用于描述模式。正则表达式是从单个字符开始,通过并7连接、Kleene闭包、“重复多次”等运算符构造得到。

  * 正则定义。多个语言的复杂集合,比如用以描述一个程序设计语言所有词法单元的多个模式常常是通过正则定义来描述的。一个正则定义是一个语句序列,其中每个语句定义了一个表示某正则表达式的变量。定义一个变量的正则表达式时可以使用已经定义过的变量。

  * 扩展的正则表达式表达法。为使正则式更易于表达模式,一些附加的运算符可以作为缩写在正则表达式中使用。比如+(一个或多个)、?(零个或一个)以及字符类,由特定字符集中单个字符组成的字符串的集合。

  * 状态转换图。一个词法分析器的行为经常可以用一个状态转换图来描述。它由多个状态。它同时具有多条从一个状态到另一个状态的转换。每个转换都指明了下一个可能的输入字符,该字符将使用词法分析器来改变当前状态。

  * 有穷自动机(有限自动机)。他是状态转换图的形式化表达。它指明了一个开始状态、一个或多个接受撞题,以及状态集、输入字符集和状态间的转换集合。接受状态表明已发现了和某个词法单元对应的词素。与状态转换图不同,有穷自动机既可以在输入字符上执行转换,亦可以在空输入上执行转换。

  * 确定有穷自动机。一个确定有穷自动机是一种特殊的有穷自动机。他的任何一个状态对于任意一个输入符号有且只有一种转换。

  * 不确定有穷自动机。不是确定有穷自动机的自动机称为不确定的。NFA通常要比确定有穷自动机更容易设计。

  * 模式表达方法之间的转换。我们可以把任意一个正则表达式转换为一个大小基本相同的NFA,这个NFA是不的语言和该正则表达式识别相同。更进一步,任何NFA都可转换为一个代表相同模式的DFA,虽然在最坏的情况下自动机的大小会以指数级增长,但是在常见的程序设计语言中尚未碰到这些情况。

  * Lex。有一系列的软件系统,包括Lex和Flex,可以作为生成词法分析器的工具。用户通过扩展的正则表达式来描述各种词法单元的模式。Lex将这些表达式转化为词法分析器。这些分析器实质上是一个可以识别所有模式的确定有穷自动机。

  * 有穷自动机的最小化。对于每一个DFA,都存在一个接受同样语言的最小状态DFA。步进如此,一个给定语言的最少状态DFA是唯一的。

编译原理_P1002的更多相关文章

  1. 编译原理-词法分析05-正则表达式到DFA-01

    编译原理-词法分析05-正则表达式到DFA 要经历 正则表达式 --> NFA --> DFA 的过程. 0. 术语 Thompson构造Thompson Construction 利用ε ...

  2. 跟vczh看实例学编译原理——三:Tinymoe与无歧义语法分析

    文章中引用的代码均来自https://github.com/vczh/tinymoe.   看了前面的三篇文章,大家应该基本对Tinymoe的代码有一个初步的感觉了.在正确分析"print ...

  3. 跟vczh看实例学编译原理——二:实现Tinymoe的词法分析

    文章中引用的代码均来自https://github.com/vczh/tinymoe.   实现Tinymoe的第一步自然是一个词法分析器.词法分析其所作的事情很简单,就是把一份代码分割成若干个tok ...

  4. 跟vczh看实例学编译原理——一:Tinymoe的设计哲学

    自从<序>胡扯了快一个月之后,终于迎来了正片.之所以系列文章叫<看实例学编译原理>,是因为整个系列会通过带大家一步一步实现Tinymoe的过程,来介绍编译原理的一些知识点. 但 ...

  5. 跟vczh看实例学编译原理——零:序言

    在<如何设计一门语言>里面,我讲了一些语言方面的东西,还有痛快的喷了一些XX粉什么的.不过单纯讲这个也是很无聊的,所以我开了这个<跟vczh看实例学编译原理>系列,意在科普一些 ...

  6. 编译原理-词法分析04-NFA & 代码实现

    编译原理-词法分析04-NFA & 代码实现 0.术语 NFA 非确定性有穷自动机nondeterministic finite automation. ε-转换ε-transition 是无 ...

  7. .NET程序的简单编译原理

    1.不管是什么程序,最终的执行官是CPU,而CPU只认识1和0的机器码. 2.我们现在写的一般是高级语言写的程序.CPU是不认识我们用高级语言写的源代码的,那应该怎么办才能让CPU执行我们写好的程序尼 ...

  8. Atitit.编译原理与概论

    Atitit.编译原理与概论 编译原理 词法分析 Ast构建,语法分析 语意分析 6 数据结构  1. ▪ 记号 2. ▪ 语法树 3. ▪ 符号表 4. ▪ 常数表 5. ▪ 中间代码 1. ▪ 临 ...

  9. 编译原理简单语法分析器(first,follow,分析表)源码下载

    编译原理(简单语法分析器下载) http://files.cnblogs.com/files/hujunzheng/%E5%8A%A0%E5%85%A5%E5%90%8C%E6%AD%A5%E7%AC ...

随机推荐

  1. Hour of Code|京东云邀您一起,“码”上行动

    "如果我并不希望成为一名程序员,那么为什么需要学习编程呢?" 相信很多人对于现在鼓励从小就学习编程的趋势都在心里问过这样的一个问题.在回答这个问题前,先和大家分享一个小故事吧. 1 ...

  2. Android自定义View——实现字母导航栏

    1.自定义View实现字母导航栏 2.ListView实现联系人列表 3.字母导航栏滑动事件处理 4.字母导航栏与中间字母的联动 5.字母导航栏与ListView的联动 1.先看主布局,方便后面代码的 ...

  3. CSU2004:Finding words(含指定不相交前后缀的模式串计数)

    题:http://acm.csu.edu.cn/csuoj/problemset/problem?pid=2004 题意:给定n个模式串,m个询问,每个询问是“前缀+‘*’+后缀 ”的组合的串S,输出 ...

  4. IDEA创建新文件时自动生成时间和作者

    打开设置,打开下图的选项并且输入 /** * @author 你的名字 * @date ${DATE} ${TIME} */

  5. JavaWeb之搭建自己的MVC框架(二)

    1. 前言 在 JavaWeb之搭建自己的MVC框架(一) 中我们完成了URL到JAVA后台方法的最基本跳转.但是实际操作中会发现有一个不方便的地方,现在在com.mvc.controller包中只有 ...

  6. CTF -攻防世界-crypto新手区(1~4)

    题目已经提示用base64直接解密就行 base64解密网址 http://tool.oschina.net/encrypt?type=3 题目提示是凯撒密码 http://www.zjslove.c ...

  7. VMware DRS部分知识点

    主机添加到集群中,不需要维护模式(有虚拟机开机状态时也可以添加进去). 主机从集群中移除,需要主机进入维护模式. HA和DRS 全自动 当设置虚拟机必须在主机上时 DRS优先级大于HA 就算主机挂了H ...

  8. C语言-字、半字、内存位宽相关

    1.32位系统:32位系统指的是32位数据线,但是一般地址线也是32位,这个地址线32位决定了内存地址只能有32位二进制,所以逻辑上的大小为2的32次方.内存限制就为4G.实际上32位系统中可用的内存 ...

  9. axios 等待同步请求用法及多请求并发

    axios等待同步请求 直接上代码 首先在函数中返回一个Promise对象,在调用函数使用同步函数,调用目标函数使用await等待即可 参考http://www.cnblogs.com/cckui/p ...

  10. Dynamics CRM - 如何通过 C# Plugin 给 Contact的 主键(FullName)赋值

    Contact 是 CRM 默认带有的 Entity,主键是 <FullName>,根据开发需求,与主键相关的字段都被设置成隐藏,包括了<Full Name>,<Firs ...