词法分析器Lexer

词法分析

In computer science, lexical analysis, lexing or tokenization is the process of converting a sequence of characters (such as in a computer program or web page) into a sequence of tokens (strings with an assigned and thus identified meaning).

在计算机科学中，词法分析，lexing或标记化是将一系列字符（例如在计算机程序或网页中）转换成一系列标记（具有指定且因此标识的含义的字符串）的过程。

编码目标

给定一个源代码文件，能够将其转化为词法记号流。

比如规定int的词法记号为30，输出就是<30, int>；数字的词法记号为11，则输入123，输出为<11, 123>。

约定

把程序中的词法单元分为四类：标识符（分为关键字和一般标识符）、数字、特殊字符、空白（空格、Tab、回车换行等）

程序流程图

对于运算符等符号，这里只考虑两个字符的组合情况，不考虑三个字符组成的运算符。之所以要在读到特殊字符之后在往后读一个字符是因为有可能在表中存在类似>=和>的运算符，要保证最长字符匹配。

关键代码

首字符类型判断

public static String getCharType(String str) {

        String regex_Letter = "[a-zA-Z]";

        String regex_Number = "[0-9]";

        String regex_Blank = "\\s";

        Pattern pattern;

        pattern = Pattern.compile(regex_Letter);

        Matcher matcher = pattern.matcher(str);

        if (matcher.find())

            return "LETTER";

        pattern = Pattern.compile(regex_Number);

        matcher = pattern.matcher(str);

        if (matcher.find())

            return "NUMBER";

        pattern = Pattern.compile(regex_Blank);

        matcher = pattern.matcher(str);

        if (matcher.find())

            return "BLANK";

        return "SPECIAL";

    }

如果首字符为字母

case "LETTER":

	pattern = Pattern.compile(regex_ID);

	matcher = pattern.matcher(srcCode);

	if (matcher.lookingAt()) {

		String result = matcher.group();

		if (LexicalToken.isKeyWord(result)) {

			int token = lextok.getToken(result);

			System.out.printf("<%d,%s>  ", token, result);

		} else {

			int token = lextok.getToken("ID");

			System.out.printf("<%d,%s>  ", token, result);

		}

	}

	srcCode = srcCode.substring(matcher.end());

	break;

如果首字符是数字

case "NUMBER":

	pattern = Pattern.compile(regex_NUM);

    matcher = pattern.matcher(srcCode);

    if (matcher.lookingAt()) {

	    String result = matcher.group();

        int token = lextok.getToken("NUM");

        System.out.printf("<%d,%s>  ", token, result);

     }

     srcCode = srcCode.substring(matcher.end());

     break;

如果首字符是空格

case "BLANK":

	srcCode = srcCode.substring(1);

    break;

如果首字符是特殊符号

case "SPECIAL":

	if (srcCode.length() > 1) {

	    String secondChar = srcCode.substring(1, 2);

        String result;

        LinkedHashMap tokenMap = lextok.getLexicalTokenMap();

        Set set = tokenMap.keySet();

        result = firstChar + secondChar;

        if (getCharType(secondChar).equals("SPECIAL") && set.contains(result)) {

            int token = lextok.getToken(result);

            System.out.printf("<%d,%s>  ", token, result);

            srcCode = srcCode.substring(2);

        }else {

            result = firstChar;

            int token = lextok.getToken(result);

            System.out.printf("<%d,%s>  ", token, result);

            srcCode = srcCode.substring(1);

              }

	} else {  // 字符串中只有一个字符时

           int token = lextok.getToken(srcCode);

           System.out.printf("<%d,%s>  ", token, srcCode);

           srcCode = srcCode.substring(1);

    }

    break;

源码地址：https://github.com/Liyzy/Lexer

开发环境：IJ idea 2018.2

词法分析器Lexer的更多相关文章

atitit.词法分析原理词法分析器 (Lexer)
atitit.词法分析原理词法分析器 (Lexer) 1. 词法分析(英语:lexical analysis)1 2. :实现词法分析程序的常用途径:自动生成,手工生成.[1] 2 2.1. 词法分 ...
词法分析器Antlr
一.我们都知道编程语言在执行之前需要先进行编译,这样就可以把代码转换成机器识别的语言,这个过程就是编译. 那么它是怎么编译的呢? Java在JVM虚拟机中进行编译,javascript在Js引擎中编译 ...
02.从0实现一个JVM语言之词法分析器-Lexer-03月02日更新
从0实现JVM语言之词法分析器-Lexer 本次有较大幅度更新, 老读者如果对前面的一些bug, 错误有疑问可以复盘或者留言. 源码github仓库, 如果这个系列文章对你有帮助, 希望获得你的一个s ...
B-index、bitmap-index、text-index使用场景详解
索引的种类:B-tree索引.Bitmap索引.TEXT index1. B-tree索引介绍: B-tree 是一种常见的数据结构,也称多路搜索树,并不是二叉树.B-tree 结构可以显著减少定位 ...
oracle全文检索
全文检索 oracle对使用几十万以上的数据进行like模糊查询速度极差,包括 like 'AAA%' ,like '%AAA',like '%AAA%',like '%A%A%'的那些模糊查询.网上 ...
Lex和Yacc入门
Lex和Yacc入门标签: lexyacc 2013-07-21 23:02 584人阅读评论(0) 收藏举报分类: Linux(132) 原文地址:http://coanor.blog ...
Lex+YACC详解
1. 简介只要你在Unix环境中写过程序,你必定会邂逅神秘的Lex&YACC,就如GNU/Linux用户所熟知的Flex&Bison,这里的Flex就是由Vern Paxon实现的一 ...
oracle的全文索引
1.查看oracle的字符集 SQL> select userenv('language') from dual; USERENV('LANGUAGE') ------------------- ...
Oracle建立全文索引详解
Oracle建立全文索引详解1.全文检索和普通检索的区别不使用Oracle text功能,当然也有很多方法可以在Oracle数据库中搜索文本,比如INSTR函数和LIKE操作: SELECT *FR ...

随机推荐

struts2上传单个文件
项目目录: struts.xml配置: <constant name="struts.enable.DynamicMethodInvocation" value=" ...
Ubuntu 下 unzip用法
unzip [参数] <压缩文件> 参数: -P <密码> zip 压缩包的密码-f 覆盖原有文件-d <路径> 指定解压路径-n 解压缩时不覆盖原有文件-o 不经 ...
20.Class的继承
1.简介 Class 可以通过extends关键字实现继承,这比 ES5 的通过修改原型链实现继承,要清晰和方便很多 class Point { } class ColorPoint extends ...
TortoiseGit学习系列之TortoiseGit基本操作拉取项目（图文详解）
前面博客 TortoiseGit学习系列之TortoiseGit基本操作克隆项目(图文详解) TortoiseGit学习系列之TortoiseGit基本操作修改提交项目(图文详解) TortoiseG ...
unity批量设置图片为etc2格式或者astc格式
网上找了半天,没一个能用的,干脆自己写个,直接拷贝这个脚本就行这个是ios版本的,安卓的话写在注释里面,去掉注释就能用了现在ios支持一种新格式叫astc比原本的pvrtc压缩比更高,而且质量更高 ...
POJ 3710:Matrix Power Series
Description 给出矩阵 \(n*n\) 的矩阵\(A\) , 求 \(A^1+A^2+A^3...+A^k\) Solution 首先我们设 \(S_n=\sum_{i=1}^{n}A^i ...
jquery datatables 学习笔记
最近项目中用到了BootStrap做后台,在选择表格插件的时候发现了jquery datatables. 功能是很强大,但是网上的例子比较少.在经过一段时间的努力可算是搞出来了. 官网地址:http: ...
三、cent OS安装配置nginx
简介Tengine是淘宝发起的web服务器项目,简单的讲就是对nginx进行了二次开发并提供了更丰富的功能,官网地址:http://tengine.taobao.org/ 下载nginx这里使用淘宝二 ...
图解源码之java锁的获取和释放（AQS）篇
以独占式不公平锁为例,通过5个线程争夺ReentrantLock的过程,图解ReentrantLock源码实现,了解显示锁的工作流程. 任何时刻拿到锁的只有一个线程,未拿到锁的线程会打包成节点(nod ...
Linux下一个最简单的不依赖第三库的的C程序（2）
一个最简单的C程序,如下: main.c: int main() { char *str = "Hello World"; ; } 在64位平台上编译一个32位的程序,如下:(32 ...