F＃正则表达式

此词法分析器允许您使用F＃计算表达式以非常声明的方式定义基于正则表达式的规则。

F＃

打开  Lexer
 让  定义=
    lexerDefinitions {
        做！addNextlineDefinition  “NEWLINE”  @ “（\ n \ r）| \ n | \ r”“
        做！addIgnoreDefinition  “WS”         @ “\ s”
        做！addDefinition  “让”              “让”
        做！addDefinition  “ID”               “（？i）[az] [a-z0-9] *”
        做！addDefinition  “FLOAT”            @ “[0-9] + \。[0-9] +”
        做！addDefinition  “INT”              “[0-9] +”
        做！addDefinition  “OPERATOR”         @ “[+ * =！/＆| <> \ ^ \  - ] +”
    }

通过这些定义，您可以执行词法分析器：

F＃

打开  Lexer
 让  lex输入=
     试试
        让  y = Lexer.tokenize定义输入
        printfn  “％A”  y
     与  e  - > printf  “％s”  e.Message
lex  “让a = 5”

这将导致：

F＃

seq [
{name =  “LET”  ; text =  “let” ; pos =  0 ; column =  0 ; line =  0 ;};
{name =  “ID” ; text =  “a” ; pos =  4 ; column =  4 ; line =  0 ;};
{name =  “OPERATOR” ; text =  “=” ; pos =  6 ;列=  6 ; line =  0 ;};
{name =  “INT” ; text =  “5” ; pos =  8 ; column =  8 ; line =  0 ;}]

词法分析器的代码分为三个部分。第一部分是使用F＃计算表达式的状态monad。这使得声明性方法（见上文）能够设置词法分析器规则。

F＃

模块  StateMonad
 类型  State <'s，'a> = State  of  （'s  - >（'a *'s））
 let  runState（State f）= f
 type  StateBuilder（）=
     member  b.Return（x）= State（fun  s  - >（x，s））
     member  b.Delay（f）= f（）：State <'s，'a>
     member  b.Zero（）= State（fun  s  - >（（），s））
     成员  b.Bind（状态p，休息）=状态（有趣的  s  - >  让  v，s2 = p s  in   （runState（rest v））s2）
     成员  b.Get（）=状态（有趣  的 - >（s，s） ））
     成员 b.Put s = State（fun  _  - >（（），s））

第二部分是用于定义词法分析器规则的组合器。有三个主要组合器： AddDefinition允许您定义名称/正则表达式对， AddIgnoreDefinition允许您定义词法分析器应忽略的字符， AddNextlineDefinition允许您定义哪些字符确定新行。

F＃

输入  LexDefinitions =
  {regexes：string list;
   名称：字符串列表;
   nextlines：布尔列表;
   忽略：布尔列表; } 

让  buildDefinition命名模式nextLine ignore =
    州{
        让！x = state.Get（）
         做！state.Put {regexes = x.regexes @ [sprintf @ “（？<％s>％s）”  name pattern];
                        names = x.names @ [name];
                        nextlines = x.nextlines @ [nextLine];
                        ignores = x.ignores @ [ignore]}
    }
让  addDefinition名模式= buildDefinition名字模式  假 虚假
让利  addIgnoreDefinition名模式= buildDefinition名字模式  假 真
让  addNextlineDefinition名模式= buildDefinition名称模式  真 真实

最后一部分是执行标记化的代码。它使用Seq.unfold方法创建令牌列表。Unfold是一个函数，它接受一个项目并从中生成一个新项目列表。它与Seq.fold相反，它接受一个项目列表并将其转换为单个项目。tokenize函数使用Seq.unfold生成每个标记，同时跟踪当前行号，该行中的位置以及输入字符串中的位置。

F＃

类型  Token =
    {name：string;
      text：string;
      pos：int;
      column：int;
      line：int} 

让  createLexDefs pb =（runState pb）{regexes = []; names = []; nextlines = []; ignores = []} |> snd
 let  tokenize lexerBuilder（str：string）=
     let  patterns = createLexDefs lexerBuilder
     let  combinedRegex = Regex（List.fold（fun  acc reg  - > acc +  “|”  + reg）（List.head patterns。 regexes）（List.tail patterns.regexes））
     让  nextlineMap = List.zip patterns.names patterns.nextlines |> Map.ofList
     let  ignoreMap = List.zip patterns.names patterns.ignores |> Map.ofList
     let  tokenizeStep（pos， line，lineStart）=
         if  pos> = str.Length  then
            没有
        否则
            让  getMatchedGroupName（grps：GroupCollection）names = List.find（fun  （name：string） - > grps。[name] .Length>  0）名称
             匹配  combinedRegex.Match（str，pos）  with
                | 公吨  时  mt.Success && POS = mt.Index - >
                     让  组名= getMatchedGroupName mt.Groups patterns.names
                     让  柱= mt.Index - lineStart
                     让  nextPos = POS + mt.Length
                     让  （nextLine，nextLineStart）=  如果  nextlineMap.Item groupName  然后  （行+  1，nextPos）  else  （line，lineStart）
                     let  token =  if  ignoreMap.Item groupName
                                 then  None
                                 else  Some {
                                        name = groupName;
                                        text = mt.Value;
                                        post = post;
                                        line = line;
                                        column = column; }
                    一些（令牌，（nextPos，nextLine，nextLineStart））
                | 否则 - >
                    let  textAroundError = str.Substring（pos，min（pos +  5）str.Length）
                    raise（ArgumentException（sprintf  “Lexing error in line：％d and column：％d near text：％s”  line（pos  -  lineStart）textAroundError））
    Seq.unfold tokenizeStep（0，  0，  0）|> Seq.filter（有趣  X - > x.IsSome）|> Seq.map（有趣  X - > x.Value）

最后，这是使用XUnit.Net编写的单元测试：

F＃

模块  LexerFacts
 开放  的xUnit
 开放  词法
 开放  System.Linq的
 让  simpleDefs =
    州{
        做！addNextlineDefinition  “NextLine”            “/”
        做！addIgnoreDefinition  “IgnoredSymbol”         “= +”
        做！addDefinition  “String”                      “[a-zA-Z] +”
        做！addDefinition  “Number”                      “\ d +”
        做！addDefinition  “名称”                        “马特”
    } 

[<事实>]
让  Will_return_no_tokens_for_empty_string（）=
     让  令牌= Lexer.tokenize simpleDefs  “”
    Assert.Equal（0，tokens.Count（）） 

[<事实>]
让  Will_throw_exception_for_invalid_token（）=
     让  代币= Lexer.tokenize simpleDefs  “ - ”
    让  EX = Assert.ThrowsDelegateWithReturn（乐趣  （） - >  向上转型  tokens.Count（））|> Record.Exception
    Assert.NotNull（前）
    Assert.True（例如：？System.ArgumentException） 

[<事实>]
让  Will_ignore_symbols_defined_as_ignore_symbols（）=
     让  令牌= Lexer.tokenize simpleDefs  “=========”
    Assert.Equal（0，tokens.Count（）） 

[<事实>]
let  Will_get_token_with_correct_position_and_type（）=
     let  tokens = Lexer.tokenize simpleDefs  “1one = 2 = two”
    Assert.Equal（“Number”，tokens.ElementAt（2）.name）
    Assert.Equal（“2”，tokens.ElementAt（2）.text）
    Assert.Equal（5，tokens.ElementAt（2）.pos）
    Assert.Equal（5，tokens.ElementAt（2）.column）
    Assert.Equal（0，tokens.ElementAt（2）.line） 

[<事实>]
let  Will_tokenize_string_with_alernating_numbers_and_strings（）=
     let  tokens = Lexer.tokenize simpleDefs  “1one2two”
    Assert.Equal（“1”，tokens.ElementAt（0）.text）
    Assert.Equal（“one”，tokens.ElementAt（1）.text）
    Assert.Equal（“2”，tokens.ElementAt（2）.text）
    Assert.Equal（“two”，tokens.ElementAt（3）.text） 

[<事实>]
let  Will_increment_line_with_newline_symbol（）=
     let  tokens = Lexer.tokenize simpleDefs  “1one /
    2two ” Assert.Equal（“Number”，tokens.ElementAt（2）.name）
    Assert.Equal（“2”，tokens.ElementAt（2）.text）
    Assert.Equal（5，tokens.ElementAt（2）.pos）
    Assert.Equal（0，tokens.ElementAt（2）.column）
    Assert.Equal（1，tokens.ElementAt（2）.line） 

[<事实>]
let  Will_give_priority_to_lexer_definitions_defined_earlier（）=
     let  tokens = Lexer.tokenize simpleDefs  “Matt”
    Assert.Equal（“String”，tokens.ElementAt（0）.name）

F＃正则表达式的更多相关文章

Codeforce727B --- Bill Total Value（字符串处理正则表达式）
先说一下正则表达式 %*[a-z]表示忽略前面的小写字符,%[0-9]表示把紧接着非字符的连续数字存入t字符串中去; 从"abc123de4f"中得到"123" ...
JQuery中trim函数的具体实现代码
由于Javascript 1.8.1 之前的版本,没有内置 trim 函数,所以 JQuery 对它有自己的实现.不同的JQuery版本,trim函数的实现也不尽相同. 阅读本文需要掌握正则表达式用法 ...
vimer
vimer 第1.0章.统一概念不管学什么技术,我都深信概念是最重要的.是影响整个学习轨迹,决定能在这个技术领域高度. 当然如果你现在的目的不是在学习而在于解决问题(很多人不愿意承认,或者没发现 ...
WinMerge 过滤器用法
WinMerge是一款开源的文件对比合并工具.http://winmerge.org/WinMerge提供了“过滤器”功能,可以在对比时排除特定的目录或文件. 1.编辑过滤规则工具 -> 过滤器 ...
菜鸟vimer成长记——第1章、统一概念
不管学什么技术,我都深信概念是最重要的.是影响整个学习轨迹,决定能在这个技术领域高度. 当然如果你现在的目的不是在学习而在于解决问题(很多人不愿意承认,或者没发现),那概念就暂时没那么重要了. 目的 ...
pkill命令详解
基础命令学习目录首页原文链接:http://www.mamicode.com/info-detail-2315063.html 一:含义: 是ps命令和kill命令的结合,按照进程名来杀死指定进程, ...
pkill详解
pkill详解一:含义: 是ps命令和kill命令的结合,按照进程名来杀死指定进程,pkill和killall应用方法差不多,也是直接杀死运行中的程序:如果您想杀掉单个进程,请用kill来杀掉. 二 ...
mongodb增删改查操作
Note:mongodb存储的是文档,且文档是json格式的对象,所以增删改查都必须是json格式对象. 注:mongodb常用库和表操作,但mongodb在插入数据时,不需要先创建表. show d ...
Mysql_以案例为基准之查询
查询数据操作
F#之旅9 - 正则表达式
今天,cozy群有个群友发了条正则,问正则匹配相关的问题.虽然他的问题用html selector去处理可能更好,但是我也再一次发现:我忘了正则怎么写的了! 忘掉正则是有原因的,这篇文章会简单记录下F ...

随机推荐

Get,Post请求方式经典详解
本文转自:http://blog.csdn.net/findsafety/article/details/47129021 前几天工作中,所有表单我都采用post方法,头儿说那样不好,大型网站上一般都 ...
JDK源码分析-String、StringBuilder、StringBuffer
String类的申明 public final class String implements java.io.Serializable, Comparable<String>, Char ...
toString()方法详解
在类型转换中,经常用到方法valueOf()和toString(),上一篇讲了valueOf()方法,这一篇来说说toString()方法.toSting()方法返回返回对象的字符串表现. [1]基本 ...
windows部署SpiderKeeper(爬虫监控)
最近发现了一个spdierkeeper的库,这个库的主要用途是在于配合这scrpyd管理你的爬虫,支持一键式部署,定时采集任务,启动,暂停等一系列的操作.简单来说将scrapyd的api进行封装,最大 ...
【prufer编码+组合数学】BZOJ1005 [HNOI2008]明明的烦恼
Description 自从明明学了树的结构,就对奇怪的树产生了兴趣...... 给出标号为1到N的点,以及某些点最终的度数,允许在任意两点间连线,可产生多少棵度数满足要求的树? Solution 这 ...
【树形dp】Bzoj3391 [Usaco2004 Dec]Tree Cutting网络破坏
Description 约翰意识到贝茜建设网络花费了他巨额的经费,就把她解雇了．贝茜很愤怒,打算狠狠报复．她打算破坏刚建成的约翰的网络．约翰的网络是树形的,连接着N(1≤N≤1000 ...
BZOJ_4238_电压_树上差分+dfs树
BZOJ_4238_电压_树上差分+dfs树 Description 你知道Just Odd Inventions社吗?这个公司的业务是“只不过是奇妙的发明(Just Odd Inventions)” ...
BZOJ_4518_[Sdoi2016]征途_斜率优化
BZOJ_4518_[Sdoi2016]征途_斜率优化 Description Pine开始了从S地到T地的征途. 从S地到T地的路可以划分成n段,相邻两段路的分界点设有休息站. Pine计划用m天到 ...
#oracle恢复已被commit删除的内容
1.FLASHBACK QUERY 闪回到15分钟前 SELECT * FROM tablename AS OF TIMESTAMP(SYSTIMESTAMP - INTERVAL '15' MINU ...
CentOS7 安装Redis Cluster集群
上一篇中已经讲到了如何安装单击版Redis,这一篇我们来说下如何安装Cluster,关于哨兵模式这里我就不写文章安装了,有兴趣的同学可以自己去研究,哨兵模式可以在主从模式下在创建三台机器的哨兵集群监控 ...

F＃正则表达式

F＃正则表达式的更多相关文章

随机推荐

热门专题