关于Lab3中对于正则表达式的应用

　　在这里记录一下关于软件构造课程Lab3中关于正则表达式的应用。

　　在实验内容中，要求用正则表达式来匹配读入文件的内容，从而取得构建图需要的相关信息。

　　举个例子，读入的文件(GraphPoetTestFile.txt)内容如下：

　　先说一下文件内容中的数据格式：

　　①一定有一行，第一个单词为"GraphType"，后面是一个空格、一个'='、一个空格，加上一个"类型名"

　　②一定有一行，第一个单词为"GraphName"，后面是一个空格、一个'='、一个空格，加上一个"图的名字"

　　③一定有一行，第一个单词为"VertexType"/"EdgeType"，后面是一个空格、一个'='、一个空格，加上若干个"顶点类型"，不同顶点类型之间用','和空格隔开

　　④一定有若干行，第一个单词为"Vertex"，后面是一个空格，一个'='、一个空格、一个左尖括号'<'，加上若干个"数据信息"，最后用右尖括号'>'结束(中间可能仍有尖括号来界定属性信息)

　　⑤一定有若干行，第一个单词为"Edge"，后面是一个空格，一个'='、一个空格、一个左尖括号'<'，加上若干个"数据信息"，信息项之间用','和空格隔开，最后用右尖括号'>'结束

　　⑥可能存在若干行，第一个单词为"HyperEdge"，后面是一个空格，一个'='、一个空格、一个左尖括号'<'，加上若干个"数据信息"，信息项之间用','和空格隔开，包含一组大括号'{''}'来界定的属性信息，最后用右尖括号'>'结束

　　下面说一下对于这个问题而言，我的解决思路：

　　首先，分析读入文件的格式，每一行读入引号中的数据项个数可能不一致，有的行只包含一项，有的行却包含多项，因此没有一种完美的正则表达式能直接全部读取所有引号的数据项。同时，考虑到还有尖括号'<>'以及大括号'{}'来界定的情况，这种直接构建完整正则表达式进行匹配的方式似乎不存在或者说使用情况比较复杂。

　　先说明两种基本的匹配字符串的方式，一种是最大化地进行匹配字符串，一种是最小化地进行匹配字符串。

　　比如，对于一个字符串/Introduction = "I", "Am", "Steven", "Shen"/(这里用'/'来表示字符串界定符以避免产生歧义)，最大化地进行匹配的话，我要得到的就是引号区间界定的整个字符串匹配，即/"I", "Am", "Steven", "Shen"/；最小化地进行匹配的话，我要得到的就是引号区间界定的一小部分字符串匹配，即/I/，再次重复进行匹配就会依次得到/Am/、/Steven/、/Shen/。这两种正则表达式在Java中的具体字符串表示格式就是max = "(\".+\")"，min = "\"([^\"]+)\""。

　　下面回到问题上来，我的解决思路有两种：

　　第一种方式，通过max和min的使用，细致化地获取数据

　　对每一行先进行这样的匹配String pattern1 = "(\\w+) = (\".+\")"; 即每行先是一个单词，一个空格，一个'='，一个空格，后加一个max型的匹配，得到'='后所有信息项。匹配上面的那个文件，第一行匹配结果就是/GraphType/、/"MovieGraph"/，第三行匹配结果就是/VertexType/、/"Movie", "Actor", "Director"/。此时，我们判断第一个读入的单词的内容，即可确定该如何处理'='后面的信息项。此时再对第二个获取的串(通过max匹配得到的串)进行最小化地匹配，第一行就得到了/MovieGraph/，第三行就得到了/Movie/、/Actor/、/Director/三个项。类似地，把界定范围改成尖括号内的内容，同样也可以获取Vertex以及Edge的信息。

　　这种解决方式总的思路就是通过匹配每行第一个单词来确定如何处理这行数据'='后的数据项。然后通过最大化地匹配'='后的数据，进一步对其用最小化匹配进行划分，得到具体的数据项。

　　第二种方式，通过max的使用，结合对字符串的操作达成目标

　　类似于上面说的，得到每行第一个单词后，用最大化匹配来得到'='后的数据项，此时匹配的内容就是/"I", "Am", "Steven", "Shen"/，然后对这个字符串使用String的split方法(当然，split的参数列表实际上接收的就是一个正则表达式的字符串)。这里的split方法就是这样split(",\\s")。这样，/"I", "Am", "Steven", "Shen"/就变成了/"I"/、/"Am"/、/"Steven"/、/"Shen"/，他们存储在一个String数组中，这时还要数组中每个串求子串，从而去掉每个串两端的引号(")。即通过String的subString方法，得到/I/、/Am/、/Steven/、/Shen/。

　　这种解决方式总的思路就是先获取要读取的数据块，在对数据块用String的操作来完成每个需要读取的数据项。这种方式相比于前面那种比较麻烦，原因在于求子串、分割过程比较繁琐，不如上面那种方法的用最小化匹配方便快捷。

　　这两种方法的正则表达式匹配串并获取，都用到了group方法，这些内容在Java的String和正则表达式部分都有详细介绍，这里就不再赘述了。

　　至于文件中可能存在的匹配不同界定符的情况，可以类似地考虑如何实现。主要思路就在上面，具体实现时可以通过每行数据项的个数等确定性信息来进行信息读取，使得处理更灵活。

　　下面附上针对这种MovieGraph的处理代码。　　

 package factory;

 import java.util.*;

 import java.util.regex.*;

 import java.io.*;

 import vertex.*;

 import edge.*;

 import graph.*;

 public class MovieGraphFactory {

     public static MovieGraph createGraph(String filePath) {

         String GraphType = "";

         String GraphName = "";

         String VertexType = "";

         List<String> VertexTypes = new ArrayList<>();

         String EdgeType = "";

         List<String> EdgeTypes = new ArrayList<>();

         Set<String> fullVertexInfo = new HashSet<>();

         Set<String> fullEdgeInfo = new HashSet<>();

         Set<String> fullHyperEdgeInfo = new HashSet<>();

         List<Vertex> vertexList = new ArrayList<>();

         List<Edge> edgeList = new ArrayList<>();

         List<Edge> hyperList = new ArrayList<>();

         String pattern1 = "(\\w+) = (\".+\")";

         String pattern2 = "(\\w+) = <(.+)>";

         String pattern3 = ",? ?\"([^\"]+)\"";

         Pattern p = Pattern.compile(pattern1);

         Matcher parse1 = p.matcher("");

         p = Pattern.compile(pattern2);

         Matcher parse2 = p.matcher("");

         MovieGraph graph = null;

         try {

             File file = new File(filePath);

             InputStreamReader readin = new InputStreamReader(new FileInputStream(file));

             BufferedReader bufReadin = new BufferedReader(readin);

             String line;

             int i = 1;

             while((line = bufReadin.readLine()) != null) {

                 parse1.reset(line);

                 parse2.reset(line);

                 if(parse1.find()) {

                     if(parse1.groupCount() == 2) {

                         if(parse1.group(1).equals("GraphType")) {

                             GraphType = parse1.group(2);

                             if(!GraphType.equals("\"MovieGraph\"")) {

                                 System.out.println("Error! the graph must be MovieGraph rather be " + GraphType);

                                 bufReadin.close();

                                 throw new RuntimeException();

                             }

                         }

                         if(parse1.group(1).equals("GraphName"))

                             GraphName = parse1.group(2);

                         if(parse1.group(1).equals("VertexType"))

                             VertexType = parse1.group(2);

                         if(parse1.group(1).equals("EdgeType"))

                             EdgeType = parse1.group(2);

                     }

                 } else if(parse2.find()) {

                     if(parse2.groupCount() == 2) {

                         if(parse2.group(1).equals("Vertex"))

                             fullVertexInfo.add(parse2.group(2));

                         if(parse2.group(1).equals("Edge"))

                             fullEdgeInfo.add(parse2.group(2));

                         if(parse2.group(1).equals("HyperEdge"))

                             fullHyperEdgeInfo.add(parse2.group(2));

                     }

                 }

             }

             p = Pattern.compile(pattern3);

             Matcher parse3 = p.matcher(GraphType);

             if(parse3.find())

                 GraphType = parse3.group(1);

             parse3 = p.matcher(GraphName);

             if(parse3.find())

                 GraphName = parse3.group(1);

             parse3 = p.matcher(VertexType);

             while(parse3.find()) {

                 VertexTypes.add(parse3.group(1));

             }

             parse3 = p.matcher(EdgeType);

             while(parse3.find()) {

                 EdgeTypes.add(parse3.group(1));

             }

             String label = "", type = "";

             String[] fields = null;

             for(String temp : fullVertexInfo) {

                 i = 0;

                 Vertex point = null;

                 parse3 = p.matcher(temp);

                 if(parse3.find())

                     label = parse3.group(1);

                 if(parse3.find()) {

                     type = parse3.group(1);

                 }

                 switch(type) {

                     case "Actor" :

                         fields = new String[2];

                         break;

                     case "Director" :

                         fields = new String[2];

                         break;

                     case "Movie" :

                         fields = new String[3];

                         break;

                     default :

                         System.out.println("Error. The graph can't contain other vertex " + type);

                         bufReadin.close();

                         throw new RuntimeException();

                 }

                 while(parse3.find()) {

                     fields[i++] = parse3.group(1);

                 }

                 switch(type) {

                     case "Actor" :

                         point = ActorVertexFactory.createVertex(label, fields);

                         break;

                     case "Director" :

                         point = DirectorVertexFactory.createVertex(label, fields);

                         break;

                     case "Movie" :

                         point = MovieVertexFactory.createVertex(label, fields);

                         break;

                     default :

                         break;

                 }

                 vertexList.add(point);

             }

             for(String temp : fullEdgeInfo) {

                 parse3 = p.matcher(temp);

                 Double weight = 0.0;

                 Vertex point1 = null, point2 = null;

                 Edge edge = null;

                 if(parse3.find())

                     label = parse3.group(1);

                 if(parse3.find())

                     type = parse3.group(1);

                 if(parse3.find())

                     weight = Double.parseDouble(parse3.group(1));

                 if(parse3.find())

                     for(Vertex start : vertexList) {

                         if(parse3.group(1).equals(start.getLabel())) {

                             point1 = start;

                             break;

                         }

                     }

                 if(parse3.find())

                     for(Vertex end : vertexList) {

                         if(parse3.group(1).equals(end.getLabel())) {

                             point2 = end;

                             break;

                         }

                     }

                 if(parse3.find())

                     if(!parse3.group(1).equals("No")) {

                         bufReadin.close();

                         throw new RuntimeException();

                     }

                 List<Vertex> arg = new ArrayList<>();

                 arg.add(point1); arg.add(point2);

                 switch(type) {

                     case "MovieActorRelation" :

                         edge = MovieActorRelationFactory.createEdge(label, arg, weight);

                         break;

                     case "MovieDirectorRelation" :

                         edge = MovieDirectorRelationFactory.createEdge(label, arg, -1.0);

                         break;

                     default :

                         System.out.println("Error, the graph can't contain other edge " + type);

                         bufReadin.close();

                         throw new RuntimeException();

                 }

                 edgeList.add(edge);

             }

             for(String temp : fullHyperEdgeInfo) {

                 parse3 = p.matcher(temp);

                 Edge hyper = null;

                 if(parse3.find()) {

                     label = parse3.group(1);

                 }

                 if(parse3.find())

                     type = parse3.group(1);

                 List<Vertex> hyperVertices = new ArrayList<>();

                 while(parse3.find()) {

                     for(Vertex temppoint : vertexList) {

                         if(parse3.group(1).equals(temppoint.getLabel())) {

                             hyperVertices.add(temppoint);

                             break;

                         }

                     }

                 }

                 hyper = SameMovieHyperEdgeFactory.createEdge(label, hyperVertices, -1.0);

                 hyperList.add(hyper);

             }

             graph = new MovieGraph(GraphName);

             for(Vertex temp : vertexList) {

                 graph.addVertex(temp);

             }

             for(Edge temp : edgeList) {

                 graph.addEdge(temp);

             }

             for(Edge temp : hyperList) {

                 graph.addEdge(temp);

             }

             System.out.println("***** vertexList's length : " + vertexList.size());

             System.out.println("***** edgeList's length : " + edgeList.size());

             System.out.println("***** hyperList's length : " + hyperList.size());

             System.out.println("Vertex:" + fullVertexInfo.size()+ "\n" + fullVertexInfo + "\n" + "Edge:" +  fullEdgeInfo.size() + "\n" + fullEdgeInfo + "\n" + "HyperEdge:" + fullHyperEdgeInfo.size() + "\n" + fullHyperEdgeInfo);

             bufReadin.close();

         } catch(Exception e) {

             e.printStackTrace();

         }

         return graph;

     }

 }

MovieGraphFactory.java

　　思路比较简单，事实证明可行。代码写得不高端...

　　见证菜鸡成长...

关于Lab3中对于正则表达式的应用的更多相关文章

PHP中有关正则表达式的函数集锦
之前学正则表达式的目的是想从网上抓取点小说啊,文档啊,还有获取相应的视频连接然后批量下载.当时初学PHP根本不知道PHP有专门抓包的工具,就像Simple_html_dom.php(在我的其他博文中有 ...
JavaScript中的正则表达式（终结篇）
JavaScript中的正则表达式(终结篇) 在之前的几篇文章中,我们了解了正则表达式的基本语法,但那些语法不是针对于某一个特定语言的.这篇博文我们将通过下面几个部分来了解正则表达式在JavaScri ...
Coursera-Getting and Cleaning Data-week4-R语言中的正则表达式以及文本处理
博客总目录:http://www.cnblogs.com/weibaar/p/4507801.html Thursday, January 29, 2015 补上第四周笔记,以及本次课程总结. 第四周 ...
9.JAVA中的正则表达式
一.JAVA中的正则表达式 1.概念:以某种特定的方式描述字符串 1.Java中正则表达式的规则 ? #{0,1}-?有一个-或者没有 \\ #表示一个" ...
Python::re 模块 -- 在Python中使用正则表达式
前言这篇文章,并不是对正则表达式的介绍,而是对Python中如何结合re模块使用正则表达式的介绍.文章的侧重点是如何使用re模块在Python语言中使用正则表达式,对于Python表达式的语法和详细 ...
工作随笔——UIButton的EdgeInsets + Swift中的正则表达式；
1.UIButton的EdgeInsets UIButton的EdgeInsets方法,是用来设置title和image对于上左下右四个方向的偏移,但是很奇怪的是,刚开始只有Image,titile也 ...
Javascript中的正则表达式
Javascript中的正则表达式刚开始接触正则表达式的时候,觉得这是个很死板的东西(没办法,计算机不能像人眼一样能很快的辨认出我们需要的结果,它需要一定的规则来对它进行限制),了解的越多,发现这个 ...
在Visual Studio中使用正则表达式匹配换行和批量替换
系统环境:Windows 8.1 Enterprise Update 2 x64 开发环境:Mircosoft Visual Studio Ultimate 2013 Update 2 RC 问题:如 ...
浅谈JavaScript中的正则表达式
引言对于正则表达式我想作为程序员肯定使用过它,那天书般的表达方式,我用一次就记住它了.这篇博客先介绍一些正则表达式的内容,然后介绍JavaScript中对正则表达式特有的改进.下面开始介绍正则表达式 ...

随机推荐

Fluent_Python_Part3函数即对象，07-closure-decoration，闭包与装饰器
第7章函数装饰器和闭包装饰器用于在源码中"标记"函数,动态地增强函数的行为. 了解装饰器前提是理解闭包. 闭包除了在装饰器中有用以外,还是回调式编程和函数式编程风格的基础. 1 ...
vue-lazyload 的使用（vue图片懒加载）
github地址:https://github.com/hilongjw/vue-lazyload npm i vue-lazyload -S 或者 <script src="http ...
mqtt开源服务器 EMQX ，客户端MQTTX5.0，使用指南
服务器 EMQX 官网: https://docs.emqx.io/broker/v3/cn/getstarted.html#mqtt-clients 一.安装启动 # 各平台下载https://ww ...
最全BT磁力搜索引擎，国外最受欢迎的BT-磁力网站（整理分享，每日不断更新...）
最全BT磁力搜索引擎索引(整理分享,每日更新) 1.海盗湾 The Pirate Bay 2.磁力天堂(BT磁力搜索下载-磁力天堂) www.btaa.xyz (资源多,下载速度可以,建议用手机访问 ...
i.MX RT600之DSP开发环境调试篇
i.MX RT600的Cadence Xtensa HiFi 4 Audio DSP 是一个高度优化过的音频处理器,主频高达600MHz,专门为音频信号的编码.解码以及预处理和后处理模块而设计,功能十 ...
nginx windows下重新加载配置
运行过程中,有个节点部分服务出现故障,像将其下线修复, 使用nginx -t; nginx -s reload 重新加载配置得到错误"nginx: [error] OpenEvent(&q ...
「JSOI2015」最大公约数
「JSOI2015」最大公约数传送门考虑先枚举区间左端点, 然后我们会发现所有可能的区间虽然有 \(O(n)\) 个,但是本质不同的区间 \(\gcd\) 只有 \(\log n\) 级别,而且是 ...
Flask程序相关配置加载的三种方式
方式一:从对象中加载配置 1.定义配置类,在配置类中添加相应的配置 2.通过app.config.from_object(配置类)进行加载代码如下: from flask import Flask ...
Keras下载的数据集以及预训练模型保存在哪里
Keras下载的数据集在以下目录中: root\\.keras\datasets Keras下载的预训练模型在以下目录中: root\\.keras\models 在win10系统来说,用户主目录是: ...
PTA的Python练习题（二）
继续在PTA上练习Python (从第2章-5 求奇数分之一序列前N项和开始) 1. x=int(input()) a=i=1 s=0 while(i<=x): s=s+1/a a=a+2 ...

关于Lab3中对于正则表达式的应用

关于Lab3中对于正则表达式的应用的更多相关文章

随机推荐

热门专题