任务描述:给定一个step文件,对该文件的字符串进行信息抽取,结构化的组织文件描述模型的数据。形成抽象化数据结构,存入计算机数据库。并能按照有条理结构把这些数据展示出来。

信息抽取的结果描述:

  1 数据结构:

    以key-value键值对形式将step文件描述的信息抽取并组织起来。

    具体的,在java当中使用javabean技术,以类的嵌套的方式实现这种数据结构。

  2 结果展示:

    将javabean转换成json并格式化打印出来,查看转化结果是否正确。

  3 存储:

    将javabean的实例化对象映射为mysql中的数据库表。

信息抽取的方法描述: 团队商讨,编写一套算法来实现对step文件的抽取。

  step文件信息抽取算法(伪代码流程):

  输入: step文件

  输出: 键值对数据结构(字典、或hashtable、或hashmap、或javabean对象) 和 json格式打印输出

  1   读取step文件,整个文件存为字符串s

  2   删除s的开头的 "ISO-10303-21\n" 和最后的 "END-ISO-10303-21\n"

  3   搜索s,将 “HEADER\n“ 和在此之后第一个“ENDSEC\n“ 中间的部分,存为字符串header

  4   搜索s,将 "DATA\n" 和在此之后第一个"ENDSEC\n"中间的部分,存为字符串data

5   声明一个key-value类型变量step_root,用于存储整个模型信息

    (下面开始处理header部分)

  6   声明一个key-value类型变量header_root,用于存储header部分的结构化信息

  7   将header字符串按照 行 \n进行切分 header.split("\n") , 将所有行存为一个数组(ArrayList) header_list, 每个元素是一行

  8   for line in header_list:    (对header中的每一行字符串line, 做如下操作)

  9     对字符串line,搜索第一个左括号(, 将第一个左括号( 左侧的英文串作为key,

  10     包含该左括号一直到最右侧分号之前的右括号)为止的字符串作为value

  11   将key value 添加到header_root中

  12   将"header"作为key, header_root作为value, 添加到step_root中

    (下面是对data部分处理)

  13  声明一个key-value类型变量data_root 用于存储data部分的结构化数据

  14  将data按照一行\n进行切分 data.split("\n"), 并存入一个数组(ArrayList) data_list, 每个元素是一行

  15  声明一个key-value类型变量 data_lines 用于映射实体 每一行的编号(实体表示) 和 对应属性

  16  for line in data_list:   (对于data中的每一行做如下操作:)

  17    对line按照 = 进行切分, 左侧 #数字 作为key, 右侧去掉; 作为value

  18    将key value 添加到data_lines 当中

  19   while data_lines 不为空:

  20    从data_lines中取出最先添加进来的键值对num-line,并在data_lines中删除这个键值对

  21    对line部分搜索第一个左括号(,第一个左括号左侧部分的英文串作为key

  22       第一个左括号和最后一个右括号之间的字符串存为临时字符串tmp

  23          声明一个可变类型数组list作为value, 稍后将值加入list

  24     对tmp按照逗号,进行切分 tmp.split(",") 并把每一项存入list中

  25     for cur in list:  (拿出list的每一项cur进行检查:)

  26     如果cur是能匹配成 #数字 的规则:

  27       调用子算法  构造子实体 算法, 将cur和data_lines传入,拿到返回值res,

  28       将list中的cur位置替换为res

  29     将key,value加入到data_root中

  30   将"data"作为key, data_root作为value,添加到step_root中

  31   将step_root转换json字符串step_json

  32   返回step_root 并 打印输出step_json

子算法: 构造子实体 算法(伪代码流程):

输入: 字符串cur, key-value类型 data_lines

输出: key-value类型 res

  1   声明一个key-value类型变量res

  2   在data_lines中用cur当作键来查找得到值tmp

  3   从data_lines中删除这对键值对cur-tmp

  4   对tmp搜索第一个出现左括号的位置,将第一个左括号左侧的英文串当做key

  5   对tmp第一个左括号和最后一个右括号之间的字符串存为line

  6   声明一个可变类型列表ArrayList变量list作为value,稍后加入元素

  7   对line按照逗号,切分  line.split(",") 并把每一项加入list中

  8   for s in list:  对list中的每一项做检查:

  9     如果 s 能匹配 #数字 这种规则:

  10      调用 构造子实体算法,传入s和data_lines, 拿到返回值res_tmp

  11      将list中s对应的位置替换成res_tmp

  12  将key,value添加到res当中

  13  返回res

附上一段python实现的demo

 def get_info(start, lines):
res = {}
tmp = lines[start]
lines.pop(start)
cut_position = tmp.find("(")
k, v = tmp[:cut_position], tmp[cut_position+1:-2].split(",")
for i, vv in enumerate(v):
v[i] = vv.strip()
if v[i].startswith("#"):
v[i] = get_info(v[i], lines)
res[k] = v
return res if __name__ == '__main__':
s = """
#1 = aa('',12,45,#2);
#2 = bb('',55, #3,33);
#3 = cc('', 234,jjj);
"""
lines = {} # 存放 #num 和右侧的映射关系
s = s.strip().split("\n")
for tmp in s:
tmp = tmp.split("=")
k = tmp[0].strip()
v = tmp[1].strip()
lines[k] = v
res = get_info("#1", lines)
print(res)

运行结果:

{'aa': ["''", '12', '45', {'bb': ["''", '55', {'cc': ["''", '234', 'jjj']}, '33']}]}

对step文件进行信息抽取算法的更多相关文章

  1. trie树信息抽取之中文数字抽取

    这一章讲一下利用trie树对中文数字抽取的算法.trie树是一个非常有用的数据结构,可以应用于大部分文本信息抽取/转换之中,后续会开一个系列,对我在实践中摸索出来的各种抽取算法讲开来.比如中文时间抽取 ...

  2. 【开源】C#信息抽取系统【招募C#队友】

    FDDC2018金融算法挑战赛02-A股上市公司公告信息抽取 更新时间 2018年7月11日 By 带着兔子去旅行 信息抽取是NLP里的一个实用内容.该工具的目标是打造一个泛用的自动信息抽取工具.使得 ...

  3. [APUE]系统数据文件与信息

    一.口令文件 UNIX口令文件包含下表中的各个字段,这些字段包含在 由于历史原因,口令文件是/bin/passwd,而且是一个文本文件,每一行都包括了上表中的七个字段,字段之间用":&quo ...

  4. (四) 一起学 Unix 环境高级编程(APUE) 之 系统数据文件和信息

    . . . . . 目录 (一) 一起学 Unix 环境高级编程 (APUE) 之 标准IO (二) 一起学 Unix 环境高级编程 (APUE) 之 文件 IO (三) 一起学 Unix 环境高级编 ...

  5. ACL2016信息抽取与知识图谱相关论文掠影

    实体关系推理与知识图谱补全 Unsupervised Person Slot Filling based on Graph Mining 作者:Dian Yu, Heng Ji 机构:Computer ...

  6. 百科知识 STEP文件如何打开

    使用任何的主流三维设计软件Pro/E.UG.CATIA.Solidworks等等都可以直接打开. STEP文件是通用格式,但是在打开的时候不同软件会生成不同的文件,下面是Solidworks打开的效果 ...

  7. MP3文件ID3信息编辑器代码开源 - 开源研究系列文章

    上次把磁性窗体的源码开源了,这次就开源另一个程序源码:MP3文件ID3信息编辑器.这个源码也比较简单,关键在于获取和写入MP3文件的这个ID3的信息即可. 这个操作信息编辑的就封装在MP3ID3.ba ...

  8. Tomcat下conf下server.xml的文件配置信息

    Tomcat下conf下server.xml的文件配置信息,基本上不用做任何修改就可以使用,修改的地方就是host区域的一些配置,此文件设置端口为80. 注意:Tomcat配置文件中(即server. ...

  9. Android根据文件路径使用File类获取文件相关信息

    Android通过文件路径如何得到文件相关信息,如 文件名称,文件大小,创建时间,文件的相对路径,文件的绝对路径等: 如图: 代码: public class MainActivity extends ...

随机推荐

  1. seaborn(2)---画分类图/分布图/回归图/矩阵图

    二.分类图 1. 分类散点图 (1)散点图striplot(kind='strip') 方法1: seaborn.stripplot(x=None, y=None, hue=None, data=No ...

  2. php析构函数什么时候调用?

    析构函数何时被调用 析构函数在下边3种情况时被调用: 对象生命周期结束,被销毁时: 主动调用delete :(推荐学习:PHP编程从入门到精通) 对象i是对象o的成员,o的析构函数被调用时,对象i的析 ...

  3. 20180519模拟赛T2——pretty

    [问题描述] 小美今天对于数列很有兴趣.小美打算找出一些漂亮的序列.一个漂亮的序列的限制如下: 长度为 n ,而且数列里只包含 [1,n] 的整数. 要不是不降的序列就是不升的序列. 小美想知道有多少 ...

  4. linux中/dev/null与2>&1讲解

    首先先来看下几种标识的含义: /dev/null 表示空设备文件 0 表示stdin标准输入 1 表示stdout标准输出 2 表示stderr标准错误 先看/dev/null command > ...

  5. 进程控制块 与 task_struct

    http://blog.csdn.net/qq_26768741/article/details/54348586 struct task_struct { volatile long state;  ...

  6. Arduino通过串口监视器收发数据

    在串口监视器中发送数据,板子收到数据并打印出来. 不需要额外电路,但是板子必须连接电脑,Arduino IDE的串口监视器也需要被打开. 代码 /* 串口事件 当新的串口数据到来时,我们会将它添加到一 ...

  7. [Algorithm] 387. First Unique Character in a String

    Given a string, find the first non-repeating character in it and return it's index. If it doesn't ex ...

  8. css实现步骤条(未封装组件)

    <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...

  9. itertools 高效的循环

    在打印内容字节数较小时,全部载入内存后,再打印,没有问题.可是,如果现在有成千上百万条车辆行驶轨迹,叫你分析出其中每个客户的出行规律,堵车情况等,假如是在单机上处理这件事. 你可能首先要面临,也可能被 ...

  10. Odds calculation required for the python strategy library

    Bet Class class strats.Bet(inp)[source] Here is an example of the expected string input on instantia ...