飞桨AI 文本实体抽取数据准备（excel 文本标注）

网纸： https://ai.baidu.com/easydl/app/deploy/tee/public

#!/usr/bin/env python3

# -*- coding: utf-8 -*-

# @mail    : lshan523@163.com

# @Time    : 2022/9/7 11:53

# @Author  : Sea

# @File    : 文本抽取.py

# @history:

# ****************************

import time

import random

import pandas as pd

from datetime import datetime, timedelta

# time: 2021-03-26 10:20:12   operator : Sea    milestone : SAD   bookingNo : 222231321212

def gen_no():

    tail = str(random.randint(1, 9)) + str(random.randint(1000, 9999))

    return time.strftime('%Y%m%d%H%M%S', time.localtime(time.time())) + tail

def gen_time():

    randint = random.randint(-100000000, 100000000)

    return time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(time.time() + randint))

def gen_miles():

    pass

    mile = ["BKD", "DEP", "RCF", "DDL", "DL1", "RCS", "OTH", "CCD", "EXP"]

    return mile[random.randint(0, len(mile) - 1)]

def gen_operator():

    mile = ["Sea", "Jeff", "Zero", "Dana", "stiff", "jack", "Ryan", "Tom", "Jerry", "happy", "Mini", "Syan", "Joan"]

    return mile[random.randint(0, len(mile) - 1)]

# time: 2021-03-26 10:20:12   operator : Sea    milestone : SAD   bookingNo : 222231321212

def prepare_data():

    return "time:" + gen_time() + "  operator:" + gen_operator() + "     milestone:" + gen_miles() + "     bookingNo:" + gen_no()

def write_data():

    with open("xxx.txt", mode='a+', encoding="utf-8") as file:

        for i in range(10):

            file.write(str(prepare_data() + "\n"))

        file.close()

def write_date_to_excel_marked():

    t = datetime.now().date() - timedelta(days=1)

    mark1_name = "时间"

    mark2_name = "操作者"

    mark3_name = "里程碑"

    mark4_name = "单号"

    # excel col

    data_set = {'文本内容': [],

                '实体标注1': [],

                '实体标注2': [],

                '实体标注3': [],

                '实体标注4': []

                }

    for i in range(1000):

        # time:2019-08-09 07:41:16   stiff   DDL   2022091318272387597

        mark1 = gen_time()

        mark2 = gen_operator()

        mark3 = gen_miles()

        mark4 = gen_no()

        data = ""

        data += mark1_name + ":" + mark1 + " " * 3

        start1 = data.find(mark1)

        mark1_loc = "[" + str(start1) + "," + str(start1 + len(mark1) - 1) + "]" + "," + mark1_name

        data += mark2_name + ":" + mark2 + " " * 3

        start2 = data.find(mark2)

        mark2_loc = "[" + str(start2) + "," + str(start2 + len(mark2) - 1) + "]" + "," + mark2_name

        data += mark3_name + ":" + mark3 + " " * 3

        start3 = data.find(mark3)

        mark3_loc = "[" + str(start3) + "," + str(start3 + len(mark3) - 1) + "]" + "," + mark3_name

        data += mark4_name + ":" + mark4 + " " * 3

        start4 = data.find(mark4)

        mark4_loc = "[" + str(start4) + "," + str(start4 + len(mark4) - 1) + "]" + "," + mark4_name

        data_set["文本内容"].append(data)

        data_set["实体标注1"].append(mark1_loc)

        data_set["实体标注2"].append(mark2_loc)

        data_set["实体标注3"].append(mark3_loc)

        data_set["实体标注4"].append(mark4_loc)

    writer = pd.ExcelWriter(path='demo-%d%02d%02d.xlsx' % (t.year, t.month, t.day), mode="w", engine='xlsxwriter')

    pd.DataFrame(data_set).to_excel(writer, sheet_name='Sheet1', index=False, header=True, startrow=0)

    # add format

    workbook = writer.book

    worksheet1 = writer.sheets['Sheet1']

    fmt = workbook.add_format({"font_name": u"宋体"})

    # 设置列宽行宽

    worksheet1.set_column('B:F', 20, fmt)

    worksheet1.set_column('A:B', 70, fmt)

    writer.save()

if __name__ == '__main__':

    # data = "012345678"

    # print(data.find("67"))

    write_date_to_excel_marked()

飞桨AI 文本实体抽取数据准备（excel 文本标注）的更多相关文章

【百度飞桨】手写数字识别模型部署Paddle Inference
从完成一个简单的『手写数字识别任务』开始,快速了解飞桨框架 API 的使用方法. 模型开发『手写数字识别』是深度学习里的 Hello World 任务,用于对 0 ~ 9 的十类数字进行分类,即输入 ...
提速1000倍，预测延迟少于1ms，百度飞桨发布基于ERNIE的语义理解开发套件
提速1000倍,预测延迟少于1ms,百度飞桨发布基于ERNIE的语义理解开发套件 11月5日,在『WAVE Summit+』2019 深度学习开发者秋季峰会上,百度对外发布基于 ERNIE 的语义理解 ...
【一】ERNIE：飞桨开源开发套件，入门学习，看看行业顶尖持续学习语义理解框架，如何取得世界多个实战的SOTA效果？
参考文章: 深度剖析知识增强语义表示模型--ERNIE_财神Childe的博客-CSDN博客_ernie模型 ERNIE_ERNIE开源开发套件_飞桨 https://github.com/Pad ...
[开源]开放域实体抽取泛用工具 NetCore2.1
开放域实体抽取泛用工具 https://github.com/magicdict/FDDC 更新时间 2018年7月16日 By 带着兔子去旅行开发这个工具的起源是天池大数据竞赛,FDDC2018金 ...
scrapy爬虫成长日记之创建工程-抽取数据-保存为json格式的数据
在安装完scrapy以后,相信大家都会跃跃欲试想定制一个自己的爬虫吧?我也不例外,下面详细记录一下定制一个scrapy工程都需要哪些步骤.如果你还没有安装好scrapy,又或者为scrapy的安装感到 ...
【AI in 美团】深度学习在文本领域的应用
背景近几年以深度学习技术为核心的人工智能得到广泛的关注,无论是学术界还是工业界,它们都把深度学习作为研究应用的焦点.而深度学习技术突飞猛进的发展离不开海量数据的积累.计算能力的提升和算法模型的改进. ...
ASP.NET MVC 表单提交多层子级实体集合数据到控制器中
于遇到了项目中实体类嵌套多层子级实体集合,并且子级实体集合的数据需要提交保存到数据库中的问题.针对此情况需要进行一些特殊的处理才可以将整个实体类及子级实体集合数据提交表单到控制器中,解决的方法是根据 ...
文本主题抽取：用gensim训练LDA模型
得知李航老师的<统计学习方法>出了第二版,我第一时间就买了.看了这本书的目录,非常高兴,好家伙,居然把主题模型都写了,还有pagerank.一路看到了马尔科夫蒙特卡罗方法和LDA主题模型这 ...
数据仓库之抽取数据：openrowset函数带bulk操作符的用法
原文:数据仓库之抽取数据:openrowset函数带bulk操作符的用法在做数据仓库时,最重要的就是ETL的开发,而在ETL开发中的第一步,就是要从原OLTP系统中抽取数据到过渡区中,再对这个过渡区 ...
破局AI落地难，数据标注行业需率先变革丨曼孚科技
2019年,国内人工智能领域的投融资热情大幅降低,相当数量的AI企业彻底消失在了历史的长河中,“人工智能寒潮已至”甚至成为行业年度热词. 与前几年创业与投资热情齐头并进的盛况相比,近段时间的AI行业 ...

随机推荐

java自定义的异常类
java自定义的异常类 1.自定义异常类,需要继承 RuntimeException @Datapublic class EmployeeCheckException extends RuntimeE ...
wxPython绘图API
简单介绍一个Pthon的绘图库wxPython. GDI+(图形绘制接口),CoreGraphics和Cairo库形成wxPython绘图API的框架.wx.GraphicsContext是主要绘制对 ...
使用logback需要导入的jar包
jar包名 logback-access-1.1.2.jar logback-classic-1.1.2.jar logback-core-1.1.2.jar slf4j-api-1.7.25.jar ...
基于Jenkins实现可腹部回滚的cicd平台
Jenkins :是一个开源的实现持续集成的工具,可以实施监控持续集成过程中所存在的问题,提供详细的日志文件和提醒功能,还能用图表的形式直观的展示出项目构建的趋势和稳定性 maven:只有在Java项 ...
如何在超星下载非资料页面的ppt
首先打开迅雷(没有就复制到网页下载) 点击f12 点击网络,筛查出输入flag,在响应模块中找到ppt,复制网址并下载
安卓10.0蓝牙HIDL的直通式初始化流程
本文仅介绍扼要的流程,没有系统化介绍. 首先从system\bt\hci\src\hci_layer_android.cc文件的函数void hci_initialize() 开始初始化: void ...
面向对象程序设计第二章 C++简单的程序设计
目录 C++语言的特点 1.兼容C语言 · 它保持了C的简洁.高效和接近汇编语言等特点. · 对C的类型系统进行了改革和扩充. · C++也支持面向过程的程序设计,不是一个纯正的面向对象的语言 2.支 ...
Arrays.asList()的使用
JDK文档说明: @SafeVarargs public static <T> List<T> asList(T... a) 返回由指定数组支持的固定大小的列表(将返回的列表更 ...
狐漠漠养成日记 Cp.00002 第一周
主要目标 (1)考研考研数学二16-22年的真题卷(已完成真题卷:0/7) 记忆考研英语中高频词汇(已记忆词汇:高频:0/10:中频:0/10) 考研英语二16-22年的真题卷(已完成真题卷:0/7 ...
PLC入门笔记10
梯形图电路之顺序控制顺序控制功能图顺序控制功能图的梯形图表达编程原则实例分析 SMo0.1西门子首次扫描时为ON,常用作初始化脉冲这是台达的这是优控的..

飞桨AI 文本实体抽取 数据准备（excel 文本标注）

飞桨AI 文本实体抽取 数据准备（excel 文本标注）的更多相关文章

随机推荐

热门专题

飞桨AI 文本实体抽取数据准备（excel 文本标注）

飞桨AI 文本实体抽取数据准备（excel 文本标注）的更多相关文章