python读取word文档,插入mysql数据库实例
表格内容如下:
1、实现批量导入word文档,取文档标题中的数字作为编号
2、除取上面打钩的内容需要匹配出来入库入库,其他内容全部直接入库mysql
# wuyanfeng
# -*- coding:utf-8 -*-
# 读取docx中的文本代码示例
import docx
import pymysql
import re
import os
# 创建数据库链接
conn = pymysql.connect(
host='rm-bp1vu5d84dg12c6d59o.mysql.rds.aliyuncs.com',
port=3306,
user='root',
passwd='wYf092415*',
db='pays',
charset='utf8',
)
# 创建游标
cursor = conn.cursor()
#切片函数
def section(info,key,len11):
a = len(info)
print(a, type(a))
d = []
e = 0
g = -1
i = 0
task_class=[]
while i < len(info):
# for i in range(len(info)):
# i+=1
print("i::::", i)
try:
#c = info.index("a", e)
#print("c:::::", c)
c = info.index(key, e)
#print("c:::::", c)
print("c类型判断",type(c))
except ValueError:
print(ValueError)
try:
if (c != '') & (g < int(c)):
d.append(c)
g = c
i = c + 1
print("illlldddd:", i)
e = c + 1
continue
elif (c == ''):
break
except UnboundLocalError:
print(UnboundLocalError)
return task_class
break
print("d", d, type(d))
print(d[0], type(d[0]))
print("d的长度:",len(d))
#开始切片
if len(d) != 0:
for j in range(len(d)):
print("info11:::", info, type(info))
info = ''.join(info)
print("info222:::",info,type(info))
print("d[%d]"%j,d[j])
#print("d[j]:5"%j,info[d[j]:5])
llll = info[d[j]+1:d[j]+5]
print("d[%d]:5" % j, llll)
task_class.append(llll)
print("task_class::11", task_class)
task_class=",".join(task_class)
print("str1112222",task_class)
return task_class
def insettable(file):
print("file::::::::::::::::::::", file)
print("type::::::::::::::::::::", type(file))
# file1 = file
# file1 = str(file1)
ddd = re.findall("知识库\\\(\d+)", file)
print("ddd:::::::::::", ddd)
print("ddd[0]:::", ddd[0])
ddd = int(ddd[0])
print("ddd::::", type(ddd))
file = docx.Document(file)
# 读取表格:
t = file.tables[0]
print(t)
print("1:", t.cell(0, 0).text) # 1
cell1 = t.cell(0, 0).text
print("tyep::::", type(t.cell(0, 0).text))
print("2:", t.cell(0, 1).text) # 2
cell2 = t.cell(0, 1).text
print("2:", t.cell(0, 2).text) # 2
cell3 = t.cell(0, 2).text
print("2:", t.cell(0, 3).text) # 2
cell4 = t.cell(0, 3).text
print("cell4:::::::::", cell4)
print("3:", t.cell(1, 0).text) # 3
cell5 = t.cell(1, 0).text
print("4:", t.cell(1, 2).text) # 4
cell6 = t.cell(1, 2).text
print("5:", t.cell(1, 3).text) # 5
task_type = t.cell(1, 3).text
# task_type = re.findall('.*[√](.*)$', cell7)
# task_type = ''.join(cell7)
print("task_type111111:", task_type)
# task_class = task_class[0:4]
'''低级处理方式
a = int(task_type.count(""))
print("a|||||||", a, type(a))
b = int(task_type.count("√"))
print("b|||||||", b, type(a))
if (a == 1) | (b == 1):
print("111111111111111111")
# task_type = re.findall('.*[√](.*)$', task_type)
task_type = re.findall('.*[√](.*)$', task_type)
print("task_type1", task_type)
task_type = ''.join(task_type)
print("task_type2", task_type)
task_type = task_type[0:4]
print("task_type3:d:%s,b=%d" % (a, b), task_type)
elif (a == 0) & (b == 0):
print("2222222222222222222")
task_type = '法定职责'
print("a:%s,b=%s" % (a, b), task_type)
elif (a == 2) | (b == 2):
print("333333333333333333333")
task_type = '法定职责,工作职责 '
print("a:%s,b=%s" % (a, b), task_type)
'''
#调用切片函数
task_type1 = section(task_type, "√", 4)
task_type2 = section(task_type, "", 4)
task_type1 = "".join(task_type1)
task_type2 = "".join(task_type2)
print("task_type1:::", task_type1,type(task_type1))
print("task_type2:::", task_type2,type(task_type2))
if task_type1.strip()!="":
task_type = task_type1
print("task_type111:::", task_type1)
elif task_type2.strip()!="":
task_type = task_type2
print("task_type222:::", task_type2)
print("6:", t.cell(1, 4).text) # 6
cell8 = t.cell(1, 4).text
print("7:", t.cell(2, 1).text) # 7
cell9 = t.cell(2, 1).text
# 获取文档对象
# file = docx.Document("D:\\配置库\\公案APP\\1.2 系统规格\\知识库\\14人员死亡先期处置.docx")
print("段落数:" + str(len(file.paragraphs))) # 段落数为13,每个回车隔离一段
lenn = len(file.paragraphs)
print("len:", lenn)
# 输出每一段的内容
for para in file.paragraphs:
print(para.text)
# 输出段落编号及段落内容
for i in range(len(file.paragraphs)):
print("第" + str(i) + "段的内容是:" + file.paragraphs[i].text)
list6 = []
for i in range(len(file.paragraphs)):
if 0 == i:
print("i:", i)
lis0 = file.paragraphs[i].text
print("list0:", lis0)
print(type(lis0))
elif 1 == i:
print("i:", i)
task_class = file.paragraphs[i].text
print("lis1", task_class,type(task_class))
'''低级处理方式
print("task_class111111:", task_class)
c = int(task_class.count(""))
task_class = ''.join(task_class)
#print(task_class.index(''))
print("c|||||||", c, type(c))
d = int(task_class.count("√"))
print(task_class.index('√'))
print("d|||||||", d, type(d))
task_class = re.findall(r'[√](?:.*)', task_class)
task_class = ''.join(task_class)
task_class = task_class[1:5]
print("task_class", task_class)
'''
#调用切片函数
task_class1 = section(task_class, "√", 4)
task_class2 = section(task_class, "", 4)
task_class1 = "".join(task_class1)
task_class2 = "".join(task_class2)
print("task_class1:::", task_class1,type(task_class1))
print("task_class2:::", task_class2,type(task_class2))
if task_class1.strip()!="":
task_class = task_class1
print("task_class11:::", task_class1)
elif task_class2.strip()!="":
task_class = task_class2
print("task_class22:::", task_class2)
if 2 == i:
print("i:", i)
lis2 = file.paragraphs[i].text
print("lis2", lis2)
print(type(lis2))
preparer = re.findall('填表单位:(.*?)$', lis2)
preparer = ''.join(preparer)
print("preparer:%s" % preparer)
# elif 3 == i:
# print("i:", i)
# lis3 = file.paragraphs[i].text
elif 3 == i:
print("i:", i)
lis4 = file.paragraphs[i].text
print("lis4", lis4)
print(type(lis4))
elif 3 < i < lenn - 1:
print("i:", i)
print(file.paragraphs[i].text)
print(type(file.paragraphs[i].text))
# list6[i-5] = list6.append(file.paragraphs[i].text)
list6.append(str(file.paragraphs[i].text).strip('\xa0'))
# list6.append("%s\n" % str(file.paragraphs[i].text).strip('\xa0'))
print(list6)
key_steps = "\n".join(list6)
# print("key_steps:\n",key_steps.strip('\n'))
cursor.execute(
"insert into `t_knowledge_base` (`no`, `preparer`, `task_class`, `task_name`, `task_specification`, `task_type`, `task_desc`, `task_basis`, `key_steps`) values ('%d','%s','%s','%s','%s','%s','%s',NULL,'%s')" % (
ddd, preparer, task_class, cell2, cell4, task_type, cell9, key_steps))
conn.commit()
def traverse(f):
fs = os.listdir(f)
for f1 in fs:
tmp_path = os.path.join(f, f1)
if not os.path.isdir(tmp_path):
print('文件: %s' % tmp_path)
insettable(tmp_path)
else:
print('文件夹:%s' % tmp_path)
traverse(tmp_path)
path = 'D:\\配置库\公案APP\\1.2 系统规格\\知识库'
traverse(path)
#单文件调测
# path = 'D:\\配置库\\公案APP\\1.2 系统规格\\知识库\\14人员死亡先期处置.docx'
# insettable(path)
# 关闭游标
cursor.close()
# 关闭连接
conn.close()
python读取word文档,插入mysql数据库实例的更多相关文章
- Python读取word文档内容
1,利用python读取纯文字的word文档,读取段落和段落里的文字. 先读取段落,代码如下: 1 ''' 2 #利用python读取word文档,先读取段落 3 ''' 4 #导入所需库 5 fro ...
- Python读取word文档(python-docx包)
最近想统计word文档中的一些信息,人工统计的话...三天三夜吧 python 不愧是万能语言,发现有一个包叫做 docx,非常好用,具体查看官方文档:https://python-docx.read ...
- 2018-10-04 [日常]用Python读取word文档中的表格并比较
最近想对某些word文档(docx)的表格内容作比较, 于是找了一下相关工具. 参考Automate the Boring Stuff with Python中的word部分, 试用了python-d ...
- python读取word文档
周末需要做一个统计word文档字数的问题,刚开始以为很简单,因为之前做过excel表格相关的任务,所以认为利用扩展模块应该比较简单. 通过搜索,确实搜到了一个python操作word的模块,pytho ...
- java读取Excel文档插入mysql
/** * 读取excel插入myslq */package com.excel; import java.io.BufferedInputStream;import java.io.File;imp ...
- 利用POI工具读取word文档并将数据存储到sqlserver数据库中
今天实现了利用POI工具读取word文档,并将数据存储到sql数据库中,代码如下: package word; import java.io.File; import java.io.FileInpu ...
- Python之word文档模板套用 - 真正的模板格式套用
Python之word文档模板套用: 1 ''' 2 #word模板套用2:套用模板 3 ''' 4 5 #导入所需库 6 from docx import Document 7 ''' 8 #另存w ...
- C#读取Word文档内容代码
首先要添加引用com组件:然后引用: using Word = Microsoft.Office.Interop.Word; 获取内容: /// /// 读取 word文档 返回内容 /// //// ...
- C#如何向word文档插入一个新段落及隐藏段落
编辑Word文档时,我们有时会突然想增加一段新内容:而将word文档给他人浏览时,有些信息我们是不想让他人看到的.那么如何运用C#编程的方式巧妙地插入或隐藏段落呢?本文将与大家分享一种向Word文档插 ...
- Python datatime 格式转换,插入MySQL数据库
Python datatime 格式转换,插入MySQL数据库 zoerywzhou@163.com http://www.cnblogs.com/swje/ 作者:Zhouwan 2017-11-2 ...
随机推荐
- 解决org.apache.ibatis.binding.BindingException: Invalid bound statement (not found)问题
解决org.apache.ibatis.binding.BindingException: Invalid bound statement (not found)问题 需要检查的步骤: 1.是否map ...
- ChatGPT与人工智能
一.ChatGPT相关信息 1.微软新版Bing搜索引擎集成ChatGPT,访问地址:https://www.bing.com/new 2.谷歌版ChatGPT灾难级发布,市值一夜狂跌7000亿,熬夜 ...
- c++标准库string的使用完美总结——十分详细,复习学习记忆都可以使用
std::string详解 之所以抛弃char*的字符串而选用C++标准程序库中的string类,是因为他和前者比较起来,不必 担心内存是否足够.字符串长度等等,而且作为一个类出现,他集成的操作函数足 ...
- STM32F4库函数初始化系列:串口发送
1 void Configuration(void) 2 { 3 USART_InitTypeDef USART_InitStructure; 4 GPIO_InitTypeDef GPIO_Init ...
- 体验AI乐趣:基于AI Gallery的二分类猫狗图片分类小数据集自动学习
摘要:直接使用AI Gallery里面现有的数据集进行自动学习训练,很简单和方便,节约时间,不用自己去训练了,AI Gallery 里面有很多类似的有趣数据集,也非常好玩,大家一起试试吧. 本文分享自 ...
- CyNix: 1
CyNix: 1 目录 CyNix: 1 1 信息收集 1.1 端口扫描 1.2 后台目录扫描 1.2.1 目录分析 2 GetShell 2.1 赋予id_rsa文件600权限,否则会报错,无法连接 ...
- CCRD_TOC_2008年第7和第8期(ACR专辑)
中信国健临床通讯 2008年第7.第8期合刊 ACR专辑 目 录 强直性脊柱炎 1. 一项随机对照和开放性延伸期试验:TNF拮抗剂治疗放射学前中轴型脊柱关节病 Boettger MK, et al ...
- 推荐系统[八]算法实践总结V2:排序学习框架(特征提取标签获取方式)以及京东推荐算法精排技术实战
0.前言 「排序学习(Learning to Rank,LTR)」,也称「机器排序学习(Machine-learned Ranking,MLR)」 ,就是使用机器学习的技术解决排序问题.自从机器学习的 ...
- Spark Streaming实时计算
spark批处理模式: receiver模式:接收数据流,负责数据的存储维护,缺点:数据维护复杂(可靠性,数据积压等),占用计算资源(core,memory被挤占) direct模式:数据源由三方组件 ...
- Kotlin学习-类(嵌套类,内部类,数据类,静态类)及类扩展
一般类形式: class Person(var name: String){//构造函数放在类头部 var age = 1 var fulName: String var address = &quo ...