pyautogui_pdf内容提取到excel内

python入门经典视频系列教程（免费，2K超清，送书）

https://study.163.com/course/courseMain.htm?courseId=1006183019&share=2&shareId=400000000398149

程序增加了智能判断时间功能，根据pdf文档页数来调整等待时间，页数越长，时间越长，反之亦然。

如果读取页数出错，说明pdf文档质量不好，则返回10秒等待时间

这样降低了错误率。

# -*- coding: utf-8 -*-

"""
作者QQ:231469242

Created on Thu May 12 11:22:57 2016

excel 会自动保存，不用再自己保存

提示：运行一次anaconda后要重新启动，anaconda和pyautogui有点不兼容

其它软件突然弹出会扰乱程序，例如杀毒软件，搜狗，对话框等弹出

pdf字符串超过8192个，也会出错，复制错位pdf

pdf内容第一个字符是等号或减号时，会提示出错信息

#最新操作法：

0.批量导入pdf文件名到excel内

1.读取所有pdf文件名，保存到list_pdf_fileNames

2.准备工作：打开pdf和excel

3.循环把所有pad内容复制粘贴到excel内

    3.1输入PDF文件名,并进入,全选内容，复制pdf内容

    3.2返回桌面，打开excel

    3.3pdf内容复制到cell内

    3.4  保存excel，关闭excel

4.保存excel，关闭excel；关闭pdf

excel快捷键：

窗口最大化：ctrl+F10

进入相应cell:F2:

切换：Alt+tab

保存：ctrl+s

关闭： alt+f4

pdf快捷键：

打开pdf文档：ctrl+o

全选：ctrl+a

复制：ctrl+c

粘贴：ctrl+v

关闭pdf文档：ctrl+w

关闭Adobe：ctrl+q

@author: Administrator

"""

import pyautogui,time,os,PyPDF2,xlrd

#任务栏锁定excel坐标（101,876） pdf坐标（174,875）

office_dir_pdf_files="C:/Users/Administrator/Desktop/pdf批量提取到excel/guide_pdf/"

home_dir_pdf_files="C:/Users/daxiong/Desktop/李佳pdf中文提取/guide_pdf/"

dir="C:/Users/Administrator/Desktop/pdf批量提取到excel/guide_pdf/"

data=xlrd.open_workbook("C:/Users/Administrator/Desktop/test1.xlsx")

table=data.sheet_by_index(0)

list_pdf_fileNames=table.col_values(0)

def Get_time(i):

    filename=dir+list_pdf_fileNames[i]

    try:

        pdfFileObj=open(filename,'rb')

        pdfReader=PyPDF2.PdfFileReader(pdfFileObj)

        pages=pdfReader.numPages #显示页数 在第4100行时读取pdfReader也会出错

    except:

        #print ("wrong when read pdf:",filename)

        sleepTime=10

        return sleepTime

    if pages<=5:

        sleepTime=2

    elif 5<pages<=10:

        sleepTime=3

    elif 10<=pages<20:

        sleepTime=5

    elif 20<=pages<30:

        sleepTime=7

    else:

        sleepTime=int(pages/6)

    return sleepTime

#返回桌面,打开pdf

def Return_desktop_open_pdf():

    #pyautogui.hotkey("winleft","d")

    #time.sleep(1)

    #打开存储PDF软件；（50,50）为pdf坐标

    pyautogui.click(174,875)

    time.sleep(1)

#返回桌面,打开excel

def Return_desktop_open_excel():

    #pyautogui.hotkey("winleft","d")

    #time.sleep(1)

    #打开存储excel软件；（55,189）为excel坐标

    pyautogui.click(101,876)

    time.sleep(1)  #双击安全参数5，特别是后期数据量变大

#保存，关闭excel

def Save_and_close_excel():

    pyautogui.hotkey("ctrl","s")

    time.sleep(10) #安全参数5-10

    #pyautogui.hotkey("alt","f4")

    #time.sleep(1) #安全参数2

#excel复制一个单元格内容

def Excel_copy_oneCellContent(i):

    pyautogui.press("f2")

    time.sleep(1)

    #粘贴信息

    pyautogui.hotkey("ctrl","v")

    sleeptime=Get_time(i)

    time.sleep(sleeptime)  #安全参数10

    pyautogui.press("enter")

    time.sleep(1)

    #pyautogui.hotkey("winleft","d")

    #time.sleep(1)

def Copy_one_pdfToExcel(i):

    fileName=list_pdf_fileNames[i]

    #循环把所有pad内容复制粘贴到excel内

    #打开存储PDF软件；（55,189）为pdf坐标

    pyautogui.click(174,875)

    time.sleep(1)

    pyautogui.hotkey("ctrl","o")

    time.sleep(1)

    #2.1输入PDF文件名,并进入

    pyautogui.typewrite(fileName)

    time.sleep(1)

    pyautogui.press("enter")

    time.sleep(1)

    #选中pdf全部内容

    pyautogui.hotkey("ctrl","a")

    time.sleep(1)

    sleeptime=Get_time(i)  #安全参数10

    #复制所有内容,等待时间设置长一点

    pyautogui.hotkey("ctrl","c")

    time.sleep(sleeptime)

    #关闭pdf文档

    pyautogui.hotkey("ctrl","w")

    time.sleep(1)  #安全参数2

    #print("ok for test")

    #2.2返回桌面，打开excel

    Return_desktop_open_excel()

    #print("ok for test1")

    #excel复制一个单元格内容

    Excel_copy_oneCellContent(i)

    #print("ok for test2")

#准备工作：excel的cell默认锁定位置是（B,2），最大化

pyautogui.doubleClick(50,50)

time.sleep(5)  #安全参数5，特别是后期数据量变大

pyautogui.hotkey("winleft","d")

time.sleep(1)

#循环把所有pad内容复制粘贴到excel内

for i in range(len(list_pdf_fileNames)):

    Copy_one_pdfToExcel(i)

#3.关闭Adobe acrobat9.0

pyautogui.hotkey("ctrl","q")

https://study.163.com/provider/400000000398149/index.htm?share=2&shareId=400000000398149（欢迎关注博主主页，学习python视频资源，还有大量免费python经典文章）

pyautogui_pdf内容提取到excel内_3的更多相关文章

POI根据EXCEL模板，修改内容导出新EXCEL （只支持HSSF）
package excelPoiTest; import java.io.File; import java.io.FileInputStream; import java.io.FileOutput ...
html table表格导出excel的方法 html5 table导出Excel HTML用JS导出Excel的五种方法 html中table导出Excel 前端开发将table内容导出到excel HTML table导出到Excel中的解决办法 js实现table导出Excel，保留table样式
先上代码 <script type="text/javascript" language="javascript"> var idTmr; ...
PHP读取Excel内的图片
今天接到了一个从Excel内读取图片的需求,在网上查找了一些资料,基本实现了自己的需求,不过由于查到的一些代码比较久远,不能直接移植到自己的项目里,需要稍加改动一下. 这里介绍一下分别使用phpspr ...
将页面上的内容导出到Excel
<asp:Button ID="lkbExport" runat="server" Name="Save" Text="导出 ...
使用NPOI将TABLE内容导出到EXCEL
项目中需要将页面中的table内容导出到EXCEL,在用了几种方法后发现NPO是最快&最好的需要应用 NPOI.dll 还有个Ionic.Zip.dll不知道有用没,没去研究,两个DLL都放 ...
Python即时网络爬虫项目: 内容提取器的定义(Python2.7版本)
1. 项目背景在Python即时网络爬虫项目启动说明中我们讨论一个数字:程序员浪费在调测内容提取规则上的时间太多了(见上图),从而我们发起了这个项目,把程序员从繁琐的调测规则中解放出来,投入到更高端 ...
Python即时网络爬虫项目: 内容提取器的定义
1. 项目背景在python 即时网络爬虫项目启动说明中我们讨论一个数字:程序员浪费在调测内容提取规则上的时间,从而我们发起了这个项目,把程序员从繁琐的调测规则中解放出来,投入到更高端的数据处理工作 ...
API例子：用Java/JavaScript下载内容提取器
1,引言本文讲解怎样用Java和JavaScript使用 GooSeeker API 接口下载内容提取器,这是一个示例程序.什么是内容提取器?为什么用这种方式?源自Python即时网络爬虫开源项目: ...

随机推荐

作业七：Linux内核如何装载和启动一个可执行程序
作业七:Linux内核如何装载和启动一个可执行程序一.编译链接的过程和ELF可执行文件格式可执行文件的创建——预处理.编译和链接在object文件中有三种主要的类型. 一个可重定位(reloca ...
ubuntu——caffe配置deeplab
1. 下载deeplab 2. 安装matio sudo apt-get install libmatio-dev 3. 修改Makefile文件 LIBRARIES += glog gflags p ...
HDOJ2010_水仙花数
一道水题.一直出现Output Limit Exceeded的原因是在while循环中没有终止条件的时候会自动判断并报错,写的时候忘记加!=EOF结束标识了. HDOJ2010_水仙花数 #inclu ...
JavaScript 作用域链与闭包
作用域链在某个作用域访问某个变量或者函数时,会首先在自己的局部环境作用域中搜寻变量或者函数,如果本地局部环境作用域中有该变量或者函数,则就直接使用找到的这个变量值或者函数:如果本地局部环境作用域中没 ...
OSI的七层模型介绍
应用层: 文件传输,电子邮件,文件服务,虚拟终端 TFTP,HTTP,SNMP,FTP,SMTP,DNS,Telnet 表示层: 数据格式化,代码转换,数据加密没有协议. (信息的语法语义以及它们的 ...
python matplotlib绘图
import numpy as np import matplotlib.pyplot as plt from scipy.constants.constants import alpha from ...
几种实现one-hot编码的方式
方法1 之前写使用sklearn进行数据挖掘-房价预测(4)-数据预处理一文中处理标签类特征时候已经提到过,使用sklearn中提供的LabelEncoder和OneHotEncoder方法 a = ...
Django admin 一些有用的设置
Django自带的后台管理是Django明显特色之一,可以让我们快速便捷管理数据.后台管理可以在各个app的admin.py文件中进行控制.以下是我最近摸索总结出比较实用的配置.若你有什么比较好的 ...
error eslint@5.12.0: The engine "node" is incompatible with this module.
初始化 react项目时报错: error eslint@5.12.0: The engine "node" is incompatible with this module. E ...
c-lodop云打印实现手机打印 JS语句打印
Lodop和c-lodop目前只能安装到windows操作系统上,但是其他操作系统可通过向C-Lodop安装的电脑发送打印任务,实现手机广域网或局域网打印,打印语句也是简单的JS语句,可以轻松实现云打 ...

pyautogui_pdf内容提取到excel内_3

python入门经典视频系列教程（免费，2K超清，送书）

pyautogui_pdf内容提取到excel内_3的更多相关文章

随机推荐

热门专题