Python标准库tempfile的使用总结

临时文件是计算机程序存储临时数据的文件,它的扩展名通常是“.temp”。本文用于记录使用Python提供的临时文件API解决实际问题的过程,主要内容包括问题描述、tempfile库简要介绍、解决方案等。

问题描述

一些开源工具提供的接口有时不能满足特定场景下的需求,需要根据实际情况进行调整。比如基于Java的自动文摘工具PKUSUMSUM,它接收一篇文章作为输入,输出文章的摘要,要求输入输出都是磁盘上的文件:

java -jar PKUSUMSUM.jar -T 1 -input [输入文件] -output [输出文件] -L 2 -n 15 -m 5 -stop n

由于我的代码是用Python写的,需要进行摘要抽取的文章已经加载到内存了,并且通过工具生成摘要以后需要马上进行评测,自动文摘工具PKUSUMSUM提供的接口没办法直接满足我的需求。Python脚本怎样调用Jar包?内存中的文章怎样作为PKUSUMSUM的输入?PKUSUMSUM输出的摘要怎样读入到内存中?

tempfile库

通过查阅资料,我了解到Python标准库中有名字叫tempfile的模块,这个模块实现了创建临时文件和文件夹的功能,相关接口包括:

  1. TemporaryFile:创建临时文件,一旦文件关闭,就立即被销毁;
  2. NamedTemporaryFile:创建有名字的、在文件系统中可见的临时文件,可以通过指定delete参数设置文件关闭时的行为;
  3. TemporaryDirectory:创建临时文件夹;
  4. mkstemp():创建临时文件,需要手动关闭和销毁;
  5. mkdtemp():创建临时文件夹,需要手动关闭和销毁。

其中14实现了上下文管理器协议(实现了`__enter__`和`__exit__`两个特殊方法),配合`with`关键字使用,可以方便地自动关闭文件;56是低阶API,使用完临时文件或文件夹以后,需要手动关闭。

import tempfile  # # 导入模块
from pathlib import Path fin = tempfile.TemporaryFile(mode='w', encoding='utf8') # 创建临时文件
fin.name # C:\\Users\\ADMINI~1\\AppData\\Local\\Temp\\tmpi1ozv3mj
Path(fin.name).exists() # True,临时文件是存在的
fin.delete # True,delete参数的默认值是True,表示文件关闭以后,立即销毁 with fin.file as fp: # 上下文管理器自动关闭文件
content = bytes('The quick brown fox jumps over the lazy dog', 'utf8')
fp.write(content) Path(fin.name).exists() # False,临时文件已经被销毁

解决方案

回到我们的问题:

  1. Python脚本怎样调用Jar包?

    我们可以使用os模块的system方法执行Shell命令,调用Jar包:

    os.system(f'java -jar PKUSUMSUM.jar -T 1 -input {fin.name} -output {fout.name} -L 2 -n 15 -m {algo_id} -stop n')
  2. 内存中的文章怎样作为PKUSUMSUM的输入?

    我们可以首先把文章写入到临时文件中,然后通过引用临时文件的name属性,就可以把文章当成本地文件那样使用了:

    # 把文章写入到临时文件中
    fin = tempfile.NamedTemporaryFile(delete=False)
    fin.close()
    with open(Path(fin.name), mode='w', encoding='utf8') as fp:
    fp.write(text)

    注意临时文件必须要先关闭,然后才能往文件里面中写内容,否则会触发Permission denied异常。

  3. PKUSUMSUM输出的摘要怎样读入到内存中?

    思路与第二个问题一样,创建临时文件并通过name属性进行引用,临时文件销毁前读出里面的内容(就是PKUSUMSUM抽取出的摘要)。

完整的代码如下:

def do_extractive_summarization(text: str, algo: str = 'TextRank') -> str:
"""基于PKUSUMSUM实现抽取式摘要算法"""
algo_warehouse = {'Centroid': 2, 'ILP': 3, 'LexPageRank': 4, 'TextRank': 5, 'Submodular': 6}
if algo not in algo_warehouse:
raise ValueError(f'Invalid extractive summarization algorithm: {algo}')
algo_id = algo_warehouse[algo] # 把文章写入到临时文件中
fin = tempfile.NamedTemporaryFile(delete=False)
fin.close()
with open(Path(fin.name), mode='w', encoding='utf8') as fp:
fp.write(text) # 运行PKUSUMSUM.jar,把生成的摘要写入到临时文件中
fout = tempfile.NamedTemporaryFile(delete=False)
fout.close()
os.system(f'java -jar PKUSUMSUM.jar -T 1 -input {fin.name} -output {fout.name} -L 2 -n 15 -m {algo_id} -stop n') with open(Path(fout.name), mode='r', encoding='utf8') as fp:
content = fp.read()
summary = ' '.join(word_tokenize(content))
Path(fin.name).unlink()
Path(fout.name).unlink() return summary

总结

Python的tempfile模块提供了方便的创建临时文件和文件夹的接口,这些接口配合在Python脚本中执行Shell命令的方法一起使用,可以在开源工具和自己的代码之间创建一个“适配层”(我在写些什么?我怎么自己都看不懂?);PKUSUMSUM实现了多种抽取式摘要算法,是自动文摘研究的利器。

参考材料

Python标准库tempfile的使用总结的更多相关文章

  1. Python标准库概览

    Python标准库通常被称为"自带的电池",自然地提供了广泛的功能,涵盖了大概200个左右的包与模块.不断有高质量的包或模块被开发出来,极大的丰富了标准库.但有些模块放在标准库中很 ...

  2. python第六天 函数 python标准库实例大全

    今天学习第一模块的最后一课课程--函数: python的第一个函数: 1 def func1(): 2 print('第一个函数') 3 return 0 4 func1() 1 同时返回多种类型时, ...

  3. 转--Python标准库之一句话概括

    作者原文链接 想掌握Python标准库,读它的官方文档很重要.本文并非此文档的复制版,而是对每一个库的一句话概括以及它的主要函数,由此用什么库心里就会有数了. 文本处理 string: 提供了字符集: ...

  4. Python 标准库一览(Python进阶学习)

    转自:http://blog.csdn.net/jurbo/article/details/52334345 写这个的起因是,还是因为在做Python challenge的时候,有的时候想解决问题,连 ...

  5. python 标准库大全

    python 标准库 文本 string:通用字符串操作 re:正则表达式操作 difflib:差异计算工具 textwrap:文本填充 unicodedata:Unicode字符数据库 string ...

  6. Python标准库14 数据库 (sqlite3)

    作者:Vamei 出处:http://www.cnblogs.com/vamei 欢迎转载,也请保留这段声明.谢谢! Python自带一个轻量级的关系型数据库SQLite.这一数据库使用SQL语言.S ...

  7. python标准库00 学习准备

    Python标准库----走马观花 python有一套很有用的标准库.标准库会随着python解释器一起安装在你的电脑上的.它是python的一个组成部分.这些标准库是python为你准备的利器,可以 ...

  8. Python标准库:内置函数hasattr(object, name)

    Python标准库:内置函数hasattr(object, name) 本函数是用来判断对象object的属性(name表示)是否存在.如果属性(name表示)存在,则返回True,否则返回False ...

  9. python标准库xml.etree.ElementTree的bug

    使用python生成或者解析xml的方法用的最多的可能就数python标准库xml.etree.ElementTree和lxml了,在某些环境下使用xml.etree.ElementTree更方便一些 ...

随机推荐

  1. [SPDK/NVMe存储技术分析]008 - RDMA概述

    毫无疑问地,用来取代iSCSI/iSER(iSCSI Extensions for RDMA)技术的NVMe over Fabrics着实让RDMA又火了一把.在介绍NVMe over Fabrics ...

  2. python练习册 每天一个小程序 第0004题

    1 #-*-coding:utf-8-*- 2 __author__ = 'Deen' 3 ''' 4 题目描述:任一个英文的纯文本文件,统计其中的单词出现的个数. 5 参考学习链接: 6 re ht ...

  3. noi.ac 字符串游戏

    题面 Zhangzj和Owaski在玩一个游戏.最开始有一个空的01串,Zhangzj和Owaski轮流进行操作,Zhangzj先走.每次进行操作的人可以在串上任意位置加一个新的字符,由于串是01串, ...

  4. 几种常用的MOS管参数、应用电路及区别:IRF540N、IRF9540N、IRF9540

    1. IRF540N,N沟道,100V,33A,44mΩ@10V 栅极(Gate-G,也叫做门极),源极(Source-S), 漏极(Drain-D) 漏源电压(Vdss) 100V 连续漏极电流(I ...

  5. Collection框架中实现比较要实现什么接口?

    Java集合框架中需要比较大小的集合包括TreeMap.TreeSet,其中TreeMap会根据key-value对中key的大小进行排序,而TreeSet则会对集合元素进行排序. 因此TreeMap ...

  6. 什么是 NetflixFeign?它的优点是什么?

    Feign 是受到 Retrofit,JAXRS-2.0 和 WebSocket 启发的 java 客户端联编程序.Feign 的第一个目标是将约束分母的复杂性统一到 http apis,而不考虑其稳定 ...

  7. docker-compose配置django web项目容器和EMQX容器

    1.Dockerfile FROM gatewayserver_null:v1.1 ADD ./GatewayServer /code ADD ./entrypoint.sh /code# 给entr ...

  8. 什么是通用 SQL 函数?

    1.CONCAT(A, B) – 连接两个字符串值以创建单个字符串输出.通常用于将两个 或多个字段合并为一个字段. 2.FORMAT(X, D)- 格式化数字 X 到 D 有效数字. 3.CURRDA ...

  9. Redis 相比 Memcached 有哪些优势?

    1.Memcached 所有的值均是简单的字符串,redis 作为其替代者,支持更为丰 富的数据类 2.Redis 的速度比 Memcached 快很 3.Redis 可以持久化其数据

  10. 什么是多线程环境下的伪共享(false sharing)?

    伪共享是多线程系统(每个处理器有自己的局部缓存)中一个众所周知的性能问 题.伪共享发生在不同处理器的上的线程对变量的修改依赖于相同的缓存行,如 下图所示: 伪共享问题很难被发现,因为线程可能访问完全不 ...