吴裕雄--天生自然python学习笔记:python 文件批量查找
在多个文本文件中查找
我们首先来学习文本文件的查找字符 。 我们通过 os.walk 扩大查找范围,
查找指定目录和子目录下的文件。
应用程序总览
读取 当 前目录及子目录下的所有 PY 和 txt 文本文件,搜索这些文件中是否包含
指定的字符“ shutil ”。

应用程序内容
import os cur_path=os.path.dirname(__file__) # 取得当前路径
sample_tree=os.walk(cur_path)
keyword="shutil" for dirname,subdir,files in sample_tree:
allfiles=[]
for file in files: # 取得所有 .py .txt 文件,存入 allfiles 列表中
ext=file.split('.')[-1]
if ext=="py" or ext=="txt":
allfiles.append(dirname +'/'+file) if len(allfiles)>0:
for file in allfiles: # 读取 allfiles 列表所有文件
try:
fp = open(file, "r", encoding = 'UTF-8')
article = fp.readlines()
fp.close
line=0
for row in article:
line+=1
if keyword in row:
print("在 {},第 {} 行找到{}。".format(file,line,keyword))
except:
print("{} 无法读取..." .format(file)) print("完成...")
在 Word 文件中查找指定字符
接着我们来学习在 Word 文件中查找指定 的 字符。 对以 docx 为后缀 的 文件进行
搜索 , 需要先安装 python-docx 包 :
安装完毕后导入 do cx 包 , 再用 docx.Document() 方法创建 docx 对象来读取指
定的 do c x 文件,每个 doc x 文件包含多个 paragraphs 段落 , 可通过 text 属性来读取
paragraph s 段落的内容 。
例如 : 读取“简介 .do cx ”文件并显示所有段落内容。
import docx
doc = docx.Document("简介.docx")
for p in doc.paragraphs:
print(p.text)
应用程序总览
读取当前目录及子目录下所有 docx 格式的 Word 文件,井在这些文件中查找是否
包含 “ 篮球 ” 字符。

import os,docx cur_path=os.path.dirname(__file__) # 取得当前路径
sample_tree=os.walk(cur_path) keyword="篮球"
print("查找字符串:{}" .format(keyword)) for dirname,subdir,files in sample_tree:
allfiles=[]
for file in files: # 取得所有.docx文件并存入 allfiles 列表中
ext=file.split('.')[-1]
if ext=="docx": # get *.docx to allfiles
allfiles.append(dirname +'/'+file) for file in allfiles:
print("正在查找{}文件...".format(file))
try:
doc = docx.Document(file)
line=0
for p in doc.paragraphs:
line+=1
if keyword in p.text:
print("...在第 {} 段文字中找到{}\n {}。".format(line,keyword,p.text))
except:
print("无法读取 {} 文件..." .format(file)) print("\n查找完毕...")
另 一种比较好的查找方式是在 Anaconda Prompt 窗口中 , 通过 python FindK.ey
Word3.py 命令行来执行查找字符的程序 。
例如:查找“ shutil ”字符 。

例如:查找“篮球”字符 。

注意 : Python 应用程序 FindK.eyWord3.py 的路 径中不能包含中文路径,即 D: \pythonex\ chl2 , 然后再在
Anaconda Prompt 窗口中进行执行 。 如下图:

import os,docx,sys if len(sys.argv) == 1:
keyword="shutil"
print("语法:python FindKeyWord3.py 查找字符串\n")
else:
keyword=sys.argv[1] #cur_path=os.path.dirname(__file__) # 取得当前路径
cur_path=os.getcwd()
sample_tree=os.walk(cur_path)
print(cur_path) for dirname,subdir,files in sample_tree:
allfiles=[]
for file in files: # 取得所有 .py .txt .docx文件,存入allfiles列表中
ext=file.split('.')[-1]
if ext=="py" or ext=="txt" or ext=="docx":
allfiles.append(dirname +'/'+file) if len(allfiles)>0:
for file in allfiles: # 读取 allfiles 列表所有文件
try:
if file.split('.')[-1]=="docx": # .docx
doc = docx.Document(file)
line=0
for p in doc.paragraphs:
line+=1
if keyword in p.text:
print("...在第 {} 段文字中找到{}\n {}。".format(line,keyword,p.text))
else: # .py or .txt
fp = open(file, "r", encoding = 'UTF-8')
article = fp.readlines()
fp.close
line=0
for row in article:
line+=1
if keyword in row:
print("在 {},第 {} 行找到 {} 。".format(file,line,keyword))
except:
print("{} 无法读取..." .format(file)) print("完成...")
吴裕雄--天生自然python学习笔记:python 文件批量查找的更多相关文章
- 吴裕雄--天生自然HADOOP学习笔记:hadoop集群实现PageRank算法实验报告
实验课程名称:大数据处理技术 实验项目名称:hadoop集群实现PageRank算法 实验类型:综合性 实验日期:2018年 6 月4日-6月14日 学生姓名 吴裕雄 学号 15210120331 班 ...
- 吴裕雄--天生自然MySQL学习笔记:MySQL UPDATE 更新
如果需要修改或更新 MySQL 中的数据,我们可以使用 SQL UPDATE 命令来操作. 语法 以下是 UPDATE 命令修改 MySQL 数据表数据的通用 SQL 语法: UPDATE table ...
- 吴裕雄--天生自然MySQL学习笔记:MySQL 插入数据
MySQL 表中使用 INSERT INTO SQL语句来插入数据. 可以通过 mysql> 命令提示窗口中向数据表中插入数据,或者通过PHP脚本来插入数据. 以下为向MySQL数据表插入数据通 ...
- 吴裕雄--天生自然MySQL学习笔记:MySQL简介
MySQL 是最流行的关系型数据库管理系统,在 WEB 应用方面 MySQL 是最好的 RDBMS(Relational Database Management System:关系数据库管理系统)应用 ...
- 吴裕雄--天生自然 oracle学习笔记:oracle理论学习详解及各种简单操作例子
1. 数据库的发展过程 层次模型 -->网状模型 -->关系模型 -->对象关系模型 2. 关于数据库的概念 DB:数据库(存储信息的仓库) DBMS:数据库管理系统(用于管理数据库 ...
- 吴裕雄--天生自然HADOOP学习笔记:基本环境配置
实验目的 学习安装Java 学习配置环境变量 学习设置免密码登陆的方法 掌握Linux环境下时间同步的配置 实验原理 1.Java的安装 java是大数据的黄金语言,这和java跨平台的特性是密不可分 ...
- 吴裕雄--天生自然HADOOP学习笔记:使用yum安装更新软件
实验目的 了解yum的原理及配置 学习软件的更新与安装 学习源代码编译安装 实验原理 1.编译安装 前面我们讲到了安装软件的方式,因为linux是开放源码的,我们可以直接获得源码,自己编译安装.例如: ...
- 吴裕雄--天生自然HADOOP学习笔记:Shell工具使用
实验目的 学习使用xshell工具连接Linux服务器 在连上的服务器中进入用户目录 熟悉简单的文件操作命令 实验原理 熟悉shell命令是熟悉使用linux环境进行开发的第一步,我们在linux的交 ...
- 吴裕雄--天生自然HTML学习笔记:HTML 布局
网页布局对改善网站的外观非常重要. 请慎重设计您的网页布局. <!DOCTYPE html> <html> <head> <meta charset=&qu ...
- 吴裕雄--天生自然MySQL学习笔记:MySQL 安装
所有平台的 MySQL 下载地址为: MySQL 下载:https://dev.mysql.com/downloads/mysql/ 注意:安装过程我们需要通过开启管理员权限来安装,否则会由于权限不足 ...
随机推荐
- adfs环境安装
安装文档参考: https://docs.microsoft.com/zh-cn/windows-server/identity/ad-fs/deployment/set-up-the-lab-env ...
- English Words and Expressions
Words apprentice 学徒 corny 老套的 obnoxious 作呕的 intermezzo 间奏曲 predate 日期上早于 parenthesis 括号 delimiter 分隔 ...
- JavaSE--java是值传递还是引用传递
引用是已定义的变量的别名. 按引用传递就是一个变量使用两个名称. 两个变量在内存中的地址都是一样的. 按值传递, 传递的是值的拷贝. C++中可以通过传引用来改变传入的参数的值.在C++中可以通过以下 ...
- JS-语句四
For 循环: for 循环是创建循环时常会用到的工具. 下面是 for 循环的语法: ; 语句 ; 语句 ) { 被执行的代码 } 其中语句1是初始值:语句2是.条件判断:语句3是状态改变:被执行的 ...
- SeetaFaceQt:Qt多线程
为什么要做多线程,说个最简单的道理就是我们不希望在软件处理数据的时候界面处于无法响应的假死状态.有些处理是灰常花时间的,如果把这样的处理放到主线程中执行,就会导致软件一条路走到底,要等到处理完才能接收 ...
- Ubuntu Hadoop使用过程中的一些技巧1
权限不足:打开有管理员权限的文件夹:sudo nautilus 输入密码即可进入最高权限的文件管理界面可以快速对文件进行修改删除操作 修改权限:chmod命令 chmod -R 777 文件 ...
- 文献阅读报告 - Situation-Aware Pedestrian Trajectory Prediction with Spatio-Temporal Attention Model
目录 概览 描述:模型基于LSTM神经网络提出新型的Spatio-Temporal Graph(时空图),旨在实现在拥挤的环境下,通过将行人-行人,行人-静态物品两类交互纳入考虑,对行人的轨迹做出预测 ...
- Bugku 加密(持续更新)
1.滴答~滴 不多说,摩斯密码解密. 2.聪明的小羊 栅栏密码解密. 3.ok Ook解密 4.这不是摩斯密码 brainfuck解码 5.简单加密 凯撒有两种编码脚本,一种是字母26内循环移位,一种 ...
- gcc编译出现:error: invalid operands to binary & (have ‘char *’ and ‘int *’)
/************************************************************************* > File Name: ptr_varia ...
- [RoarCTF 2019]Easy Calc-协议层攻击之HTTP请求走私
0X01:什么是HTTP请求走私 HTTP请求走私属于协议层攻击,是服务器漏洞的一种. HTTP请求走私是一种干扰网站处理从一个或多个用户接收的HTTP请求序列的方式的技术.使攻击者可以绕过安全控制, ...