最近学C++ Primer,做到第十二章有个习题。要求针对英文文本,对于用户想搜索的单词,打印出该单词在文本中出现的总次数,单词所出现行号及对应的行内容;单词在一行内出现多次,只打印该行一次。C++的代码太长就不给出,实现大概是用vector<string>保存每一行内容,set保存每个单词出现的行号,map<string, set>来保存单词与所在行号的映射。set.size()表示单词出现的总行数。这是个很好的思路,然而用类的方式实现起来有点繁琐了。好久不用Python了,灵机一动,想试试在Python上如何简单实现同样的功能。

单词查询

程序较为简单,直接上代码。

# 查询文本中某单词出现的次数,并打印其出现的行号及所在行的内容
# 只适用于英文文本
import re
from string import punctuation

text = open('find.txt')
text_list = text.readlines()
# 删除标点及其他常用符号
# punctuation = r"""!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~"""
text_plain = re.sub(r'[{}]'.format(punctuation), '', ''.join(text_list))
# 大写转换为小写,便于正确统计单词数
one_word_list = [word.lower() for word in text_plain.split()]
print(one_word_list)

def run_query(wanted):
    word_total = 0
    # 统计出现的总个数
    for each in one_word_list:
        if each == wanted:
            word_total += 1

    print('"{}" occurs {} times'.format(wanted, word_total))

    line_number = 0
    for line in text_list:
        line_plain = re.sub(r'[{}]'.format(punctuation), '', line)
        word_list = [word.lower() for word in line_plain.split()]
        # 按照用户习惯第一行从"1"开始
        line_number += 1
        # 每行的单词列表
        if wanted in word_list:
            # 而下标"0"表示第一行,故需要减去1
            print('\tline {}: {}'.format(line_number, text_list[line_number - 1]), end='')

if __name__ == '__main__':
    while True:
        sought = input('Input a word you want to search: ')
        if sought == 'q':
            break

        run_query(sought)

看下结果,下面这张是Python下运行,yes出现94次。

C++中,yes出现91次。

仔细观察,两者对应的行号是一样的。为何单词出现次数C++版本就比Python版本少了?原因在于C++ Primer里面的写法是用的set,由于set里面的元素不能重复,如果想要查询的单词在一行内出现多次,实际也只记录一次。程序用set.size()表示单词出现总次数,即假设有n行里存在这个单词,单词出现总次数就是n。不知道作者本来就想实现这样的功能还是出于什么原因,私以为,这不符合我们的初衷。Python版本里对于想查询的单词,不管是否在一行内出现多次,都真正做到了精确计数。

文件查找

突然想起以前还写过个小脚本,查询本地文件。是当时看廖雪峰的Pytthon教程时做的一个课后习题。一起贴在这儿。

import os

def find_files(path, wanted):
    try:
        # 盘符内所有文件(夹)的路径
        dir_list = os.listdir(path)
        for filename in dir_list:
            # 当前文件(夹)的路径
            new_path = os.path.join(path, filename)
            # 如果是文件夹,深入下一级继续查找
            if os.path.isdir(new_path):
                find_files(new_path, wanted)
            # 若是文件,检查文件名里是否含有关键字, 应该不区分大小写,特别是针对后缀名时比较方便
            elif os.path.isfile(new_path):
                if wanted.lower() in filename.lower():
                    print(new_path)
    except Exception as e:
        print(e)

def save_all():
    print('Example:\npath>>> F:\\secret\\action movies' + '\n' + 'key>>> .avi')
    print('The result will be saved in C:\\findall.txt\n==========================================')
    p = input('path>>> ')
    k = input('key>>> ')
    find_files(p, k)

if __name__ == '__main__':
    save_all()

试试查询我的E:/Movie下得MP4视频文件

path>>> E:/Movie
key>>> .mp4
E:/Movie\[YYDM] HUNTER×HUNTER(2011)\HUNTER×HUNTER(2011) 001.mp4
E:/Movie\[YYDM] HUNTER×HUNTER(2011)\HUNTER×HUNTER(2011) 002.mp4
E:/Movie\[YYDM] HUNTER×HUNTER(2011)\HUNTER×HUNTER(2011) 003.mp4
E:/Movie\[YYDM] HUNTER×HUNTER(2011)\HUNTER×HUNTER(2011) 004.mp4
E:/Movie\[YYDM] HUNTER×HUNTER(2011)\HUNTER×HUNTER(2011) 005.mp4
E:/Movie\[YYDM] HUNTER×HUNTER(2011)\HUNTER×HUNTER(2011) 006.mp4
E:/Movie\[YYDM] HUNTER×HUNTER(2011)\HUNTER×HUNTER(2011) 007.mp4
E:/Movie\[YYDM] HUNTER×HUNTER(2011)\HUNTER×HUNTER(2011) 008.mp4
E:/Movie\[YYDM] HUNTER×HUNTER(2011)\HUNTER×HUNTER(2011) 009.mp4
E:/Movie\[YYDM] HUNTER×HUNTER(2011)\HUNTER×HUNTER(2011) 010.mp4
...

by @sunhaiyu

2016.9.29

Python实现单词查询&文件查找的更多相关文章

  1. python里有意思的文件查找glob模块

    python标准库之glob介绍 glob 文件名模式匹配,不用遍历整个目录判断每个文件是不是符合. 1.通配符 星号(*)匹配零个或多个字符 import glob for name in glob ...

  2. python glob fnmatch 用于文件查找操作

    參考: http://python.jobbole.com/81552/:Python模块学习:glob文件路径查找 http://blog.csdn.net/suiyunonghen/article ...

  3. Python实现Linux下文件查找

    import os, sys def search(curpath, s): L = os.listdir(curpath) #列出当前目录下所有文件 for subpath in L: #遍历当前目 ...

  4. python 实现多层目录文件查找

    本文针对多层目录下文件的查找. 利用 os模块的基本操作,并利用递归的思想实现了目录多层查找. 代码如下: import os #dir_name: 处理文件的起始目录 def count_file( ...

  5. 【原创】python倒排索引之查找包含某主题或单词的文件

    什么是倒排索引? 倒排索引(英语:Inverted index),也常被称为反向索引.置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射.它是文 ...

  6. 用 Python 实现文件查找

    用 Python 实现文件查找(BIF实现及队列实现) (1)利用内置函数实现文件查找 1.功能:返回用户输入的文件的绝对路径 2.设计思路: (1)用户输入在哪个盘进行查找 (2)遍历此盘文件,若为 ...

  7. python对不同类型文件(doc,txt,pdf)的字符查找

    python对不同类型文件的字符查找 TXT文件: def txt_handler(self, f_name, find_str): """ 处理txt文件 :param ...

  8. 在Python中使用glob模块查找文件路径的方法

    在Python中使用glob模块查找文件路径的方法 glob模块是最简单的模块之一,内容非常少.用它可以查找符合特定规则的文件路径名.跟使用windows下的文件搜索差不多.查找文件只用到三个匹配符: ...

  9. python实现在目录中查找指定文件的方法

    python实现在目录中查找指定文件的方法 本文实例讲述了python实现在目录中查找指定文件的方法.分享给大家供大家参考.具体实现方法如下: 1. 模糊查找 代码如下: import os from ...

随机推荐

  1. c++,函数名不要和某个类名相同 (syntax error : missing ';' before identifier....)

    直接上代码: // outside.h class Outside { private: class Inner { public: Inner(Outside& out) : out_(ou ...

  2. 学习mysql语法--基础篇(二)

      前  言  mysql  mysql语法--本篇学习都是通过使用Navicat Premium(数据库管理工具),连接mysql数据. 本篇学习主要有两个部分: [SQL语句的组成]   DML ...

  3. C#中的Dictionary的使用

    在工作中有时候会用到Dictionary,由于自己之前没用过,参考了一下前人和先辈的实践,仿照着写了一个Test,第一次用还不是很熟练,要多实践练习才能用的得心应手,写代码重在敲键盘,以此为诫.(主要 ...

  4. WindowManager.LayoutParams的探究

    上次在子线程更新UI时用了一下WindowManager.LayoutParams,当时觉得不太顺手.以前都是用空参构造器,这次用了type和flag属性,出现了意想不到的效果.也看看源码吧,多锻炼锻 ...

  5. 极简单的方式序列化sqlalchemy结果集为JSON

    继承 json.JSONEncoder 实现一个针对sqlalchemy返回类型的处理方式. sqlalchemy的返回类型有大都有两种,一种是Model对象,一种是Query集合(只查询部分字段). ...

  6. asp.net mvc视图中使用entitySet类型数据时提示出错

    asp.net mvc5视图中使用entitySet类型数据时提示以下错误 检查了一下引用,发现已经引用了System.Data.Linq了,可是还是一直提示出错, 后来发现还需要在Views文件夹下 ...

  7. java 重载与重写 【转】

    首先我们来讲讲:重载(Overloading) (1) 方法重载是让类以统一的方式处理不同类型数据的一种手段.多个同名函数同时存在,具有不同的参数个数/类型. 重载Overloading是一个类中多态 ...

  8. 微信iOS消息拦截插件教程-Tweak HelloWorld

    微信iOS消息拦截插件教程-Tweak HelloWorld 标签(空格分隔): 越狱开发教程 1.环境准备 准备一台越狱的手机,具体参照上一篇教程 搭建Theos越狱开发环境 2.开发过程 新建一个 ...

  9. .NET平台的ORM分析工具

    众所周知,“ORM”和“性能问题”常常一起出现.ORM通过对开发人员隐藏SQL细节可以大大的提高生产力.然而,它们很容易产生一些未被发现的荒谬查询.通常情况下,数据库管理员可以通过交叉引用有问题的存储 ...

  10. Mybatis-多对多

    先说一下需求: 在页面上显示数据库中的所有图书,显示图书的同时,显示出该图书所属的类别(这里一本书可能同时属于多个类别) 测试环境:MySQL.MyEclipse 创建表: 笔者这里使用 中间表 连接 ...