# coding:utf-8 import os, re for i in os.walk('d:'+os.sep): for txt in i[2]: try: txt = re.match(r'(.*)(\.txt)', txt).group(0) print os.path.join(i[0], txt) except: pass…
在实际的nlp实际任务中,你有一大堆的人工标注的关键词,来新的一句话,找出这句话中的关键词,以便你以后使用,那如何来做呢? 1)用到正则的 finditer()方法,返回你匹配的关键词的迭代对象,包含起始结束索引 2)增强list循环,提取数据 代码如下: import re s = 'dengyexun' idx = [i.start() for i in re.finditer('y', s)] 这里我只要开始索引,结果如下: 之后,你想怎么用都可以的…