def SplitHtmlTag(file): with open(file,"r") as f,open("result.txt","w+") as c: lines=f.readlines() for line in lines: re_html=re.compile(r'<[^>]+>')#从'<'开始匹配,不是'>'的字符都跳过,直到'>' line=re_html.sub('',line) c.wri…
1.全文索引相对于顺序扫描的优势:一次索引,多次使用 2.创建索引的步骤:(1)要索引的原文档 (2)将原文档传给分词组件(Tokenizer)分词组件会做如下事情:(此过程称为Tokenize)a.将文档分成一个一个的单词b.去除标点符号c.去除停词(Stop Word) **停词就是语句中无意义的词汇,英语中比如 the is of 每一种分词组件(Tokenize)都有一个停词集合经过分词组件分词后得到的结果称为(词元)Token (3).将得到的词元传给语言处理组件(Linguist…
用过spark,对wordcount这个演示程序记忆犹新,于是想试着实现一个简单的wordcount.又因为在学习函数式编程,希望可以把数据看成一个整体,在现有的函数上进行操作.于是就有了这一行代码. 这行代码包括对单词的粗略处理,包括全部转化为小写,去除标点符号等.接下来用filter去掉了空行,最后使用Counter进行计数,实在是很方便快捷啊. import re from collections import Counter input = """As we know…
全文检索课程 Lucene&Solr(1) 1. 计划 第一天:Lucene的基础知识 1.案例分析:什么是全文检索,如何实现全文检索 2.Lucene实现全文检索的流程 a) 创建索引 b) 查询索引 3.配置开发环境 4.创建索引库 5.查询索引库 6.分析器的分析过程 a) 测试分析器的分词效果 b) 第三方中文分析器 7.索引库的维护 a) 添加文档 b) 删除文档 c) 修改文档 8.Lu…