上一篇博文中,我们使用结巴分词对文档进行分词处理,但分词所得结果并不是每个词语都是有意义的(即该词对文档的内容贡献少),那么如何来判断词语对文档的重要度呢,这里介绍一种方法:TF-IDF. 一,TF-IDF介绍 TF-IDF(Term Frequency–Inverse Document Frequency)是一种用于资讯检索与文本挖掘的常用加权技术.TF-IDF是一种统计方法,用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度.字词的重要性随着它在文件中出现的次数成正比增加,…
Atitit 计算word ppt文档的页数 http://localhost:8888/ http://git.oschina.net/attilax/ati_wordutil private void ini() { word = new ActiveXComponent( "Word.Application"); word.setProperty("Visible", new Variant(false)); //不可见打开word //word.setPro…
本文教大家:dedecms文档关键词维护之关键词出现多次,只给出现的第一个加链接的 举例:当文章中出现了一百次台历时,按官方的原理,他会给一百个台历都加上链接的.dedecms这如何是好? 解决方法(记得先备份) 一.打开目录include中的arc.archivew.class.PHP 找到function ReplaceKeyword($kw,$body)代码,在最下面.然后一直到最下面.替换以下的代码 function ReplaceKeyword($kw,$body) { global…
这几天在重新整服务器,几个站点都是用dedecms搭建的,版本相对比较早,虽然都已经打了补丁,但客户还是在纠结,所以就下载了新的系统进行搭建(注意编码要和原来的一样),导入数据,一切安好,可发现后台有很多的文档关键词都是不相关的,以其这样不如直接删除,问题来了,几百条数据,一页页删到什么时候,怎么批量删除呢? DELETE FROM dede_keywords 一行代码轻松搞定. 如果想批量删除搜索关键词呢?也是可以实现的 Delete from dede_search_cache; Delet…
今日给合作公司讲解本公司网站SEO优化整理的一份简单文档 架构 ########################################## 1.尽量避免Javascript和flash导航. 虽然JS和FLASH能把网站做的绚丽漂亮,但目前搜索引擎还是无法顺利的抓取其中的内容,所以我们要避免. 2.目录层次不能太深. 网站目录尽量保持在三层以内,尽可能接近根网址,比如“www.xxx.com/产品目录/产品名称”明显比“www.xxx.com/产品目录/年份/月份/产品名称”要好. 3…
最近由于工作需要,需要将70个word文件的页眉页脚全部进行修改,在想到这个无聊/重复/没有任何技术含量的工作时,我的内心是相当奔溃的.就在我接近奔溃的时候我突然想到完全可以用python脚本来实现这样无聊的工作,确定目标后我便开始在网上寻找有没有造好的轮子,但是结果让我有点儿失望.关于python操作页眉页脚的文章屈指可数,仅存在的几篇也都是片段代码,仅仅可以参考而已,于是我便决定自己是实现批量替换页眉页脚的脚本. 经过搜集资料发现,python可以通过win32com以及docx扩展包来实现…
最近生成训练数据时,给一批无效的背景图片生成对应的xml文档,我用python写了一个简单的批量生成xml文档的demo,遇见了意外的小问题,记录一下. 报错问题为:ImportError: No module named 'xml.dom'; 'xml' is not a package 看见No module named “xxx”时想的是不就是没安装xml包嘛,还不简单,install一下不就好了,然而并没什么用,xml是python本生就带的.其实出现这种错误的原因是自己的命名规则问题,…
写好了代码,交付给他人使用的时候,查看代码固然可以了解各类和函数的功能细节,但接口文档能更方便的查找和说明功能.所以,一价与代码同步的接口文档是很有必要的.sphinx可以根据python中的注释,自动的生成接口文档,这样有利于保证文档和代码功能的同步.让我们来了解如何自动生成文档. 1. python代码格式. class A: ''' 你好! ''' @staticmethod def Aa(): ''' 你也好! ''' fun1() 看到类和函数中,都加入了注释. 2. 安装shpinx…
在阅读之前,你需要了解一些xml.dom的一些理论知识,在这里你可以对xml.dom有一定的了解,如果你阅读完之后. 下面是我做的demo 运行效果: 解析的XML文件位置:c:\\test\\hongten.xml <?xml version="1.0" encoding="UTF-8"?> <students> <student no="2009081097"> <name>Hongten<…
Linux是什么 Linux就是个操作系统: 它和Windows XP.Windows 7.Windows 10什么的一样就是一个操作系统而已! Linux能干什么: 它能当服务器,服务器上安装者各种企业应用.服务. 比如:Web服务(apache,就是能架设网站的).数据库(MySQL,存储网站信息数据的).博客系统(wordpress) 等…… Linux系统用在哪些领域: 比如某网站的服务器,他们肯定用Linux.再比如某网站的数据库,他们差不多也基于Linux.再比如机关部门.学校.东莞…