虽然说是大作业,也做了好几天,但是完全没有什么实际价值...就是把现有的东西东拼西凑一下,发现跑的特别慢还搞了个多核 写这篇blog纯属是我吃饱了没事干,记录一下装env的蛋疼 首先我们是在python下进行的,虽然python本身有点慢,而且多线程8太行,但是架不住他在处理dictionary的时候简单 同时我们需要的库有lucene(建立索引),pyltp(依存句法粉细),wx(画一个很丑的GUI界面,作业要求的) 我惊奇的发现,只有python3.6才能满足这三个库同时存在... 配置环境…
遇到这个问题时,我们把心思都花在了如何“删除”这个空白页. 但是最有效的办法不是“删除”,而是(以word2007为例): Word 2007中文版: 鼠标放在最后一页,点击页面布局①,选择页面布局右下角的图标②. 弹出“页面设置”对话框,找到“板式”,将节点起始位置由“新建页”,选择为“持续本页”. Word 英文版: We should go to the Layout tab of 'Page Setup' and change the section start type from "N…
如下是<Python Text Processing with NLTK 2.0 Cookbook>一书部分章节的代码笔记. Tokenizing text into sentences >>> para = "Hello World. It's good to see you. Thanks for buying this book." >>> from nltk.tokenize import sent_tokenize >&g…
看到了中文版的python tutorial,发现是网页版的,刚好最近在学习爬虫,想着不如抓取到本地 首先是网页的内容 查看网页源码后发现可以使用BeautifulSoup来获取文档的标题和内容,并保存为doc文件. 这里需要使用from bs4 import BeautifulSoup 来导入该模块 具体代码如下: # 输出所在网址的内容from bs4 import BeautifulSoup def introduce(url): res = requests.get(url) res.e…
Python 资源大全中文版 我想很多程序员应该记得 GitHub 上有一个 Awesome - XXX 系列的资源整理.awesome-python 是 vinta 发起维护的 Python 资源列表,内容包括:Web框架.网络爬虫.网络内容提取.模板引擎.数据库.数据可视化.图片处理.文本处理.自然语言处理.机器学习.日志.代码分析等.由伯乐在线持续更新. Awesome 系列虽然挺全,但基本只对收录的资源做了极为简要的介绍,如果有更详细的中文介绍,对相应开发者的帮助会更大.这也是我们发起这…
JavaScript资源大全中文版(Awesome最新版)   目录 前端MVC 框架和库 包管理器 加载器 打包工具 测试框架 框架 断言 覆盖率 运行器 QA 工具 基于 Node 的 CMS 框架 模板引擎 数据可视化 编辑器 UI 输入 日历 选择 文件上传 其它 提示 模态框和弹出框 滚动 菜单 表格/栅格 框架 手势 地图 视频/音频 动画 图片处理 ECMAScript 6 软件开发工具包(SDK) 利器 精品阅读 更多资源 园友推荐: Awesome系列的JavaScript资源…
原文地址:http://www.cnblogs.com/best/p/5876559.html 目录 业务流程管理套件 字节码操作 集群管理 代码分析 编译器生成工具 构建工具 外部配置工具 约束满足问题求解程序 持续集成 CSV解析 数据库 数据结构 时间日期工具库 依赖注入 开发流程增强工具 分布式应用 分布式数据库 发布 文档处理工具 函数式编程 游戏开发 GUI 高性能计算 IDE 图像处理 JSON JVM与JDK 基于JVM的语言 日志 机器学习 消息传递 杂项 应用监控工具 原生开…
安装部署完office web apps 后,在sharepoint 2010浏览器中浏览Word提示:“由于出现意外错误,Word Web App 无法打开此 文档 进行查看. 要查看此 文档,请在Microsoft Word 中打开它.” 特殊情况:只有当sharepoint2010安装在域控制器上才会出在线查看word文件出错. 第一步:需要从开始菜单进入 SharePoint 2010 Management Shell 在命令窗口执行如下命令: $e= Get-SPServiceAppl…
Word对于我们办公来说,是不可缺少的办公软件,因为没有它我们可能无法进行许多任务.所以现在的文员和办公室工作的人,最基础的就是会熟悉的使用Office办公软件.在此,为提高大家Word使用水平,特为大家提供Word常用快捷键命令.以下所有Word快捷键适用于Word2003.Word2007.Word2010.Word2013等所有版本(小编辛苦收集了个把月,相信世上再也没有比这个还要全面的快捷键了),请大家好好收藏! Word快捷键大全 显示和使用窗口 切换到下一个窗口. Alt+Tab 切…
Java资源大全中文版 我想很多程序员应该记得 GitHub 上有一个 Awesome - XXX 系列的资源整理.awesome-java 就是 akullpp 发起维护的 Java 资源列表,内容包括:构建工具.数据库.框架.模板.安全.代码分析.日志.第三方库.书籍.Java 站点等等.伯乐在线已经把 awesome-java 资源列表翻成中文后发布于 ImportNew. Awesome 系列虽然挺全,但基本只对收录的资源做了极为简要的介绍,如果有更详细的中文介绍,对相应开发者的帮助会更…
人工智能系统Google开源的TensorFlow官方文档中文版 2015年11月9日,Google发布人工智能系统TensorFlow并宣布开源,机器学习作为人工智能的一种类型,可以让软件根据大量的数据来对未来的情况进行阐述或预判.如今,领先的科技巨头无不在机器学习下予以极大投入.Facebook.苹果.微软,甚至国内的百度.Google 自然也在其中.「TensorFlow」是 Google 多年以来内部的机器学习系统.如今,Google 正在将此系统成为开源系统,并将此系统的参数公布给业界…
一.问题的提出:    一本书扫描好,要将书中的图片转换为文字版的word文档.二.问题的分析:    1.文字的提取    2.文字的编排三.问题的解决    1.如果用的是Adobe Acrobat 8 Professional      那么,扫描好的pdf文档,选定某一页,      文档→OCR文本识别→使用OCR识别文本      弹出识别文本对话框,注意要选择好识别的主要语言      在弹出的对话框中有个编辑按钮,点击“编辑”      弹出一个新的对话框窗体,将OCR识别的主要…
目录 信息检索的概念 信息检索技术的分类 全文检索与数据库查询对比 全文检索工具一般由三部分构成 全文检索中建立索引和进行检索的流程 索引里面究竟存什么 如何创建索引 如何对索引进行检索 Lucene系统结构与源码组织图 Lucene索引文件的概念组成和结构组成 1.信息检索的概念 信息检索就是从信息集合中找出与用户需求相关的信息.被检索出的信息除了文本外,还有图像.音频.视频等多媒体信息. 2.信息检索技术的分类 目前信息检索技术可分为3类: 全文检索:把用户的查询请求和全文中的每一个词进行比…
Microsoft Word 的键盘快捷方式 全部显示 全部隐藏 本帮助文章中描述的键盘快捷方式适用于美式键盘布局.其他键盘布局的键可能与美式键盘上的键 不完全对应. 注释   本文不介绍如何为宏或自动图文集自定义键盘快捷方式或创建键盘快捷方式.有关详细信息,请单击“另请参阅”部分的链接. 本文内容 查找和使用键盘快捷方式 Office基础 在功能区中导航 Word 快速参考 功能键参考 查找和使用键盘快捷方式 对于同时按下两个或多个键的键盘快捷方式,在 Microsoft Word 2013…
谷歌三大核心技术(二)Google MapReduce中文版  Google MapReduce中文版     译者: alex   摘要 MapReduce是一个编程模型,也是一个处理和生成超大数据集的算法模型的相关实现.用户首先创建一个Map函数处理一个基于key/value pair的数据集合,输出中间的基于key/value pair的数据集合:然后再创建一个Reduce函数用来合并所有的具有相同中间key值的中间value值.现实世界中有很多满足上述处理模型的例子,本论文将详细描述这个…
注:有不正确的地方还望大神能够指出,抱拳了 老铁!   参考API:http://poi.apache.org/apidocs/org/apache/poi/xwpf/usermodel/XWPFDocument.html 主要参考文章1:http://www.cnblogs.com/Springmoon-venn/p/5494602.html 主要参考文章2:http://elim.iteye.com/blog/2049110 主要参考文章3:http://doc.okbase.net/oh_…
1,下载 Stanford Word Segmenter软件包: Download Stanford Word Segmenter version 2014-06-16 2,在eclipse上建立一个Project  StanfordSegmenter.解压Stanford Word Segmenter软件包,将其中的data,arabic,test.sipe.utf8文件夹复制到项目下. 3,添加需要的jar包,seg.jar  ,  stanford-segmenter-3.4-javado…
想要实现word或者其他office文件的在线预览,大部分都是用的两种方式,一种是使用openoffice转换之后再通过其他插件预览,还有一种方式就是通过POI读取内容然后预览. 一.使用openoffice方式实现word预览 主要思路是: 1.通过第三方工具openoffice,将word.excel.ppt.txt等文件转换为pdf文件 2.通过swfTools将pdf文件转换成swf格式的文件 3.通过FlexPaper文档组件在页面上进行展示 我使用的工具版本: openof:3.4.…
 一: 1  搜索引擎的历史 萌芽:Archie.Gopher Archie:搜索FTP服务器上的文件 Gopher:索引网页 2  起步:Robot(网络机器人)的出现与spider(网络爬虫) Robot基于网络的,可以执行特定任务的程序 Spider:特殊的机器人,网络爬虫,爬取互联网上的信息(可以是文件,网络)----网络自动下载程序 3   发展阶段:excite,galaxy,yahoo这些公司做搜索 4   繁荣:infoseek,AltaVista,Google和百度 5  …
词义消歧,句子.篇章语义理解基础,必须解决.语言都有大量多种含义词汇.词义消歧,可通过机器学习方法解决.词义消歧有监督机器学习分类算法,判断词义所属分类.词义消歧无监督机器学习聚类算法,把词义聚成多类,每一类一种含义. 有监督词义消歧方法.基于互信息词义消歧方法,两种语言对照,基于大量中英文对照语料库训练模型可词义消歧.来源信息论,一个随机变量中包含另一个随机变量信息量(英文信息中包含中文信息信息量),假设两个随机变量X.Y的概率分别是p(x), p(y),联合分布概率是p(x,y),互信息计算…
awesome python 中文版 相见恨晚!   https://www.zhihu.com/question/24590883 这篇知乎厉害了!一定要学习! 作者:知乎用户链接:https://www.zhihu.com/question/24590883/answer/92420471来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. Awesome Python中文版来啦! 本文由 伯乐在线 - 艾凌风 翻译,Namco 校稿.未经许可,禁止转载!英文出处:…
Awesome Python ,这又是一个 Awesome XXX 系列的资源整理,由 vinta 发起和维护.内容包括:Web框架.网络爬虫.网络内容提取.模板引擎.数据库.数据可视化.图片处理.文本处理.自然语言处理.机器学习.日志.代码分析等. 伯乐在线已在 GitHub 上发起「Python 资源大全中文版」的整理.欢迎扩散.欢迎加入. https://github.com/jobbole/awesome-python-cn 环境管理 管理 Python 版本和环境的工具 p – 非常简…
  Google MapReduce中文版     译者: alex   摘要 MapReduce 是一个编程模型,也是一个处理和生成超大数据集的算法模型的相关实现.用户首先创建一个Map函数处理一个基于key/value pair的数据集合,输出中间的基于key/value pair的数据集合:然后再创建一个Reduce函数用来合并所有的具有相同中间key值的中间value值.现实世界中有很多满足上述处理模型的例子, 本论文将详细描述这个模型.   MapReduce架构的程序能够在大量的 普…
HP LoadRunner 12.02 Tutorial T7177-88037教程独家中文版 Tylan独家呕血翻译 转载请注明出自“天外归云”的博客园 Welcome to the LoadRunner Tutorial 回到顶部 LoadRunner所包含的组件 如下所示: Vugen:Virtual User Generator,虚拟用户发生器的简称,用来录制用户的业务流程,创建自动化性能测试脚本,亦称之为Vuser脚本. Controller:控制器,用于组织.驱动.管理并监控负载测试…
/** * com.jiaoyiping.pdstest.TestTika.java * Copyright (c) 2009 Hewlett-Packard Development Company, L.P. * All rights reserved. */ package com.jiaoyiping.pdstest; import java.io.BufferedInputStream; import java.io.BufferedOutputStream; import java.i…
Office 4.2是Office 95的前一个版本,最适合运行在Windows 3.x上,但即使是最新的Windows 7 32位版也是可以安装它的(不信你可以试试)! 原版以软盘为载体,安装一次需要换30多张盘,非常麻烦,而且由于发布时间过于久远,我花了点功夫才把里面的数据提取出来.现将它做成安装光盘,可以装载进3.2中文版的虚拟机里直接安装.有喜欢怀旧的同志可以装上玩玩,看看当年Office办公软件的青葱模样. 包含Word.Excel和PowerPoint三个组件,其中PowerPoin…
1.首先安装 Microsoft Office 2007加载项:Microsoft Save as PDF-简体中文版:下载地址: http://download.microsoft.com/download/3/8/8/388812b2-0d3f-474e-a7ef-b095d3d0d3cd/SaveAsPDF.exe 2,代码如下 /// <summary> /// 转换word为pdf /// </summary> /// <param name="filen…
HP Loadrunner11中文教程的学习基本已经结束,最后困扰我的就是这个在创建Microsoft Word 报告时不停的提示“指定的转换无效”的问题.在网上搜索了好长时间,好多朋友回答说没有生成监控的数据.我想这个答案应该是正确的,但是问题一直没解决,因为没弄明白到底哪里没生成监控数据,其实我的数据应该是有生成的.还有说是中文版导致的,但是我一直用的英文版,所以这个是可以忽略的.今天看到一个朋友非常详细的截图回答,终于解决了这个问题.具体的操作方法我详细记录下来,供自己及其他碰到相同问题的…
这又是一个 Awesome XXX 系列的资源整理,由 vinta 发起和维护.内容包括:Web框架.网络爬虫.网络内容提取.模板引擎.数据库.数据可视化.图片处理.文本处理.自然语言处理.机器学习.日志.代码分析等. 伯乐在线已在 GitHub 上发起「Python 资源大全中文版」的整理.欢迎扩散.欢迎加入. GitHub - jobbole/awesome-python-cn: Python资源大全中文版,内容包括:Web框架.网络爬虫.网络内容提取.模板引擎.数据库.数据可视化.图片处理…
python操作word的一些方法,前面写了一些感悟,有点跑题,改了下题目,方便能搜索到.心急的可以直接拉到最后看代码,我都加了比较详细的注释. 从8.3号早上9点,到8.8号下午5点半下班,终于把这个python代码写出来了,这五天简直是废寝忘食(扯淡),每天查资料到半夜2点(其实是天太热,洗完澡又晾干就要一个多小时了,在这里吐槽下今年的夏天,2016年北京的7月份简直了,平生第一次长痱子,连去年都没用过的凉席都翻出来了). 好吧,扯得有点远了.因为工作需要,要批量修改一批rtf文件里的文字格…