菜鸟如何使用hanlp做分词的过程记录 最近在学习hanlp的内容,准备在节后看看有没有时间整理一波hanlp分享下,应该还是会像之前分享DKHadoop一样的方式吧.把整个学习的过程中截图在配文字的方式搞一下. 这两天也在看一些其他人分享的hanlp学习和使用分享的文章,后面看到的分享也会转载分享给大家.今天分享的这篇也是很早前别人分享的一篇如何用hanlp做分词的文章,新手入门级的可以看看! boss给了个做分词的任务,最开始想用的是结巴分词and正则表达式.后来发现结果并不好,需要一遍一遍…
1.前言 前一阵把博客换了个模版,模版提供了一个搜索按钮,这让我想起一直以来都想折腾的全文搜索技术,于是就用lucene6.2.1加上HanLP的分词插件做了这么一个模块CSearch.效果看这里:https://chulung.com/search源码:CSearch 2.关于分词 索引的一个核心功能便是分词,lucene自带的分词是基于英语的,所以中文分词用其他插件比较好. 网上很多都是推荐IK-Analyzer,不过这个插件很久没更新了,用lucene6的话重构才能用:IK-Analyze…
以前发布过HanLP的Lucene插件,后来很多人跟我说其实Solr更流行(反正我是觉得既然Solr是Lucene的子项目,那么稍微改改配置就能支持Solr),于是就抽空做了个Solr插件出来,开源在Github上,欢迎改进. HanLP中文分词solr插件支持Solr5.x,兼容Lucene5.x. 图1 快速上手 1.将hanlp-portable.jar和hanlp-solr-plugin.jar共两个jar放入${webapp}/WEB-INF/lib下 2.修改solr core的配置…
HanLP 中文分词器是一个开源的分词器,是专为Elasticsearch而设计的.它是基于HanLP,并提供了HanLP中大部分的分词方式.它的源码位于: https://github.com/KennFalcon/elasticsearch-analysis-hanl 从Elasticsearch 5.2.2开始,一直有跟随Elasticsearch的不同发行版而更新. 安装 1) 方式一: a. 下载对应的release安装包,最新release包可从baidu盘下载(链接:https:/…
首先,介绍一下IK的整个分词处理过程: 1. Lucene的分词基类是Analyzer,所以IK提供了Analyzer的一个实现类IKAnalyzer.首先,我们要实例化一个IKAnalyzer,它有一个构造方法接收一个参数isMaxWordLength,这个参数是标识IK是否采用最大词长分词,还是采用最细粒度切分两种分词算法.实际两种算法的实现,最大词长切分是对最细粒度切分的一种后续处理,是对最细粒度切分结果的过滤,选择出最长的分词结果. 2. IKAnalyzer类重写了Analyzer的t…
以前发布过HanLP的Lucene插件,后来很多人跟我说其实Solr更流行(反正我是觉得既然Solr是Lucene的子项目,那么稍微改改配置就能支持Solr),于是就抽空做了个Solr插件出来,开源在Github上,欢迎改进. HanLP中文分词solr插件支持Solr5.x,兼容Lucene5.x. 快速上手 将hanlp-portable.jar和hanlp-solr-plugin.jar共两个jar放入${webapp}/WEB-INF/lib下 修改solr core的配置文件${cor…
HanLP的分词效果鄙人研究了HanLP,他的分词效果确实还可以,而且速度也比较快,10的数据是9000毫秒 @SneakyThrows@Overridepublic LinkedHashMap<String, Integer> hotWordsCount(String text) { // 存放结果的集合 LinkedHashMap<String, Integer> linkedHashMap = new LinkedHashMap<>(); // 获取停用词词库的路…
升级Windows 10 正式版过程记录与经验 [多图预警]共50张,约4.6MB 系统概要: 预装Windows 8.1中文版 64位 C盘Users 文件夹已经挪动到D盘,并在原处建立了符号链接.(我怀疑这是系统升级失败的原因) ———————— Update 2015-8-18 前几天有事没有搞这些东西.末尾对评论集中回复一下. 经过实验,移动C:/Users 用户文件夹对升级有影响. 昨天我重装了Windows 8.1 系统.(全新安装)然后在 高级启动——命令提示符模式下执行: rob…
本人电脑上安装了Win10 + Ubuntu 12.04双系统.前段时间因为在Ubuntu上做项目要安装一个比较大的软件,导致Ubuntu根分区的空间不够了.于是,从硬盘又分出来一部分空间,分给Ubuntu.于是有了这篇Ubuntu扩容过程记录,也可以当作是一篇教程吧. 1. 起因 最近在做一个项目,有关KinectFusion算法,需要用到CUDA.但是在我的Ubuntu中安装CUDA的时候,提示根分区空间不足,无法完成安装. Not enough space on parition moun…
升级到 ExtJS 5的过程记录   最近为公司的一个项目创建了一个 ExtJS 5 的分支,顺便记录一下升级到 ExtJS 5 所遇到的问题以及填掉的坑.由于 Sencha Cmd 的 sencha app upgrade 命令无法正常地讲项目升级至 ExtJS 5 (或许是方式不对) ,所以我的做法是新建一个 ExtJS 5 的项目,然后把 app 包拷贝过去,然后慢慢修复报错的东西,直到项目可以正常跑起. 说在前面: 升级的项目目前是一个十分初级的版本,代码量很少,只有导出报表和 dash…