本文旨在介绍如何利用HanLP训练分词模型,包括语料格式.语料预处理.训练接口.输出格式等. 目前HanLP内置的训练接口是针对一阶HMM-NGram设计的,另外附带了通用的语料加载工具,可以通过少量代码导出供其他训练工具使用的特定格式(如CRF++). 语料格式 输入语料格式为人民日报分词语料库格式.该格式并没有明确的规范,但总体满足以下几点: 1.单词与词性之间使用“/”分割,如华尔街/nsf,且任何单词都必须有词性,包括标点等. 2.单词与单词之间使用空格分割,如美国/nsf 华尔街/ns…
中文自然语言处理工具HanLP源码包的下载使用记录 这篇文章主要分享的是hanlp自然语言处理源码的下载,数据集的下载,以及将让源代码中的demo能够跑通.Hanlp安装包的下载以及安装其实之前就已经有过分享了.本篇文章主要还是备忘之用,同时算是给新手朋友的一些参考吧! 不过在此之前先推荐两本书给想要学习中文自然语言处理的朋友,分别是<NLP汉语自然语言处理原理与实战>,里面介绍了汉语自然语言处理的相关技术,还有一些源码的解读:另一本是<python自然语言处理>. 下面就进入到本…
 CRF简介 CRF是序列标注场景中常用的模型,比HMM能利用更多的特征,比MEMM更能抵抗标记偏置的问题. [gerative-discriminative.png] CRF训练 这类耗时的任务,还是交给了用C++实现的CRF++.关于CRF++输出的CRF模型,请参考<CRF++模型格式说明>. CRF解码 解码采用维特比算法实现.并且稍有改进,用中文伪码与白话描述如下: 首先任何字的标签不仅取决于它自己的参数,还取决于前一个字的标签.但是第一个字前面并没有字,何来标签?所以第一个字的处理…
HanLP中文自然语言处理工具实例演练 作者:白宁超 2016年11月25日13:45:13 摘要:HanLP是hankcs个人完成一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用.HanLP具备功能完善.性能高效.架构清晰.语料时新.可自定义的特点. 在提供丰富功能的同时,HanLP内部模块坚持低耦合.模型坚持惰性加载.服务坚持静态提供.词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,帮助用户训练自己的语料.笔者坚定支持开源的项目,本文初衷是使用自然语言…
手记实用系列文章: 1 结巴分词和自然语言处理HanLP处理手记 2 Python中文语料批量预处理手记 3 自然语言处理手记 4 Python中调用自然语言处理工具HanLP手记 5 Python中结巴分词使用手记 HanLP方法封装类: # -*- coding:utf-8 -*- # Filename: main.py from jpype import * startJVM(getDefaultJVMPath(), "-Djava.class.path=C:\hanlp\hanlp-1.…
HanLP分词命名实体提取详解   分享一篇大神的关于hanlp分词命名实体提取的经验文章,文章中分享的内容略有一段时间(使用的hanlp版本比较老),最新一版的hanlp已经出来了,也可以去看看新版的hanlp在这方面有何提升! 文本挖掘是抽取有效.新颖.有用.可理解的.散布在文本文件中的有价值知识,并且利用这些知识更好地组织信息的过程.对于文本来说,由于语言组织形式各异,表达方式多样,文本里面提到的很多要素,如人名.手机号.组织名.地名等都称之为实体.在工程领域,招投标文件里的这些实体信息至…
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:与前面的RsowballC分词不同的地方在于这是一个中文的分词包,简单易懂,分词是一个非常重要的步骤,可以通过一些字典,进行特定分词.大致分析步骤如下: 数据导入--选择分词字典--分词 但是下载步骤比较繁琐,可参考之前的博客: R语言·文本挖掘︱Rwordseg/rJava两包的安装(安到吐血) ------------------…
HanLP中人名识别分析详解 在看源码之前,先看几遍论文<基于角色标注的中国人名自动识别研究> 关于命名识别的一些问题,可参考下列一些issue: l ·名字识别的问题 #387 l ·机构名识别错误 l ·关于层叠HMM中文实体识别的过程 HanLP参考博客: 词性标注 层叠HMM-Viterbi角色标注模型下的机构名识别 分词 在HMM与分词.词性标注.命名实体识别中说: 分词:给定一个字的序列,找出最可能的标签序列(断句符号:[词尾]或[非词尾]构成的序列).结巴分词目前就是利用BMES…
基于OpenCL的深度学习工具:AMD MLP及其使用详解 http://www.csdn.net/article/2015-08-05/2825390 发表于2015-08-05 16:33| 5921次阅读| 来源CSDN| 2 条评论| 作者AMD中国异构计算部 深度学习异构计算异构编程MLPopencl 摘要:本文介绍AMD深度学习团队开发的MLP学习工具软件的使用,为深度学习研究人员和开发商提供一个高性能.高易用性的深度学习的软硬件平台方案.AMD-MLP基于OpenCL,支持不同类型…
抓包工具:tcpdump抓包命令详解 简介: tcpdump全称:dump the traffic on a network,根据使用者的定义对网络上的数据包进行截获的包分析工具. tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析.它支持针对网络层.协议.主机.网络或端口的过滤,并提供and.or.not等逻辑语句来帮助你去掉无用的信息. 名称: tcpdump -  dump traffic on a network(转储网络上的流量): 描述: Tcpdump打印出一个与布…