自然语言处理工具HanLP-基于层叠HMM地名识别

本篇接上一篇内容<HanLP-基于HMM-Viterbi的人名识别原理介绍>介绍一下层叠隐马的原理. 首先说一下上一篇介绍的人名识别效果对比: 1. 只有Jieba识别出的人名准确率极低,基本为地名或复杂地名组成部分或复杂机构名组成部分.举例如下: [1] 战乱的阿富汗地区,枪支可随意买卖,AK47价格约500人民币 “阿富汗”被识别为人名. [2] 安庆到桂林自驾游如何规划? “桂林”被识别为人名. [3] 2018天津市和平分局招聘社区戒毒.社区康复工作人员成绩查询入口 “康复”被识别为…

Python中调用自然语言处理工具HanLP手记

手记实用系列文章: 1 结巴分词和自然语言处理HanLP处理手记 2 Python中文语料批量预处理手记 3 自然语言处理手记 4 Python中调用自然语言处理工具HanLP手记 5 Python中结巴分词使用手记 HanLP方法封装类: # -*- coding:utf-8 -*- # Filename: main.py from jpype import * startJVM(getDefaultJVMPath(), "-Djava.class.path=C:\hanlp\hanlp-1.…

中文自然语言处理工具HanLP源码包的下载使用记录

中文自然语言处理工具HanLP源码包的下载使用记录这篇文章主要分享的是hanlp自然语言处理源码的下载,数据集的下载,以及将让源代码中的demo能够跑通.Hanlp安装包的下载以及安装其实之前就已经有过分享了.本篇文章主要还是备忘之用,同时算是给新手朋友的一些参考吧! 不过在此之前先推荐两本书给想要学习中文自然语言处理的朋友,分别是<NLP汉语自然语言处理原理与实战>,里面介绍了汉语自然语言处理的相关技术,还有一些源码的解读:另一本是<python自然语言处理>. 下面就进入到本…

自然语言处理工具hanlp 1.7.3版本更新内容一览

HanLP 1.7.3 发布了.HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用.HanLP 具备功能完善.性能高效.架构清晰.语料时新.可自定义的特点. 在提供丰富功能的同时,HanLP 内部模块坚持低耦合.模型坚持惰性加载.服务坚持静态提供.词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,帮助用户训练自己的模型. 新版更新内容: 1.感知机词法分析器默认使用98年人民日报6个月的大模型 2.优化DoubleArrayTrie fix…

自然语言处理工具hanlp关键词提取图解TextRank算法

看一个博主(亚当-adam)的关于hanlp关键词提取算法TextRank的文章,还是非常好的一篇实操经验分享,分享一下给各位需要的朋友一起学习一下! TextRank是在Google的PageRank算法启发下,针对文本里的句子设计的权重算法,目标是自动摘要.它利用投票的原理,让每一个单词给它的邻居(术语称窗口)投赞成票,票的权重取决于自己的票数.这是一个“先有鸡还是先有蛋”的悖论,PageRank采用矩阵迭代收敛的方式解决了这个悖论.本博文通过hanlp关键词提取的一个Demo,并通过图解的…

中文自然语言处理工具hanlp隐马角色标注详解

本文旨在介绍如何利用HanLP训练分词模型,包括语料格式.语料预处理.训练接口.输出格式等. 目前HanLP内置的训练接口是针对一阶HMM-NGram设计的,另外附带了通用的语料加载工具,可以通过少量代码导出供其他训练工具使用的特定格式(如CRF++). 语料格式输入语料格式为人民日报分词语料库格式.该格式并没有明确的规范,但总体满足以下几点: 1.单词与词性之间使用“/”分割,如华尔街/nsf,且任何单词都必须有词性,包括标点等. 2.单词与单词之间使用空格分割,如美国/nsf 华尔街/ns…

自然语言处理工具HanLP被收录中国大数据产业发展的创新技术新书《数据之翼》

在12月20日由中国电子信息产业发展研究院主办的2018中国软件大会上,大快搜索获评“2018中国大数据基础软件领域领军企业”,并成功入选中国数字化转型TOP100服务商. 图:大快搜索获评“2018中国大数据基础软件领域领军企业” 在本届2018中国软件大会上,不仅宣传并成立了数字转型促进会,还发布了由中国大数据产业生态联盟副秘书长.<软件和集成电路>杂志社总编辑郭嘉凯编辑的新书——<数据之翼-引领中国大数据产业发展的创新技术>.在本书的第一章节收录介绍了大快搜索自主研发的Han…

分词工具Hanlp基于感知机的中文分词框架

结构化感知机标注框架是一套利用感知机做序列标注任务,并且应用到中文分词.词性标注与命名实体识别这三个问题的完整在线学习框架,该框架利用1个算法解决3个问题,时自治同意的系统,同时三个任务顺序渐进,构成流水线式的系统.本文先介绍中文分词框架部分内容. 中文分词训练只需指定输入语料的路径(单文档时为文件路径,多文档时为文件夹路径,灵活处理),以及模型保存位置即可: 命令行 java -cp hanlp.jar com.hankcs.hanlp.model.perceptron.Main -ta…

自然语言处理工具hanlp自定义词汇添加图解

过程分析 1.添加新词需要确定无缓存文件,否则无法使用成功,因为词典会优先加载缓存文件 2.再确认缓存文件不在时,打开本地词典按照格式添加自定义词汇. 3.调用分词函数重新生成缓存文件,这时会报一个找不到缓存文件的异常,不用管,因为加载词典进入内存是会优先加载缓存,缓存不在当然会报异常,然后加载词典生成缓存文件,最后处理字符进行分词就会发现新添加的词汇可以进行分词了. 操作过程图解: 1.有缓存文件的情况下: 1 System.out.println(HanLP.segment("张三丰在一起…

自然语言处理工具hanlp定制用户词条

作者:baiziyu 关于hanlp的文章已经分享过很多,似乎好像大部分以理论性的居多.最近有在整理一些hanlp应用项目中的文章,待整理完成后会陆续分享出来.本篇分享的依然是由baiziyu 分享的一篇文章,感兴趣的可以在知乎上关注下他的专栏,写的还是挺好的! 以下为文章的主要内容: 自定义词表的修改自定义词表在“pyhanlp\static\data\dictionary\custom”路径下的“CustomDictionary.txt”文件中,HanLP.segment支持自定义此词表.…

自然语言分析工具Hanlp依存文法分析python使用总结（附带依存关系英文简写的中文解释）

最近在做一个应用依存文法分析来提取文本中各种关系的词语的任务.例如:text=‘新中国在马克思的思想和恩格斯的理论阔步向前’: 我需要提取这个text中的并列的两个关系,从文中分析可知,“马克思的思想”和“恩格斯的理论”是两个并列关系的短语,所以想要将其提取出来: 首先大致了解一下依存文法分析的前提条件,将句子分词并进行词性标注,这一步非常关键,直接决定分析结果的好坏. 看一下不修改分词字典情况下直接进行并列关系提取的结果: text= "新中国在马克思的思想和恩格斯的理论指导下阔步向前&quo…

Hanlp自然语言处理工具之词法分析器

本章是接前两篇<分词工具Hanlp基于感知机的中文分词框架>和<基于结构化感知机的词性标注与命名实体识别框架>的.本系统将同时进行中文分词.词性标注与命名实体识别3个任务的子系统称为“词法分析器”. 加载对应的类为PerceptronLexicalAnalyzer,其构造方法为递增的3个模型地址: l public PerceptronLexicalAnalyzer(String cwsModelFile) throws IOException l public Perceptr…

【HanLP】HanLP中文自然语言处理工具实例演练

HanLP中文自然语言处理工具实例演练作者:白宁超 2016年11月25日13:45:13 摘要:HanLP是hankcs个人完成一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用.HanLP具备功能完善.性能高效.架构清晰.语料时新.可自定义的特点. 在提供丰富功能的同时,HanLP内部模块坚持低耦合.模型坚持惰性加载.服务坚持静态提供.词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,帮助用户训练自己的语料.笔者坚定支持开源的项目,本文初衷是使用自然语言…

Python自然语言处理工具小结

Python自然语言处理工具小结作者:白宁超 2016年11月21日21:45:26 目录 [Python NLP]干货!详述Python NLTK下如何使用stanford NLP工具包(1) [Python NLP]Python 自然语言处理工具小结(2) [Python NLP]Python NLTK 走进大秦帝国(3) [Python NLP]Python NLTK获取文本语料和词汇资源(4) [Python NLP]Python NLTK处理原始文本(5) 1 Python 的几个自…

自然语言处理工具pyhanlp分词与词性标注

Pyhanlp分词与词性标注的相关内容记得此前是有分享过的.可能时间太久记不太清楚了.以下文章是分享自“baiziyu”所写(小部分内容有修改),供大家学习参考之用. 简介 pyhanlp是HanLP的Python接口.因此后续所有关于pyhanlp的文章中也会写成HanLP.HanLP是完全用Java自实现的自然语言处理工具包.特点是完全用Java实现不引入第三方工具包.完全开源.中文的开源工具能做到这么完整的大概只有HanLP.包括了词法分析.句法分析.分类.聚类.关键词抽取等常见NLP应用…

Python 的十个自然语言处理工具

原文先mark,后续尝试. 1.NLTK NLTK 在用 Python 处理自然语言的工具中处于领先的地位.它提供了 WordNet 这种方便处理词汇资源的借口,还有分类.分词.除茎.标注.语法分析.语义推理等类库. 网站 http://www.nltk.org/ 安装安装 NLTK: sudo pip install -U nltk 安装 Numpy (可选): sudo pip install -U numpy 安装测试: python then type import nltk 2.P…

java分词工具hanlp介绍

前几天(6月28日),在第23届中国国际软件博览会上,hanlp这款自然语言处理工具荣获了“2019年第二十三届中国国际软件博览会优秀产品”. HanLP是由一系列模型预算法组成的工具包,结合深度神经网络的分布式自然语言处理,具有功能完善.性能高效.架构清晰.语料时新.可自定义等特点,提供词法分析.句法分析.文本分析和情感分析等功能,是GitHub最受欢迎.用户量最大(超过13000个star).社区活跃度最高的自然语言处理技术. HanLP完全开源,包括词典.不依赖其他jar,底层采用了一系列…

使用mysqlbinlog工具进行基于位置或时间点的数据恢复

使用mysqlbinlog工具进行基于位置或时间点的恢复 MySQL备份一般采取全备份加日志备份的方式,比如每天执行一次全备份,每小时执行一次二进制日志备份.这样在MySQL Server故障后可以使用全备份和日志备份将数据恢复到最后一个二进制日志备份前的任意位置或时间.用来进行全备和日志备的工具各种各样,各有其特色, 在这里不做描述.本文主要讲解一下在回复完全备份后,如何应用备份的二进制日志来将数据恢复到指定的位置或时间点. 这里有个十分重要的工具——mysqlbinlog,专门用来查看二进制…

实战HMM-Viterbi角色标注地名识别

http://www.hankcs.com/nlp/ner/place-names-to-identify-actual-hmm-viterbi-role-labeling.html 命名实体识别(Named Entity Recognition)也是自然语言处理中的一个难关,特别是中文这样没有大小写等固定形态的语言.上次介绍过<实战HMM-Viterbi角色标注中国人名识别>,这次基于类似的原理,为HanLP实现中文地址地名(NS)的自动识别. 原理训练对熟语料自动角色标注,统计单词的角…

ICTCLAS中的HMM人名识别

http://www.hankcs.com/nlp/segment/ictclas-the-hmm-name-recognition.html 本文主要从代码的角度分析标注过程中的细节,理论谁都能说,但没几人能做出一个实用高效的系统.在得出粗分结果之后,需要对其进行人名.翻译人名.地名识别,然后重新KSP得出最终结果,在ICTCLAS中,这些标注都是通过HMM模型实现的. 人名识别例子以“王菲”为例,粗分结果是“始##始, 王, 菲, 末##末,”,很明显,粗分过程并不能识别正确的人名,因为“…

【文智背后的奥秘】系列篇——基于CRF的人名识别

版权声明:本文由文智原创文章,转载请注明出处: 文章原文链接:https://www.qcloud.com/community/article/133 来源:腾云阁 https://www.qcloud.com/community [文智背后的奥秘]系列篇——基于CRF的人名识别文智标签: 人名识别 , 文智分析 2016-10-09 11:06:20 1378 一.命名实体识别命名实体识别的主要任务就是从输入文本中把含有特定意义的词或者词组挑出来.命名实体根据其特点可以分为两大类,一类是…

基于Python使用SVM识别简单的字符验证码的完整代码开源分享

关键字:Python,SVM,字符验证码,机器学习,验证码识别 1 概述基于Python使用SVM识别简单的验证字符串的完整代码开源分享. 因为目前有了更厉害的新技术来解决这类问题了,但是本文作为初级入门方法,还是具有一定的学习意义的,所以就将源码和相关的素材开源出来. 本文虽然已经不具备太强的实战性和迁移性,但是主要希望能够是以一个有趣的应用点来让对机器学习有兴趣的同学找到入门点. 上面提到的 “更厉害的新技术” 是指 “CNN 卷积神经网络”,这个工具基本上免去了本文介绍的繁杂的图片预…

基于 OpenCV 的人脸识别

基于 OpenCV 的人脸识别一点背景知识 OpenCV 是一个开源的计算机视觉和机器学习库.它包含成千上万优化过的算法,为各种计算机视觉应用提供了一个通用工具包.根据这个项目的关于页面,OpenCV 已被广泛运用在各种项目上,从谷歌街景的图片拼接,到交互艺术展览的技术实现中,都有 OpenCV 的身影. OpenCV 起始于 1999 年 Intel 的一个内部研究项目.从那时起,它的开发就一直很活跃.进化到现在,它已支持如 OpenCL 和 OpenGL 的多种现代技术,也支持如 iOS…

基于node.js人脸识别之人脸对比

基于node.js人脸识别之人脸对比 Node.js简介 Node.js 是一个基于 Chrome V8 引擎的 JavaScript 运行环境. Node.js 使用了一个事件驱动.非阻塞式 I/O 的模型. Node 是一个让 JavaScript 运行在服务端的开发平台,它让 JavaScript 成为与PHP.Python.Perl.Ruby 等服务端语言平起平坐的脚本语言. 发布于2009年5月,由Ryan Dahl开发,实质是对Chrome V8引擎进行了封装. Node对一些特殊用…

【计算机视觉】基于OpenCV的人脸识别

一点背景知识 OpenCV 是一个开源的计算机视觉和机器学习库.它包含成千上万优化过的算法,为各种计算机视觉应用提供了一个通用工具包.根据这个项目的关于页面,OpenCV 已被广泛运用在各种项目上,从谷歌街景的图片拼接,到交互艺术展览的技术实现中,都有 OpenCV 的身影. OpenCV 起始于 1999 年 Intel 的一个内部研究项目.从那时起,它的开发就一直很活跃.进化到现在,它已支持如 OpenCL 和 OpenGL 等现代技术,也支持如 iOS 和 Android 等平台. 199…

基于FPGA的肤色识别算法实现

大家好,给大家介绍一下,这是基于FPGA的肤色识别算法实现. 我们今天这篇文章有两个内容一是实现基于FPGA的彩色图片转灰度实现,然后在这个基础上实现基于FPGA的肤色检测算法实现. 将彩色图像转化为灰度的方法有两种,一个是令RGB三个分量的数值相等,输出后便可以得到灰度图像,另一种是转化为YCbCr格式,将Y分量提取出来,YCbCr格式中的Y分量表示的是图像的亮度和浓度所以只输出Y分量,得到的图像就是灰度图像了.我在这里选择第二种方法实现. YCBCr是通过有序的三元组来表示的,三元由Y(Lu…