发布了一个基于jieba分词的ElasticSearch插件

github地址: https://github.com/hongfuli/elasticsearch-analysis-jieba 基于 jieba 的 elasticsearch 中文分词插件. 集成到ElasticSearch git clone git@github.com:hongfuli/elasticsearch-analysis-jieba.git cd elasticsearch-analysis-jieba mvn package 把release/elasticsearch…

介绍一个基于jQuery的Cookie操作插件

在网页客户端,我们经常会遇到读取或者设置cookie的情况,如果用纯生的js我们可能会遇到一些兼容性带来的麻烦,这里给大家介绍一个比较实用jquery操作cookie的插件,插件的源代码如下: jQuery.cookie = function(name, value, options) { if (typeof value != 'undefined') { options = options || {}; if (value === null) { value = ''; options =…

基于jQuery的数字键盘插件

有时,我们需要在网页上使用软键盘.今天,就给大家带来一个基于jQuery的数字键盘插件,除了jQuery,不需要依赖任何文件资源.纯数字键盘,有退格,有清除,不支持输入小数(需要的可以自己改一下,主要是多个小数点就有13个键,不好排列了,呵呵).支持鼠标拖动和触摸拖动,可关闭. 在线演示 1.页面代码 <ul> <li><input type="text" placeholder="手机号码后四位" id="numkeyboa…

[Python] 基于 jieba 的中文分词总结

目录模块安装开源代码基本用法启用Paddle 词性标注调整词典智能识别新词搜索引擎模式分词使用自定义词典关键词提取停用词过滤模块安装 pip install jieba jieba分词器支持4种分词模式: 精确模式该模式会试图将句子最精确地切分开,适合在文本分析时使用. 全模式该模式会将句子中所有可以成词的词语都扫描出来,速度也非常快,缺点是不能解决歧义问题,有歧义的词语也会被扫描出来. 搜索引擎模式该模式会在精确模式的基础上对长词语再进行切分,将更短的词切分出来.在搜索引…

中文分词实战——基于jieba动态加载字典和调整词频的电子病历分词

分词是自然语言处理中最基本的一个任务,这篇小文章不介绍相关的理论,而是介绍一个电子病历分词的小实践. 开源的分词工具中,我用过的有jieba.hnlp和stanfordnlp,感觉jieba无论安装和使用都比较便捷,拓展性也比较好.是不是直接调用开源的分词工具,就可以得到比较好的分词效果呢?答案当然是否定的.尤其是在专业性较强的领域,比如医疗行业,往往需要通过加载相关领域的字典.自定义字典和正则表达式匹配等方式,才能得到较好的分词效果. 这次我就通过一个电子病历分词的小实践,分析在具体的分词任务…

【转】发布一个基于NGUI编写的UI框架

发布一个基于NGUI编写的UI框架 1.加载,显示,隐藏,关闭页面,根据标示获得相应界面实例 2.提供界面显示隐藏动画接口 3.单独界面层级,Collider,背景管理 4.根据存储的导航信息完成界面导航 5.界面通用对话框管理(多类型Message Box) 6.便于进行需求和功能扩展(比如,在跳出页面之前添加逻辑处理等) 目标:编写一个简单通用UI框架用于管理页面和完成导航跳转最终的实现效果和Demo请拉到最下方回复查看框架具体实现的功能和需求加载,显示,隐藏,关闭页面,根据标示获得相…

Lucene.net(4.8.0) 学习问题记录五: JIEba分词和Lucene的结合，以及对分词器的思考

前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移.因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3.6.0 ,PanGu分词也是对应Lucene3.6.0版本的.不过好在Lucene.net 已经有了Core 2.0版本(4.8.0 bate版),而PanGu分词,目前有人正在做,貌似已经做完,只是还没有测试~,Lucene升级的改变我都会加粗表示. Lucene.net 4.8.0 https…

python结巴(jieba)分词

python结巴(jieba)分词一.特点 1.支持三种分词模式: (1)精确模式:试图将句子最精确的切开,适合文本分析. (2)全模式:把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解决歧义. (3)搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词.2.支持繁体分词3.支持自定义词典二.实现结巴分词的实现原理主要有一下三点:(1)基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG).(2)采用了动态…

信息技术手册可视化进度报告基于jieba的关键字提取技术

在这一篇博客之前,我已经将word文件中的内容通过爬虫的方式整理到数据库中了,但是为了前台展示的需要,还必须提取出关键字,用于检索. 我用的是jieba分词,GitHub地址:https://github.com/fxsjy/jieba 在项目中主要用到的是jieba分词技术中的提取文章中的关键字的技术: 基于 TF-IDF 算法的关键词抽取 import jieba.analyse jieba.analyse.extract_tags(sentence, topK=20, withWeight…

自然语言处理之jieba分词

在处理英文文本时,由于英文文本天生自带分词效果,可以直接通过词之间的空格来分词(但是有些人名.地名等需要考虑作为一个整体,比如New York).而对于中文还有其他类似形式的语言,我们需要根据来特殊处理分词.而在中文分词中最好用的方法可以说是jieba分词.接下来我们来介绍下jieba分词的特点.原理与及简单的应用 1.特点 1)支持三种分词模式精确模式:试图将句子最精确的切开,适合文本分析全模式:把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义搜索引擎模式:在精确模式…

python 全栈开发，Day133(玩具与玩具之间的对话,基于jieba gensim pypinyin实现的自然语言处理,打包apk)

先下载github代码,下面的操作,都是基于这个版本来的! https://github.com/987334176/Intelligent_toy/archive/v1.6.zip 注意:由于涉及到版权问题,此附件没有图片和音乐.请参考链接,手动采集一下! 请参考链接: https://www.cnblogs.com/xiao987334176/p/9647993.html#autoid-3-4-0 一.玩具与玩具之间的对话 app消息提醒之前实现了App发送语音消息给web端玩具,web端…

jieba分词(2)

结巴分词系统中实现了两种关键词抽取法,一种是TF-IDF关键词抽取算法另一种是TextRank关键词抽取算法,它们都是无监督的算法. 以下是两种算法的使用: #-*- coding:utf-8 -*- from __future__ import unicode_literals import jieba.analyse import jieba s='gStore 是一个基于图的 RDF 数据管理系统(也称为“三元组存储”),维持\ 了原始RDF 数据的图结构.它的数据模型是有标签的有向多边图…

Python自然语言处理学习——jieba分词

jieba——“结巴”中文分词是sunjunyi开发的一款Python中文分词组件,可以在Github上查看jieba项目. 要使用jieba中文分词,首先需要安装jieba中文分词,作者给出了如下的安装方法: 1.全自动安装:easy_install jieba 或者 pip install jieba / pip3 install jieba 2.半自动安装:先下载 http://pypi.python.org/pypi/jieba/ ,解压后运行 python setup.py insta…

$好玩的分词——python jieba分词模块的基本用法

jieba(结巴)是一个强大的分词库,完美支持中文分词,本文对其基本用法做一个简要总结. 安装jieba pip install jieba 简单用法结巴分词分为三种模式:精确模式(默认).全模式和搜索引擎模式,下面对这三种模式分别举例介绍: 精确模式 import jieba s = u'我想和女朋友一起去北京故宫博物院参观和闲逛.' cut = jieba.cut(s) print '[Output]' print cut print ','.join(cut) [Output] <gen…

文本相似度分析（基于jieba和gensim）

基础概念本文在进行文本相似度分析过程分为以下几个部分进行, 文本分词语料库制作算法训练结果预测分析过程主要用两个包来实现jieba,gensim jieba:主要实现分词过程 gensim:进行语料库制作和算法训练结巴(jieba)分词在自然语言处理领域中,分词和提取关键词都是对文本处理时通常要进行的步骤.用Python语言对英文文本进行预处理时可选择NLTK库,中文文本预处理可选择jieba库.结巴分词是基于统计的分词方法,它对给出大量已经分词的文本,利用统计机器学习模型学习词语…

自然语言处理之中文分词器－jieba分词器详解及python实战

(转https://blog.csdn.net/gzmfxy/article/details/78994396) 中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块,在进行中文自然语言处理时,通常需要先进行分词.本文详细介绍现在非常流行的且开源的分词器结巴jieba分词器,并使用python实战介绍. jieba分词算法使用了基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能生成词情况所构成的有向无环图(DAG), 再采用了动态规划查找最大概率路径,找出基于词频的最大切…

python jieba分词（添加停用词，用户字典取词频

中文分词一般使用jieba分词 1.安装 pip install jieba 2.大致了解jieba分词包括jieba分词的3种模式全模式 import jieba seg_list = jieba.cut("我来到北京清华大学", cut_all=True, HMM=False) print("Full Mode: " + "/ ".join(seg_list)) # 全模式精准模式 import jieba seg_list = jie…

C#编写了一个基于Lucene.Net的搜索引擎查询通用工具类：SearchEngineUtil

最近由于工作原因,一直忙于公司的各种项目(大部份都是基于spring cloud的微服务项目),故有一段时间没有与大家分享总结最近的技术研究成果的,其实最近我一直在不断的深入研究学习Spring.Spring Boot.Spring Cloud的各种框架原理,同时也随时关注着.NET CORE的发展情况及最新技术点,也在极客时间上订阅相关的专栏,只要下班有空我都会去认真阅读观看,纸质书箱也买了一些,总之近一年都是在通过:微信技术公众号(.NET.JAVA.算法.前端等技术方向).极客时间.技术书…

jieba分词流程及部分源码解读（一）

首先我们来看一下jieba分词的流程图: 结巴中文分词简介 1)支持三种分词模式: 精确模式:将句子最精确的分开,适合文本分析全模式:句子中所有可以成词的词语都扫描出来,速度快,不能解决歧义搜索引擎模式:在精确的基础上,对长词再次切分,提高召回 2)支持繁体分词 3)支持自定义词典 4)基于Trie树结构实现高效的词图扫描,生成句子汉字所有可能成词情况所构成的有向无环图(DAG) 5) 采用了动态规划查找最大概率路径,找出基于词频的最大切分组合 6)对于词库中不存在的词,也就是未登录词,采…

自然语言处理课程（二）：Jieba分词的原理及实例操作

上节课,我们学习了自然语言处理课程(一):自然语言处理在网文改编市场的应用,了解了相关的基础理论.接下来,我们将要了解一些具体的.可操作的技术方法. 作为小说爱好者的你,是否有设想过通过一些计算机工具对小说做一些有趣的事情呢?阅读本文,你可以了解到如何运用现在最流行.最容易运用的jieba分词包,统计一个段落的词频,然后来通过词频推断小说的关键情节.核心人物. 作为文本分析和情感分析最基础的工作就是对文本进行分词,后期的文本挖掘.情感分析.规律探寻等工作很大程度上取决于分词的精确度.在当代的中文…

从0搭建一个基于 ELK 的日志、指标收集与监控系统

为了使得私有化部署的系统能更健壮,同时不增加额外的部署运维工作量,本文提出了一种基于 ELK 的开箱即用的日志和指标收集方案. 在当前的项目中,我们已经使用了 Elasticsearch 作为业务的数据储存,同时利用 ansible.docker.jenkins 组合了一套快速部署的工具.在配置好需要部署主机的 ssh 连接信息后,我们可以通过 jenkins 一键部署一个 Elasticsearch 和 Kibana. 这套系统遵循以下的设计原则: Self-Contained Dep…

jieba分词的几种形式

1.精确模式:试图将句子最精确地分开,适合文本分析 seg_list = jieba.cut(test_text, cut_all=False) seg_list = " ".join(seg_list) print("cut_all=False:", seg_list) 输出: cut_all=False: 我今天下午打篮球 2.全模式:把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义 seg_list2 = jieba.cut(test_…

jieba分词处理

分词是一种数学上的应用,他可以直接根据词语之间的数学关系进行文字或者单词的抽象,比如,讲一句话"我来自地球上中国"进行单词分割,我们可能会得到如下的内容:"我"."来自"."地球上"."中国",这些就相当于是分词的概念,在我们搜索引擎开发的过程中,是必须要要使用到分词的概念的. jieba简介 jieba是一个在中文自然语言处理过程中使用最多的工具包之一,目前能够实现包括分词.词性标注以及命名实体识别等多…

WebGIS中兴趣点简单查询、基于Lucene分词查询的设计和实现

文章版权由作者李晓晖和博客园共有,若转载请于明显处标明出处:http://www.cnblogs.com/naaoveGIS/. 1.前言兴趣点查询是指:输入框中输入地名.人名等查询信息后,地图上可以展示出对应信息所在的地址,并且根据需求以不同方式展示出相关地址的属性信息等. 以百度地图为例: 2.原理所谓兴趣点查询,也就是前台输入描述信息后,后台根据该描述信息在地理数据库中查询到符合查询信息的地理数据和与此对应的属性数据,然后将数据返回给前台,前台进行展示.具体流程图如下: 3.数据采集…

【原】关于使用jieba分词+PyInstaller进行打包时出现的一些问题的解决方法

错误现象: 最近在做一个小项目,在Python中使用了jieba分词,感觉非常简洁方便.在Python端进行调试的时候没有任何问题,使用PyInstaller打包成exe文件后,就会报错: 错误原因分析: 参考文献1中的说明,WindowsError:[Error 3]是系统找不到指定文件. 参考文献2中@fxsjy同学的解释,应该是PyInstaller在打包的时候没有将词典文件一起打包导致结巴分词找不到指定的词典文件. 解决方案如下: 1.在python中查询结巴分词的词典文件: 1 2 3…

一个基于.NET平台的自动化/压力测试系统设计简述

AutoTest系统设计概述 AutoTest是一个基于.NET平台实现的自动化/压力测试的系统,可独立运行于windows平台下,支持分布式部署,不需要其他配置或编译器的支持.(本质是一个基于协议的测试工具),前面还有一篇对其功能的简单介绍[AutoTest简介] AutoTest用于发布的部分有2个部分,主程序[AutoTest.exe]及分布式部署程序[RemoteService.exe](用于将将测试业务分布式部署到远程主机) 而在内部又被设计为多个组成部分,最终完成对自定义脚本文件的解…