共有11款Python 中文分词库开源软件
件过滤:
Python 中文分词库 Yaha
"哑哈"中文分词,更快或更准确,由你来定义。通过简单定制,让分词模块更适用于你的需求。 "Yaha" You can custom your Chinese Word Segmentation efficiently by using Yaha 基本功能: 精确模式,将句子切成最合理的词。 全模式,所有的可能词都被切成词... 更多Yaha信息
Python中文分词组件 jieba
jieba "结巴"中文分词:做最好的Python中文分词组件 "Jieba" Feature 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式... 更多jieba信息
最近更新: 结巴分词 0.34 发布,Python 中文分词组件 发布于 1年前
中文分词工具包 smallseg
smallseg -- 开源的,基于DFA的轻量级的中文分词工具包 特点:可自定义词典、切割后返回登录词列表和未登录词列表、有一定的新词识别能力。 Python 示例代码: s3 = file("text.txt").read() words = [x.rstrip() for x in file("main.dic") ] from small... 更多smallseg信息
基于HMM模型的中文分词 finalseg
finalseg -> Chinese Words Segment Library in Python based on HMM Model 基于HMM模型的中文分词 用法 将finalseg目录放置于当前目录或者site-packages目录 import finalseg 代码示例 import finalseg sentence_list = [ "姚晨和老凌离婚了", "他说的确... 更多finalseg信息
最近更新: python中文分词库finalseg已经进入pypi仓库 发布于 3年前
genius中文分词
Genius Genius是一个开源的python中文分词组件,采用 CRF(Conditional Random Field)条件随机场算法。 Feature 支持python2.x、python3.x以及pypy2.x。 支持简单的pinyin分词 支持用户自定义break 支持用户自定义合并词典 支持词性标注 Source Install 安装... 更多genius中文分词信息
最近更新: Genius 分词 3.1.6 版本发布 发布于 1年前
中文文本关键词和摘要提取库 TextRank4ZH
TextRank4ZH 用于自动从中文文本中提取关键词和摘要,基于 TextRank 算法,使用 Python 编写。 TextRank 算法可以用来从文本中提取关键词和摘要(重要的句子)。TextRank4ZH是针对中文文本的TextRank算法的python算法实现。 安装 本程序使用python 2.7测试... 更多TextRank4ZH信息
短文本分类工具 TextGrocery
TextGrocery 是一个基于SVM算法的短文本分类工具,内置了结巴分词,让文本分类变得简单。 示例代码: >>> from tgrocery import Grocery # 新开张一个杂货铺,别忘了取名! >>> grocery = Grocery('sample') # 训练文本可以用列表传入 >>> train_src = [ ... 更多TextGrocery信息
NLPIR的Python封装 python-nlpir
python-nlpir是NLPIR的一个python封装。NLPIR是目前运用最为广泛的中文分词工具。目前该软件支持Windows和Linux。 更多python-nlpir信息
Python 中文分词库 snailseg
snailseg Chinese Words Segment Library in Python 简单的中文分词库 在线分词效果展示 https://snailsegdemo.appspot.com/ Usage 将snailseg目录放置于当前目录或者site-packages目录 import snailseg 代码示例 import snailseg words = snailseg.cut("... 更多snailseg信息
Python中文分词 scseg
scseg中文分词,是基于mmseg的简单分词组件 Feature 支持pinyin分词 支持用户自定义词典 支持单位合并 支持汉字数字识别 Install pip install scseg 通过import scseg来引用 Algorithm 采用mmseg算法进行切分 采用规则方式支持中文数字分词 功能 1):分词s... 更多scseg信息
ChineseWordSegmentation
这是一个简单的中文分词程序,可以在没有语料库的情况下通过各个词语的相关度将中文词汇抽取出来 具体的理论可以参看Matrix67的博客文章: http://www.matrix67.com/blog/archives/5044 我只是把这个算法进行了实现而已。 该程序写得比较着急,还有很多... 更多ChineseWordSegmentation信息
共有11款Python 中文分词库开源软件的更多相关文章
- 共有49款Windows GUI开发框架开源软件 【转】
源文 : http://www.oschina.net/project/tag/178/gui?lang=36&os=0&sort=view&p=1 桌面应用开发引擎 Allo ...
- 共有31款PHP 图形/图像处理开源软件(转)
详情点击:http://www.oschina.net/project/lang/22/php?tag=141&os=0&sort=view PHP 图像处理库 Grafika Gra ...
- jieba分词-强大的Python 中文分词库
1. jieba的江湖地位 NLP(自然语言)领域现在可谓是群雄纷争,各种开源组件层出不穷,其中一支不可忽视的力量便是jieba分词,号称要做最好的 Python 中文分词组件. 很多人学习pytho ...
- PyVista:一款Python的三维可视化软件
技术背景 三维可视化是一项在工业领域中非常重要的技术,而Python中最热门的可视化工具matplotlib和plotly,更加倾向于在数据领域的可视化,用于展现数据的结果.类似的还有百度的pyech ...
- 【转】44款Java 网络爬虫开源软件
原帖地址 http://www.oschina.net/project/lang/19?tag=64&sort=time 极简网络爬虫组件 WebFetch WebFetch 是无依赖极简网页 ...
- 介绍:一款Mathematica的替代开源软件Mathetics
Mathetics软件 1 以Python语言实现该系统 2 软件使用的语法与Mathematica同样 3 下载:http://www.mathics.org/ 4 手冊:http://www.ma ...
- python 中文分词库 jieba库
jieba库概述: jieba是优秀的中文分词第三方库 中文文本需要通过分词获得单个的词语 jieba是优秀的中文分词第三方库,需要额外安装 jieba库分为精确模式.全模式.搜索引擎模式 原理 1. ...
- python中文分词库——pyltp
pyltp在win10下安装比较麻烦,因此参考以下安装方式, 1.下载 win10下python3.6 2.安装 下载好了以后, 在命令行下, cd到wheel文件所在的目录, 然后使用命令pip i ...
- python中文分词库——pynlpir
安装 pip install pynlpir import pynlpir #加载包 pynlpir.open() #加载nlpir的库,这步是必须的 #否则会出现 段错误/段转储 segment f ...
随机推荐
- 扩展 Yii2 自带的日志组件
<?php /** * author : forecho <caizhenghai@gmail.com> * createTime : 2015/12/22 18:13 * desc ...
- php基本语法与函数
1.标记与注释 <?php 代码 ?> 用/* */注释一段代码, 用 // 注释一行代码 /** */文档注释 注意:若php下面只有php代码没有别的代码,那么最好不要加 ...
- socket通信——通过Udp传输方式,将一段文字数据发送出去
需求:通过Udp传输方式,将一段文字数据发送出去 定义一个Udp发送端 思路: 1.建立updsocket服务 2.提供数据,并将数据封装到数据包中. 3.通过socket服务的发送功能,将数据包发出 ...
- spring项目命名
groupId 一般分为多个段,最简单的分两段,第一段为域,第二段为公司名称.域又分为org.com.cn等等许多, 举个apache公司的tomcat项目例子:这个项目的groupId是org.ap ...
- 07 09&10
0709: 排名还是不高,毕竟没切出来题. 第一题dalao: 要求你做一个三维数点,只回答最终有多少个点对的状态是完全小于(可比?)的.(n<=2000000) 特殊限制是三维都是随机排列. ...
- 在Ubuntu上为Android系统的Application Frameworks层增加硬件访问服务【转】
本文转载自:http://blog.csdn.net/luoshengyang/article/details/6578352 在数字科技日新月异的今天,软件和硬件的完美结合,造就了智能移动设备的流行 ...
- Excel 2007中自定义数字格式前要了解的准则
要在Excel 2007中创建自定义数字格式,首先应了解自定义数字格式的准则,并从选择某一内置数字格式开始.然后,可以更改该格式的任意代码部分,从而创建自己的自定义数字格式. 数字格式最多可包含四个代 ...
- hdu 4542 小明系列故事——未知剩余系 反素数 + 打表
小明系列故事——未知剩余系 Time Limit: 500/200 MS (Java/Others) Memory Limit: 65535/32768 K (Java/Others) Prob ...
- Hibernate学习---第八节:继承关系的映射配置
1.单表继承 (1).实体类,代码如下: package learn.hibernate.bean; import java.util.Date; /** * 持久化类设计 * 注意: * 持久化类通 ...
- hibernate 框架搭建
Hibernate是一个开放源代码的对象关系映射框架,它对JDBC进行了非常轻量级的对象封装,它将POJO与数据库表建立映射关系,是一个全自动的orm框架,hibernate可以自动生成SQL语句,自 ...