HanLP-实词分词器详解

在进行文本分类（非情感分类）时，我们经常只保留实词（名、动、形）等词，为了文本分类的分词方便，HanLP专门提供了实词分词器类NotionalTokenizer，同时在分类数据集加载处理时，默认使用了NotionalTokenizer分词器。

在HanLPJava版代码库中可以查看下边的文件中的函数

1、AbstractDataSet.java文件中的AbstractDataSet方法

2、HanLPTokenizer.java文件中的segment方法

3、NotionalTokenizer.java文件中的segment方法

简单说明一下NotionalTokenizer类实现

1、初始化了一个维特比分词器实例（最短路径方法，用viterbi思想实现）

2、用CoreStopWordDictionary类的shouldInclude方法对维特比分词结果进行过滤，该方法只保留属于名词、动词、副词、形容词并且不在停用词表中的词。详见CoreStopWordDictionary.java文件中的shouldInclude(Term)方法。

对于PyHanLP的调用方法可以参考

# # -*- coding:utf-8 -*-

# Author：wancong

# Date: 2018-04-30

from pyhanlp import *

def demo_notional_tokenizer():

""" 演示自动去除停用词、自动断句的分词器

>>> demo_notional_tokenizer()

[小区/n, 居民/n, 反对/v, 喂养/v, 流浪猫/nz, 居民/n, 赞成/v, 喂养/v, 小宝贝/nz]

[小区/n, 居民/n, 反对/v, 喂养/v, 流浪猫/nz]

[居民/n, 赞成/v, 喂养/v, 小宝贝/nz]

"""

Term =JClass("com.hankcs.hanlp.seg.common.Term")

NotionalTokenizer = JClass("com.hankcs.hanlp.tokenizer.NotionalTokenizer")

text = "小区居民有的反对喂养流浪猫，而有的居民却赞成喂养这些小宝贝"

print(NotionalTokenizer.segment(text))

for sentence in NotionalTokenizer.seg2sentence(text):

print(sentence)

if __name__ == "__main__":

import doctest

doctest.testmod(verbose=True)

HanLP-实词分词器详解的更多相关文章

Lucene系列三：Lucene分词器详解、实现自己的一个分词器
一.Lucene分词器详解 1. Lucene-分词器API (1)org.apache.lucene.analysi.Analyzer 分析器,分词器组件的核心API,它的职责:构建真正对文本进行分 ...
自然语言处理之中文分词器－jieba分词器详解及python实战
(转https://blog.csdn.net/gzmfxy/article/details/78994396) 中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块,在进行中文自 ...
学习笔记（三）--Lucene分词器详解
Lucene-分词器API org.apache.lucene.analysi.Analyzer 分析器,分词器组件的核心API,它的职责:构建真正对文本进行分词处理的TokenStream(分词处理 ...
HanLP 关键词提取算法分析详解
HanLP 关键词提取算法分析详解 l 参考论文:<TextRank: Bringing Order into Texts> l TextRank算法提取关键词的Java实现 l Text ...
Solr系列五：solr搜索详解（solr搜索流程介绍、查询语法及解析器详解）
一.solr搜索流程介绍 1. 前面我们已经学习过Lucene搜索的流程,让我们再来回顾一下流程说明: 首先获取用户输入的查询串,使用查询解析器QueryParser解析查询串生成查询对象Query ...
GLSL-几何着色器详解跟实例（GS：Geometry Shader）[转]
[OpenGL4.0]GLSL-几何着色器详解和实例(GS:Geometry Shader) 一.什么是几何着色器(GS:Geometry Shader) Input Assembler(IA)从顶点 ...
C编译器、链接器、加载器详解
摘自http://blog.csdn.net/zzxian/article/details/16820035 C编译器.链接器.加载器详解一.概述 C语言的编译链接过程要把我们编写的一个c程序(源代 ...
Java类加载器详解
title: Java类加载器详解date: 2015-10-20 18:16:52tags: JVM--- ## JVM三种类型的类加载器- 我们首先看一下JVM预定义的三种类型类加载器,当一个 J ...
（转）Elasticsearch 5 Ik+pinyin分词配置详解
今天以这篇文章结束同城旅游网的面试,正好面试官也问到站内检索,可以尝试一下这篇文章介绍的方法.Elasticsearch 5 Ik+pinyin分词配置详解

随机推荐

Game HDU - 5242 树链思想
GameHDU - 5242 题目大意:一个游戏有n个场景形成了棵有根树,根节点是1,每个场景都有它的权值.然后一个人可以选择其中K个分支来走,而每个场景的权重只算一遍,问最大的权值和. 一开始想叉了 ...
noi.ac#458 sequence
题目链接:戳我蒟蒻的第一道子序列自动机! 给定两个01串A,B,求一个最短的01串,要求C不是A,B的子序列.要求如果同样短,输出字典序最小的. 那么我们先构建A,B两个串的子序列自动机.然后我们设 ...
动态DP教程
目录前言开始更进一步前言最后一届NOIPTG的day2T3对于动态DP的普及起到了巨大的作用.然而我到现在还不会开始 SP1716 GSS3 - Can you answer these ...
ssh以及双机互信
当我们要远程到其他主机上面时就需要使用ssh服务了. 我们就来安装一下sshd服务以及ssh命令的使用方法. 服务安装: 需要安装OpenSSH 四个安装包: 安装包: openssh-5.3p1-1 ...
Java读取根据HTML模板生成HTML页面
首先,我们需要一个html模板: <html> <head> <title>###title###</title> <meta http-equi ...
Nginx事件管理之事件处理流程
1. 概述事件处理要解决的两个问题: "惊群" 问题,即多个 worker 子进程监听相同端口时,在 accept 建立新连接时会有争抢,引发不必要的上下文切换, 增加系统开销. ...
石川es6课程---5、函数-参数
石川es6课程---5.函数-参数一.总结一句话总结: ` 收集参数:收集剩余的参数,必须当到最后一个参数位置:function show(a, b, ...args) { ` 展开参数:展开数组 ...
Laravel5.2中Eloquent与DB类的区别是什么？
要了解这些先看看关于数据库组件的那些事儿(就是 Eloquent ORM) 数据库组件大概分了三层: 数据库连接层查询构造层应用层来看一下每一层有哪些东西,分别对应文档的哪一部分: 数据库连接层 ...
centos7编译安装Python 3.6.8 后用pip3出现SSL未配置问题（import ssl失败）解决方法
下载源码编译安装openssl https://www.openssl.org/source/openssl-1.0.2j.tar.gz ./config --prefix=/usr/local/op ...
meta的相关属性
<!DOCTYPE html> H5标准声明,使用 HTML5 doctype,不区分大小写<head lang=”en”> 标准的 lang 属性写法<meta cha ...

HanLP-实词分词器详解

HanLP-实词分词器详解的更多相关文章

随机推荐

热门专题