关于yaha中文分词（将中文分词后，结合TfidfVectorizer变成向量）

https://github.com/jannson/yaha

# -*- coding: utf-8 -*-

"""

Created on Wed Aug 10 08:35:55 2016

@author: Administrator

"""

# -*- coding=utf-8 -*-

import sys, re, codecs

import cProfile

from yaha import Cuttor, RegexCutting, SurnameCutting, SurnameCutting2, SuffixCutting

from yaha.wordmaker import WordDict

from yaha.analyse import extract_keywords, near_duplicate, summarize1, summarize2, summarize3

'''

项目网址

https://github.com/jannson/yaha

'''

str = '唐成真是唐成牛的长寿乡是个1998love唐成真诺维斯基'

cuttor = Cuttor()

# Get 3 shortest paths for choise_best

#cuttor.set_topk(3)

# Use stage 1 to cut english and number

cuttor.set_stage1_regex(re.compile('(\d+)|([a-zA-Z]+)', re.I|re.U))

# Or use stage 2 to cut english and number

#cuttor.add_stage(RegexCutting(re.compile('\d+', re.I|re.U)))

#cuttor.add_stage(RegexCutting(re.compile('[a-zA-Z]+', re.I|re.U)))

# Use stage 3 to cut chinese name

#surname = SurnameCutting()

#cuttor.add_stage(surname)

# Or use stage 4 to cut chinese name

surname = SurnameCutting2()

cuttor.add_stage(surname)

# Use stage 4 to cut chinese address or english name

suffix = SuffixCutting()

cuttor.add_stage(suffix)

#seglist = cuttor.cut(str)

#print '\nCut with name \n%s\n' % ','.join(list(seglist))

#seglist = cuttor.cut_topk(str, 3)

#for seg in seglist:

#    print ','.join(seg)

#for s in cuttor.cut_to_sentence(str):

#    print s

#str = "伟大祖国是中华人民共和国"

#str = "九孔不好看来"

#str = "而迈入社会后..."

str = "工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作"

#You can set WORD_MAX to 8 for better match

#cuttor.WORD_MAX = 8

#Normal cut()

seglist = cuttor.cut(str)

print 'Normal cut \n%s\n' % ','.join(list(seglist))

#All cut

seglist = cuttor.cut_all(str)

print 'All cut \n%s\n' % ','.join(list(seglist))

#Tokenize for search

print 'Cut for search (term,start,end)'

for term, start, end in cuttor.tokenize(str.decode('utf-8'), search=True):

    print term, start, end

re_line = re.compile("\W+|[a-zA-Z0-9]+", re.UNICODE)

def sentence_from_file(filename):

    with codecs.open(filename, 'r', 'utf-8') as file:

        for line in file:

            for sentence in re_line.split(line):

                yield sentence

def make_new_word(file_from, file_save):

    word_dict = WordDict()

    #word_dict.add_user_dict('www_qq0')

    for sentence in sentence_from_file(file_from):

        word_dict.learn(sentence)

    word_dict.learn_flush()

    str = '我们的读书会也顺利举办了四期'

    seg_list = word_dict.cut(str)

    print ', '.join(seg_list)

    word_dict.save_to_file(file_save)

#最大熵算法得到新词

#def test():

#   make_new_word('qq0', 'www_qq0')

#cProfile.run('test()')

#test()

#test: Get key words from file

def key_word_test():

    filename = 'key_test.txt'

    with codecs.open(filename, 'r', 'utf-8') as file:

        content = file.read()

        keys = extract_keywords(content)

        #print ','.join(keys)

        print summarize1(content)

        print summarize2(content)

        print summarize3(content)

#key_word_test()

#比较文本的相似度(注意将两个文本文件保存为UTF-8)

def compare_file():

    file1 = codecs.open('f1.txt', 'r', 'utf-8')

    file2 = codecs.open('f2.txt', 'r', 'utf-8')

    print 'the near of two files is:', near_duplicate(file1.read(), file2.read())

compare_file()

关于yaha中文分词（将中文分词后，结合TfidfVectorizer变成向量）的更多相关文章

python中文分词：结巴分词
中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词.其基本实现原理有三点: 基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG) 采用了动态规 ...
python 中文分词：结巴分词
中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词.其基本实现原理有三点: 基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG) 采用了动态规 ...
为Elasticsearch添加中文分词，对比分词器效果
http://keenwon.com/1404.html Elasticsearch中,内置了很多分词器(analyzers),例如standard (标准分词器).english(英文分词)和chi ...
为 Elasticsearch 添加中文分词，对比分词器效果
转自:http://keenwon.com/1404.html 为 Elasticsearch 添加中文分词,对比分词器效果 Posted in 后端 By KeenWon On 2014年12月12 ...
SQLServer乱码问题的分析及解决方法（中文字符被存入数据库后，显示为乱码）
注:本文为个人转存,原文地址:http://blog.csdn.net/qiuyu8888/article/details/8021410 问题:SQL版在使用过程中有时会出现乱码,我的症状是中文字符 ...
可定制的分词库——Yaha（哑哈）分词
可定制的分词库——Yaha(哑哈)分词在线测试地址:http://yaha.v-find.com/ 部署于GAE yahademo.appspot.comYaha分词主要特点是把分词过程分成了4个阶段 ...
【转】cygwin中文乱码（打开gvim中文乱码、安装svn后乱码）
想用cygwin less看log,可能包含德语.格式是乱的,很多类似"ESC"之类的乱码. 结果这个解决方案似乎也不错,有排版,有颜色高亮. ------------------ ...
cookie不支持中文，必须转码后存储，否则会乱码
cookie不支持中文,必须转码后存储,否则会乱码 Cookie ck = new Cookie("username", URLEncoder.encode(name, " ...
ElasticSearch已经配置好ik分词和mmseg分词(转)
ElasticSearch是一个基于Lucene构建的开源,分布式,RESTful搜索引擎.设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便.支持通过HTTP使用JSON进行数据索引 ...
Elasticsearch拼音分词和IK分词的安装及使用
一.Es插件配置及下载 1.IK分词器的下载安装关于IK分词器的介绍不再多少,一言以蔽之,IK分词是目前使用非常广泛分词效果比较好的中文分词器.做ES开发的,中文分词十有八九使用的都是IK分词器. ...

随机推荐

Unity3D 调用模态对话框/Unity3D MessageBox
Unity模态对话框/Unity MessageBox 很多时候,我们需要将Unity的exe产品发布到某一个平台.比如某某斗地主发布到某Q游戏.这时候如果需要调试肿么办.办法无外乎那几个.1:源码调 ...
Canvas旋转元素
Canvas是HTML5的画布元素,有时需要按指定角度旋转某一个元素. var canvas = document.getElementById("mycanvas"); var ...
【转载】Hadoop机架感知
转载自http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2843015.html 背景分布式的集群通常包含非常多的机器,由于受到机架槽位和交换机 ...
Oracle常见的几种等待事件
1. CPU time CPU time其实不是真正的等待事件.是衡量CPU是否瓶颈的一个重要指标.一般来讲,一个良好的系统,CPU TIME 应该排在TOP 5 TIME Event的最前面. 当然 ...
SQL2000的三种“故障还原模型”
一.SQL2000的三种“故障还原模型” 在数据库属性的“选项”页,“故障还原模型”栏,共有三项选择:简单.完全.大容量日志记录.它们的根本差别在于SQL2000对数据库日志的维护方式不同.下面逐个讲 ...
git 新建分支/切换分支/合并分支使用方法
我的源码在阿里云的git上存储着呢 1. 在 code.aliyun.com 上新建分支 fixbug 2. 通过在 phpstorm中右键项目>>VSC>>Git&g ...
ASP.NET MVC利用ajax把action的JavaScript注册到页面并执行
相信大家在做Webform时经常会遇到在页面的后台CS文件中根据数据运行结果修改页面显示样式.显示(隐藏).或者弹出框,当时我们会用到ScriptManage或者Page来向页面注册一段js来实现页面 ...
maya,mel,eval,stringarray
mel里,当要eval("client()"),并且要传递stirngarray参数给函数client()时,正确的写法应该是: global proc intermediator ...
FileUploadInterceptor拦截器的笔记
当请求表单中包含一个文件file,FileUploadInterception拦截器会自动应用于这个文件. 表单: <s:form namespace="/xxx" acti ...
3、Linux 获取帮助的方法-关机命令-7个系统启动级别
1.获取帮助的方法: (1).命令 -h 或--help (2).man man 命令 --->/user 查看user选项 /选项 ---->n 查看下一项 2.关机命令 (1).sh ...

关于yaha中文分词（将中文分词后，结合TfidfVectorizer变成向量）

关于yaha中文分词（将中文分词后，结合TfidfVectorizer变成向量）的更多相关文章

随机推荐

热门专题