SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典.注意本程序都是处理的unicode编码,所以使用时请自行decode成unicode. from snownlp import SnowNLP s = SnowNLP(u'这个东西真心很赞') s.wor…
https://segmentfault.com/a/1190000000362372…
SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典. Features • 中文分词(Character-Based Generative Model) • 词性标准(TnT 3-gram 隐马) • 情感分析(现在训练数据主要是买卖东西时的评价,所以对其…
  import javax.swing.*; import java.awt.*; import java.awt.event.*; import java.io.*; public class ChineseTextEdit extends JFrame implements ActionListener{ JTextArea texA; JScrollPane scroll; JButton but1; JButton but2; JButton but3; ChineseTextEdit…
自然语言处理的大部分任务是监督学习问题.序列标注问题如中文分词.命名实体识别,分类问题如关系识别.情感分析.意图分析等,均需要标注数据进行模型训练.深度学习大行其道的今天,基于深度学习的 NLP 模型更是数据饥渴. 本文分享一个中文文本标注工具Chinese-Annotator.  https://github.com/crownpku/Chinese-Annotator 最前沿的 NLP 技术往往首先针对英文语料.英文 NLP 的生态很好,针对不同有意思的问题都有不少大规模语料公开供大家研究,…
简介 查看百度搜索中文文本聚类我失望的发现,网上竟然没有一个完整的关于Python实现的中文文本聚类(乃至搜索关键词python 中文文本聚类也是如此),网上大部分是关于文本聚类的Kmeans聚类的原理,Java实现,R语言实现,甚至都有一个C++的实现. 正好我写的一些文章,我没能很好的分类,我想能不能通过聚类的方法将一些相似的文章进行聚类,然后我再看每个聚类大概的主题是什么,给每个聚类一个标签,这样也是完成了分类. 中文文本聚类主要有一下几个步骤,下面将分别详细介绍: 切词 去除停用词 构建…
过滤字符串中不属于指定集合的字符 任务: 给定一个需要保留的字符串的集合,构建一个过滤函数,并可将其应用于任何字符串s,函数返回一个s的拷贝,该拷贝只包含指定字符集合中的元素. 解决方案: import string allchars = string.maketrans('','') #all chars table def makefilter(keep): delchars = allchars.translate(allchars,keep) def thefilter(s): retu…
ubuntu下通过'sudo apt-get install python-wxtools'下载wxPython.load和save函数用于加载和保存文件内容,button通过Bind函数绑定这两个函数用于进行事件处理.BoxSizer(尺寸器)可以动态调整窗口布局.下面的代码实现了一个简单的文本编辑器,可以实现编辑加载和保存操作. import wx def load(event): file = open(filename.GetValue()) contents.SetValue(file…
1.载入文档 #!/usr/bin/python # -*- coding: utf-8 -*- import pandas as pd import re import jieba from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer #加载文本 dataPath1='D:/machinelearning data/crawlerData/mi6x_JD500.csv' dataPath2='…
本文是讲述怎样使用word2vec的基础教程.文章比較基础,希望对你有所帮助! 官网C语言下载地址:http://word2vec.googlecode.com/svn/trunk/ 官网Python下载地址:http://radimrehurek.com/gensim/models/word2vec.html 1.简介 參考:<Word2vec的核心架构及其应用 · 熊富林.邓怡豪,唐晓晟 · 北邮2015年>           <Word2vec的工作原理及应用探究 · 周练 ·…