中文分词实践(基于R语言)】的更多相关文章

概率图模型 基于R语言 这本书中的第一个R语言程序 prior <- c(working =0.99,broken =0.01) likelihood <- rbind(working = c(good=0.99,bad=0.01),broken =c(good=0.6,bad=0.4)) data <- c("bad","bad","bad","bad") bayes <- function(prio…
时间序列: (或称动态数列)是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列.时间序列分析的主要目的是根据已有的历史数据对未来进行预测.(百度百科) 主要考虑的因素: 1.长期趋势(Long-term trend) : 时间序列可能相当稳定或随时间呈现某种趋势. 时间序列趋势一般为线性的(linear),二次方程式的 (quadratic)或指数函数(exponential function). 2.季节性变动(Seasonal variation) 按时间变动,呈现重复性行为的序列…
A IMA模型是一种著名的时间序列预测方法,主要是指将非平稳时间序列转化为平稳时间序列,然后将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归所建立的模型.ARIMA模型根据原序列是否平稳以及回归中所含部分的不同,包括移动平均过程(MA).自回归过程(AR).自回归移动平均过程(ARMA)以及ARIMA过程.其中ARIMA(p,d,q)称为差分自回归移动平均模型,AR是自回归, p为自回归项: MA为移动平均,q为移动平均项数,d为时间序列成为平稳时所做的差分次数. 通常的建立ARIMA…
Twitter开源的时序数据突变检测(BreakoutDetection),基于无参的E-Divisive with Medians (EDM)算法,比传统的E-Divisive算法快3.5倍以上,并且具有鲁棒统计性,就是你加入一些离群点或异常点,并不影响该算法的检测效果,不过最关键的还是无参特性,有时候调参真是件摸着石头过河的事. 它认为突变有两种方式: 1.Mean Shift:突然跳变,比如CPU从40%一跃跳变为60%,像佛教里讲的“顿宗” 2.Ramp Up:缓慢从一个平稳状态渐变到另…
背景:分析用户在世界杯期间讨论最多的话题. 思路:把用户关于世界杯的帖子拉下来.然后做中文分词+词频统计,最后将统计结果简单做个标签云.效果例如以下: 兴许:中文分词是中文信息处理的基础.分词之后.事实上还有特别多有趣的文本挖掘工作能够做.也是个知识发现的过程,以后有机会再学习下. ================================================== * 中文分词经常使用实现: 单机:R语言+Rwordseg分词包 (建议数据量<1G) 分布式:Hadoop+Sm…
lavaan简明教程 [中文翻译版] 译者注:此文档原作者为比利时Ghent大学的Yves Rosseel博士,lavaan亦为其开发,完全开源.免费.我在学习的时候顺手翻译了一下,向Yves的开源精神致敬.此翻译因偷懒部分删减,但也有增加,有错误请留言 「转载请注明出处」 目录 lavaan简明教程 [中文翻译版] 目录 摘要 在开始之前 安装lavaan包 模型语法 例1:验证性因子分析(CFA) 例2:结构方程(SEM) 更多关于语法的内容 6.1 固定参数 6.2 初值 6.3 参数标签…
分词是自然语言处理中最基本的一个任务,这篇小文章不介绍相关的理论,而是介绍一个电子病历分词的小实践. 开源的分词工具中,我用过的有jieba.hnlp和stanfordnlp,感觉jieba无论安装和使用都比较便捷,拓展性也比较好.是不是直接调用开源的分词工具,就可以得到比较好的分词效果呢?答案当然是否定的.尤其是在专业性较强的领域,比如医疗行业,往往需要通过加载相关领域的字典.自定义字典和正则表达式匹配等方式,才能得到较好的分词效果. 这次我就通过一个电子病历分词的小实践,分析在具体的分词任务…
中文分词概述 词是最小的能够独立活动的有意义的语言成分,一般分词是自然语言处理的第一项核心技术.英文中每个句子都将词用空格或标点符号分隔开来,而在中文中很难对词的边界进行界定,难以将词划分出来.在汉语中,虽然是以字为最小单位,但是一篇文章的语义表达却仍然是以词来划分的.因此处理中文文本时,需要进行分词处理,将句子转为词的表示,这就是中文分词. 中文分词的三个难题: 分词规则,消除歧义和未登录词识别. 构建完美的分词规则便可以将所有的句子正确的划分,但是这根本无法实现,语言是长期发展自然而然形成的…
分析航空公司现状 1.行业内竞争 民航的竞争除了三大航空公司之间的竞争之外,还将加入新崛起的各类小型航空公司.民营航空公司,甚至国外航空巨头.航空产品生产过剩,产品同质化特征愈加明显,于是航空公司从价格.服务间的竞争逐渐转向对客户的竞争. 2.行业外竞争 随着高铁.动车等铁路运输的兴建,航空公司受到巨大冲击. 航空公司客户数据说明 目前航空公司已积累了大量的会员档案信息和其乘坐航班记录. 以2014-03-31为结束时间,选取宽度为两年的时间段作为分析观测窗口,抽取观测窗口内有乘机记录的所有客户…
一,前提准备         1.R语言包:ggplot2包(绘图),recommenderlab包,reshape包(数据处理)         2.获取数据:大家可以在明尼苏达州大学的社会化计算研究中心官网上面下载这些免费数据集,网站链接为http://grouplens.org/datasets/movielens/,也可以通过网盘下载https://yunpan.cn/Oc6R9apvCnVXGc访问密码 e1af.这里包含了数据集和数据说明,该数据集是由943位用户对1682部电影的一…