数据挖掘之Slope One】的更多相关文章

计算偏差: card() 表示集合包含的元素数量. http://www.cnblogs.com/similarface/p/5385176.html 论文地址:http://lemire.me/fr/documents/publications/lemiremaclachlan_sdm05.pdf dev[itemI,itemJ]=[1.5-1]/1=0.5 这就是偏差 加权Slope One算法 p(u)=(0.5+2)*1/1=2.5 演绎:   倩女幽魂 新白娘子传奇 白发魔女传 邓紫棋…
为了对GMM-HMM在语音识别上的应用有个宏观认识,花了些时间读了下HTK(用htk完成简单的孤立词识别)的部分源码,对该算法总算有了点大概认识,达到了预期我想要的.不得不说,网络上关于语音识别的通俗易懂教程太少,都是各种公式满天飞,很少有说具体细节的,当然了,那需要有实战经验才行.下面总结以下几点,对其有个宏观印象即可(以孤立词识别为例). 一.每个单词的读音都对应一个HMM模型,大家都知道HMM模型中有个状态集S,那么每个状态用什么来表示呢,数字?向量?矩阵?其实这个状态集中的状态没有具体的…
原文:http://blog.csdn.net/heyongluoyao8/article/details/47840255 常见的机器学习&数据挖掘知识点 转载请说明出处 Basis(基础): SSE(Sum of Squared Error, 平方误差和) SAE(Sum of Absolute Error, 绝对误差和) SRE(Sum of Relative Error, 相对误差和) MSE(Mean Squared Error, 均方误差) RMSE(Root Mean Square…
C4.5简介 C4.5是一系列用在机器学习和数据挖掘的分类问题中的算法.它的目标是监督学习:给定一个数据集,其中的每一个元组都能用一组属性值来描述,每一个元组属于一个互斥的类别中的某一类.C4.5的目标是通过学习,找到一个从属性值到类别的映射关系,并且这个映射能用于对新的类别未知的实体进行分类. 由于ID3算法在实际应用中存在一些问题,于是Quinlan提出了C4.5算法,严格上说C4.5只能是ID3的一个改进算法. C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进: 1…
本数据挖掘框架在这几个月的时间内,有了进一步的功能增强 一. 超大网络的画布显示虚拟化     如前几节所述,框架采用了三级层次实现,分别是数据,抽象Node和绘图的DataPoint,结构如下:      在界面显示部分,之前并没有做过虚拟化优化,为了实现更多的功能,通过大量的事件挂接和其他操作将显示的控件与底层数据紧密耦合,因此内存回收机制几乎不起什么作用(原因见我另外一篇博客-事件的迷惑).另外,绘图控件包含很多可视化元素.这样的恶果便是当点的数量增大时,内存占用量也急剧增大,1万点时,就…
一. 前言 经过了一个多月的努力,软件系统又添加了不少新功能.这些功能包括非常实用的数据导入导出,对触摸进行优化的画布和画笔工具,以及对一些智能分析的报告生成模块等.进一步加强了平台系统级的功能. 马上要进入研三了,这套系统和我本人一样,前途未卜.一方面,实验室要求重新以JAVA开发一套数据挖掘框架而放弃当前的.NET版本,我的思路是两边一起发展,优势互补,可惜后继无人.另一方面,马上毕业的我,未来做不做数据挖掘工作都是两说,在多方面的压力下,开发软件目前近似于奢侈的选择.但是,就算是为了自己心…
这一次带来了一系列新特新,同时我们将会从商业智能的角度讨论软件的需求 一. 批量任务向导 一个常用的需求是完成处理多个任务,可能是同一个需求以不同的参数完成多次,这类似批量分析某一问题:或者是不同的需求顺次完成,比如系统功能级测试.因此非常有必要加入该功能.由于系统有对“任务”级功能的支持,所以添加该功能很容易,加入一个任务队列,当上一任务完成时自动配置和启动下一任务即可. 我们以批量执行同一任务为例,看下下面的操作.点击“任务”菜单的“启动批量任务”向导,即可实现如下配置:选择要批量执行的任务…
一. 前言 好久没有更新博客了,最近一直在忙着找工作,目前差不多尘埃落定.特别期待而且准备的都很少能成功,反而是没怎么在意的最终反而能拿到,真是神一样的人生. 言归正传,一直以来,数据挖掘系统的数据类型是我很头疼的问题,不可能为了每一种场景都定义一种新的数据类型,但通用类型又没法满足所有需求,而且性能上有影响.思来想去,最终决定结合两种特点制定一种方案:以通用类型为主,一些特定场合和要求再制定自定义类型,比如微博.   通用数据类型的名字叫FreeDocument,它的内部核心是Dictiona…
Basis(基础): SSE(Sum of Squared Error, 平方误差和) SAE(Sum of Absolute Error, 绝对误差和) SRE(Sum of Relative Error, 相对误差和) MSE(Mean Squared Error, 均方误差) RMSE(Root Mean Squared Error, 均方根误差) RRSE(Root Relative Squared Error, 相对平方根误差) MAE(Mean Absolute Error, 平均绝…
[十大经典数据挖掘算法]系列 C4.5 K-Means SVM Apriori EM PageRank AdaBoost kNN Naïve Bayes CART 我特地把PageRank作为[十大经典数据挖掘算法]系列的收尾篇,是因为本人是Google脑残粉.因了PageRank而Google得以成立,因了Google而这个世界变得好了那么一点点. 1. 引言 PageRank是Sergey Brin与Larry Page于1998年在WWW7会议上提出来的,用来解决链接分析中网页排名的问题.…