Fisher准则一维聚类】的更多相关文章

在做FAQ系统时,用户输入一个查询之后,返回若干个打好分数的文档.对于这些文档,有些是应该输出的,有些是不应该输出的.那么应该在什么地方截断呢? 这个问题其实是一个聚类问题,在一维空间中把若干个点聚成两类. 聚类就有标准:类内距离尽量小.类间距离尽量大. 由此想到Fisher准则. 那么给定一个浮点数组,寻找这个浮点数组的fisher点,应该如何实现呢? fisher准则目标函数为fisher=(s1+s2)/(m1-m2)^2. 可以用O(n)复杂度实现. 但是有没有更快速的方法呢? 从左往右…
准则 采用一种分类形式后,就要采用准则来衡量分类的效果,最好的结果一般出现在准则函数的极值点上,因此将分类器的设计问题转化为求准则函数极值问题,即求准则函数的参数,如线性分类器中的权值向量. 分类器设计准则:FIsher准则.感知机准则.最小二乘(最小均方误差)准则 Fisher准则 Fisher线性判别分析LDA(Linearity Distinction Analysis)基本思想:对于两个类别线性分类的问题,选择合适的阈值,使得Fisher准则函数达到极值的向量作为最佳投影方向,与投影方向…
0. 背景 谱聚类在2007年前后十分流行,因为它可以快速的通过标准的线性代数库来实现,且十分优于传统的聚类算法,如k-mean等. 至于在任何介绍谱聚类的算法原理上,随便翻开一个博客,都会有较为详细的介绍,如这里.当然这些都来自<A Tutorial on Spectral Clustering>一文.为了上下文一致性和便于理解,我就直接截图别人基于这篇论文中翻译好的部分(偷懒): 1 - 无向权重图:谱聚类是基于图论结构,也是数据结构的毗邻矩阵来实现的,即将所有的点的看成是一个相互连接的图…
刚看了这个算法,理解如下,放在这里,备忘,如有错误的地方,请指出,谢谢 需要做聚类的数组我们称之为[源数组]需要一个分组个数K变量来标记需要分多少个组,这个数组我们称之为[聚类中心数组]及一个缓存临时聚类中心的数组,我们称之为[缓存聚类中心数组]然后初始化一个K长度的数组,值随机(尽量分布在原数组的更大的区间以便计算),用于和源数组进行比对计算. 下面是计算的部分:死循环遍历对源数据进行分组. 分组内遍历原数组的每个元素与聚类中心的每个元素的距离(差值的绝对值),将最小距离的聚类中心数组下标缓存…
最近一个朋友问这方面的一些问题,其实之前也就很粗略的看了下fisher,真正帮别人解答问题的时候才知道原来自己也有很多东西不懂.下面小结下自己对fisher判别的理解: 其实fisher和PCA差不多,熟悉PCA的人都知道,PCA其实就是在寻找一个子空间.这个空间怎么来的呢,先求协方差矩阵,然后求这个协方差矩阵的特征空间(特征向量对应的空间),选取最大的特征值对应的特征向量组成特征子空间(比如说k个,相当于这个子空间有k维,每一维代表一个特征,这k个特征基本上可以涵盖90%以上的信息).那么我们…
今天读paper遇到了Fisher线性判别的变体, 所以来学习一下, 所以到时候一定要把PRMl刷一遍呀 以下两篇论文一起阅读比较好: 论文1: https://blog.csdn.net/Rainbow0210/article/details/52892805 在前文<贝叶斯决策理论>中已经提到,很多情况下,准确地估计概率密度模型并非易事,在特征空间维数较高和样本数量较少的情况下尤为如此. 实际上,模式识别的目的是在特征空间中设法找到两类(或多类)的分类面,估计概率密度函数并不是我们的目的.…
这是我在上模式识别课程时的内容,也有参考这里. 线性判别函数的基本概念 判别函数为线性的情况的一般表达式 式中x是d 维特征向量,又称样本向量, 称为权向量, 分别表示为 是个常数,称为阈值权. 设样本d维特征空间中描述,则两类别问题中线性判别函数的一般形式可表示成 (3-1) 其中 而ω0是一个常数,称为阈值权.相应的决策规则可表示成, g(X)=0就是相应的决策面方程,在线性判别函数条件下它对应d维空间的一个超平面,   (3-3) 为了说明向量W的意义,我们假设在该决策平面上有两个特征向量…
主讲人 planktonli planktonli(1027753147) 19:52:28 现在我们就开始讲第四章,第四章的内容是关于 线性分类模型,主要内容有四点:1) Fisher准则的分类,以及它和最小二乘分类的关系 (Fisher分类是最小二乘分类的特例)2) 概率生成模型的分类模型3) 概率判别模型的分类模型4) 全贝叶斯概率的Laplace近似 需要注意的是,有三种形式的贝叶斯:1) 全贝叶斯2) 经验贝叶斯3) MAP贝叶斯我们大家熟知的是 MAP贝叶斯 MAP(poor man…
转自:http://www.cnblogs.com/wentingtu/archive/2011/12/22/2297426.html 如果说 K-means 和 GMM 这些聚类的方法是古代流行的算法的话,那么这次要讲的 Spectral Clustering 就可以算是现代流行的算法了,中文通常称为“谱聚类”.由于使用的矩阵的细微差别,谱聚类实际上可以说是一“类”算法. Spectral Clustering 和传统的聚类方法(例如 K-means)比起来有不少优点: 和 K-medoids…
Fisher线性判别分析 1.概述 在使用统计方法处理模式识别问题时,往往是在低维空间展开研究,然而实际中数据往往是高维的,基于统计的方法往往很难求解,因此降维成了解决问题的突破口. 假设数据存在于d维空间中,在数学上,通过投影使数据映射到一条直线上,即维度从d维变为1维,这是容易实现的,但是即使数据在d维空间按集群形式紧凑分布,在某些1维空间上也会难以区分,为了使得数据在1维空间也变得容易区分,需要找到适当的直线方向,使数据映射在该直线上,各类样本集群交互较少.如何找到这条直线,或者说如何找到…