R与数据分析旧笔记（十二）分类（支持向量机）

【R与数据分析旧笔记（十二）分类（支持向量机）】的更多相关文章

R与数据分析旧笔记（二）随机抽样的一个综合例子

题目:模拟产生统计专业同学的名单(学号区分),记录数学分析.线性代数.概率统计三科成绩,然后进行一些统计分析 > num=seq(10378001,10378100) > num [1] 10378001 10378002 10378003 10378004 10378005 10378006 10378007 10378008 [9] 10378009 10378010 10378011 10378012 10378013 10378014 10378015 10378016 [17] 10…

R与数据分析旧笔记（十二）分类（支持向量机）

支持向量机(SVM) 支持向量机(SVM) 问题的提出:最优分离平面(决策边界) 优化目标决策边界边缘距离最远数学模型问题转化为凸优化拉格朗日乘子法--未知数太多 KKT变换和对偶公式问题的解决和神经网络化对偶公式是二次规划问题,有现成的数值方法可以求解大部分的拉格朗日乘子为0,不为0的对应于"支持向量"(恰好在边界上的样本点) 只要支持向量不变,修改其他样本点的值,不影响结果,当支持变量发生改变时,结果一般就会变化求解出拉格朗日乘子后,可以推出w和b,判别函数可以写成…

R与数据分析旧笔记（十八完结）因子分析

因子分析因子分析降维的一种方法,是主成分分析的推广和发展是用于分析隐藏在表面现象背后的因子作用的统计模型.试图用最少的个数的不可测的公共因子的线性函数与特殊因子之和来描述原来观测的每一分量因子分析的主要用途减少分析变量的个数通过对变量间相关关系的探测,将原始变量分组,即将相关性高的变量分为一组,用共性因子来代替该变量使问题背后的业务因素的意义更加清晰呈现与主成分分析的区别主成分分析侧重"变异量",通过转换原始变量为新的组合变量使到数据的"变异量"最…

R与数据分析旧笔记（十六）基于密度的方法：DBSCAN

基于密度的方法:DBSCAN 基于密度的方法:DBSCAN DBSCAN=Density-Based Spatial Clustering of Applications with Noise 本算法将有足够高密度的区域划分为簇,并可以发现任何形状的聚类若干概念 r-邻域:给定点半径r内的区域核心点:如果一个点的r-邻域至少包含最少数目M个点,则称该点为核心点直接密度可达:如果点p在核心点q的r-邻域内,则称p是从q出发可以直接密度可达如果存在点链是从关于r和M直接密度可达 ,则称点p是…

R与数据分析旧笔记（十五）基于有代表性的点的技术：K中心聚类法

基于有代表性的点的技术:K中心聚类法基于有代表性的点的技术:K中心聚类法算法步骤随机选择k个点作为"中心点" 计算剩余的点到这个k中心点的距离,每个点被分配到最近的中心点组成聚簇随机选择一个非中心点,用它代替某个现有的中心点,计算这个代换的总代价S 如果S<0,则用代替,形成新的k个中心点集合重复2,直至中心点集合不发生变化 K中心法的实现:PAM PAM使用离差平方和来计算成本S(类似于ward距离的计算) R语言的cluster包实现了PAM K中心法的优点:对于&…

R与数据分析旧笔记（十四）动态聚类：K-means

动态聚类:K-means方法动态聚类:K-means方法算法选择K个点作为初始质心将每个点指派到最近的质心,形成K个簇(聚类) 重新计算每个簇的质心重复2-3直至质心不发生变化 kmeans()函数 > X=iris[,1:4]> km=kmeans(X,3)> kmK-means clustering with 3 clusters of sizes 62, 50, 38Cluster means: Sepal.Length Sepal.Width Petal.Length…

R与数据分析旧笔记（十）非线性模型

非线性模型非线性模型例子:销售额x与流通费率y > x=c(1.5,2.8,4.5,7.5,10.5,13.5,15.1,16.5,19.5,22.5,24.5,26.5)> y=c(7.0,5.5,4.6,3.6,2.9,2.7,2.5,2.4,2.2,2.1,1.9,1.8)> plot(x,y) 1.直线回归 > lm.1=lm(y~x)> summary(lm.1)Call:lm(formula = y ~ x)Residuals: Min 1Q Median 3…

R与数据分析旧笔记（十三）聚类初步

聚类聚类关键度量指标:距离常用距离绝对值距离绝对值距离也称为"棋盘距离"或"城市街区距离". 欧氏(Euclide)距离闵可夫斯基(Minkowski)距离不难看出绝对值距离和Euclide距离是Minkowski距离的特例当各变量的单位不同或测量值的范围相差很大时,不应直接采用Minkowski距离,而应先对各变量的数据作标准化处理,然后再用标准化后的数据进行计算切比雪夫(Chebyshev)距离它是Minkowski距离中的情况马氏(Mah…

R与数据分析旧笔记（⑦）回归诊断

回归诊断回归诊断 1.样本是否符合正态分布假设? 2.是否存在离群值导致模型发生较大误差? 3.线性模型是否合理? 4.误差是否满足独立性.等方差.正态分布等假设条件? 5.是否存在多重共线性正态分布检验:函数shapiro.test() P>0.05,正态分布例题1 Anscomber数据数据 1-3 1 2 3 4 4 号 X Y Y Y X Y 1 10.0 8.04 9.14 7.46 8.0 6.58 2 8.0 6.95 8.14 6.77 8.0 5.76 3 13.0 7…

R与数据分析旧笔记（五）数学分析基本

R语言的各种分布函数 rnorm(n,mean=0,sd=1)#高斯(正态) rexp(n,rate=1)#指数 rgamma(n,shape,scale=1)#γ分布 rpois(n,lambda)#Poisson分布 rweibull(n,location=0,scale=1)#Weibull分布 rcauchy(n,location=0,scale=1)#Cauchy分布 rbeta(n,shape1,shape2)#β分布 rt(n,df)#t分布 rf(n,df1,df2)#F分布 r…

【R与数据分析旧笔记（十二）分类 （支持向量机）】的更多相关文章

【R与数据分析旧笔记（十二）分类（支持向量机）】的更多相关文章