一.欧几里得距离就是向量的距离公式 二.皮尔逊相关系数反应的就是线性相关 游戏http://guessthecorrelation.com/ 的秘诀也就是判断一组点的拟合线的斜率y/x ------------------------2016-7-12 23:54:28-- source:如何理解Pearson Correlation Coefficient…
# -*- coding: utf-8 -*- """ Created on Mon Dec 2 14:49:59 2018 @author: zhen """ import matplotlib.pyplot as plt import numpy as np import pandas as pd from datetime import datetime def normal(a): #最大值最小值归一化 return (a - np.mi…
编译最近的协同过滤算法皮尔逊相似度计算.下顺便研究R简单使用的语言.概率统计知识. 一.概率论和统计学概念复习 1)期望值(Expected Value) 由于这里每一个数都是等概率的.所以就当做是数组或向量中全部元素的平均数吧.能够使用R语言中函数mean(). 2)方差(Variance) 方差分为population variance整体方差和sample variance样本方差,差别是整体方差除以N,样本方差除以N-1. 数理统计中经常使用样本方差,R语言的var()函数计算的也是样本…
转自:http://blog.csdn.net/wsywl/article/details/5727327 由于使用的统计相关系数比较频繁,所以这里就利用几篇文章简单介绍一下这些系数. 相关系数:考察两个事物(在数据里我们称之为变量)之间的相关程度. 如果有两个变量:X.Y,最终计算出的相关系数的含义可以有如下理解: (1).当相关系数为0时,X和Y两变量无关系. (2).当X的值增大(减小),Y值增大(减小),两个变量为正相关,相关系数在0.00与1.00之间. (3).当X的值增大(减小),…
皮尔逊积矩线性相关系数(Pearson's r)用于计算两组数组之间是否有线性关联,举个例子: a = pd.Series([1,2,3,4,5,6,7,8,9,10]) b = pd.Series([2,3,4,5,6,7,8,9,10,11]) 计算两组数据的线性相关性,就是,b是否随着a的增长而增长,或者随着a的增长而减小,或者两者不相关: 皮尔逊积矩线性相关系数的公式是: (标准化数据a * 标准化数据b).mean() def correlation(x, y): meanX = x.…
Pearson(皮尔逊)相关系数:也叫pearson积差相关系数.衡量两个连续变量之间的线性相关程度. 当两个变量都是正态连续变量,而且两者之间呈线性关系时,表现这两个变量之间相关程度用积差相关系数,主要有Pearson简单相关系数. Pearson相关系数公式如下: Pearson(皮尔逊)相关系数是用协方差除以两个变量的标准差得到的,虽然协方差能反映两个随机变量的相关程度(协方差大于0的时候表示两者正相关,小于0的时候表示两者负相关),但是协方差值的大小并不能很好地度量两个随机变量的关联程度…
一.原理 注意 专有名词.(例如:极高相关) 二.代码 import numpy as np f = open('../file/Pearson.csv', encoding='utf-8') data = np.loadtxt(f,int,delimiter = ",", skiprows = 1) a = data[:,1] b = data[:,0] pccs = np.corrcoef(a, b) print('皮尔徐矩阵系数为:\n',pccs) 皮尔徐矩阵系数为: [[1.…
上一篇通过公式自己写了一个计算两组数据的皮尔逊积矩相关系数(Pearson's r)的方法,但np已经提供了一个用于计算皮尔逊积矩相关系数(Pearson's r)的方法 np.corrcoef() : a = pd.Series([1,2,3,4,5,6,7,8,9,10]) b = pd.Series([2,4,1,5,1,3,6,2,7,0]) c = pd.Series([0,3,2,1,4,7,1,9,6,2]) x = np.vstack((a,b,c)) r = np.corrco…
参考:Pearson Residuals 这些概念到底是写什么?怎么产生的? 统计学功力太弱了!…
不多说,直接上干货! import org.apache.spark.mllib.stat.Statistics 具体,见 Spark Mllib机器学习实战的第4章 Mllib基本数据类型和Mllib数理统计…
Pearson相关系数解决了两个群的数据是否线性相关的问题: 先补充一下基本概念: 协方差:如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值:如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值时另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值. 如果X与Y是统计独立的,那么二者之间的协方差就是0,因为两个独立的随机变量满足E[XY]=E[X]E[Y].但是,反过来并不成立.即如果X与Y的协方差为0,…
Tina Town is a friendly place. People there care about each other. Tina has a ball called zball. Zball is magic. It grows larger every day. On the first day, it becomes 11 time as large as its original size. On the second day,it will become 22 times…
下面这是论文笔记,其实主要是摘抄,这片博士论文很有逻辑性,层层深入,所以笔者保留的比较多. 看到第二章,我发现其实这片文章对我来说更多是科普,科普吧…… 一.论文来源 Personalized Web Recommendation via Collaborative Filtering(很奇怪via为什么小写,先记住吧) (Candidate)博士研究生:孙慧峰 (Advisor)导师:陈俊亮(院士) (Academic Degree Applied for)学位级别:工学博士学科(Doctor…
1.闵可夫斯基距离 闵可夫斯基距离可以概括曼哈顿距离与欧几里得距离.  其中r越大,单个维度差值大小会对整体产生更大的影响.这个很好理解,假设当r=2时一个正方形对角线长度,永远是r=3时正方体对角线的投影,因此r越大,单个维度差异会有更大影响.(所以这也可能是很多公司的推荐算法并不准确的原因之一)   我们在对一个新用户进行推荐时,可以计算在同等维度下其他用户的闵可夫斯基距离.这种海量数据的表格,用pandas处理十分方便   下面有一个闵可夫距离计算的实例 from math import…
一.相异度计算  在正式讨论聚类前,我们要先弄清楚一个问题:怎样定量计算两个可比較元素间的相异度.用通俗的话说.相异度就是两个东西区别有多大.比如人类与章鱼的相异度明显大于人类与黑猩猩的相异度,这是能我们直观感受到的. 可是,计算机没有这样的直观感受能力,我们必须对相异度在数学上进行定量定义.       设 ,当中X.Y是两个元素项,各自具有n个可度量特征属性,那么X和Y的相异度定义为:  ,当中R为实数域. 也就是说相异度是两个元素对实数域的一个映射.所映射的实数定量表示两个元素的相异度.…
机器学习 机器学习 概述 什么是机器学习 机器学习是一门能够让编程计算机从数据中学习的计算机科学.一个计算机程序在完成任务T之后,获得经验E,其表现效果为P,如果任务T的性能表现,也就是用以衡量的P,随着E增加而增加,那么这样计算机程序就被称为机器学习系统.自我完善,自我增进,自我适应. 为什么需要机器学习 自动化的升级和维护 解决那些算法过于复杂甚至跟本就没有已知算法的问题 在机器学习的过程中协助人类获得对事物的洞见 机器学习的问题 建模问题所谓机器学习,在形式上可这样理解:在数据对象中通过统…
机器学习算法 原理.实现与实践 —— 距离的度量 声明:本篇文章内容大部分转载于July于CSDN的文章:从K近邻算法.距离度量谈到KD树.SIFT+BBF算法,对内容格式与公式进行了重新整理.同时,文章中会有一些对知识点的个人理解和归纳补充,不代表原文章作者的意图. 1. 欧氏距离 欧氏距离是最常见的两点之间或多点之间的距离表示法,又称之为欧几里得度量,它定义于欧几里得空间中,如点 $x = (x_1,\cdots,x_n)$ 和$y = (y_2,\cdots,y_n)$之间的距离为: $$…
在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance).采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否. 本文的目的就是对常用的相似性度量作一个总结. 本文目录: 1. 欧氏距离 2. 曼哈顿距离 3. 切比雪夫距离 4. 闵可夫斯基距离 5. 标准化欧氏距离 6. 马氏距离 7. 巴氏距离(Bhattacharyya Distance) 8. 汉明距离(Hamming dista…
协作性过滤 简单理解从众多用户中先搜索出与目标用户'品味'相似的部分人,然后考察这部分人的偏爱,根据偏爱结果为用户做推荐.这个过程也成为基于用户的协作性过滤(user_based collaborative filtering). 以推荐电影为例 数据集 偏好数据集,嵌套字典,格式为:{用户:{电影名称:评分}}. critics={'Lisa Rose': {'Lady in the Water': 2.5, 'Snakes on a Plane': 3.5, 'Just My Luck':…
分类一般分为两种: 积极学习法:先根据训练集构造模型,然后根据模型对测试集分类 消极学习法:推迟建模,先简单存储训练集,等到给定测试集时再进行建模,如KNN算法. 1. 简述 KNN的核心思想就是:物以类聚,人以群分 即给定一个训练数据集,对于新的输入实例,在训练集中找到与该实例最邻近的K个实例,这K个实例多数属于某个类,就把该输入实例分为这个类 2. K值的选择 若K值较小,相当于用较小邻域的实例进行预测,近似误差减小,估计误差增大,对邻近的实例点敏感,若邻近点恰好是噪声点,则预测出错.总之,…
两方面(发散,相关)~三方法(FWE) F:方皮卡互 W:RFE E:惩罚树 一.简介 我们的数据处理后,喂给算法之前,考虑到特征的实际情况,通常会从两个方面考虑来选择特征: 1)特征是否发散:如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用 2)特征与目标的相关性:这点比较显见,与目标相关性高的特征,应当优先选择 根据特征选择的形式又可以将特征选择方法分为3种: Filter:过滤法,按照发散性或者相关性对各个特征进行评分,设定阈…
https://github.com/mounicam/lexical_simplification 提供了SimplePPDBpp: SimplePPDB++ resource consisting of around 14.1 million paraphrase rules along with their readability scores.   --- 非英文 主要贡献:1.创造了人为评分的15000个英文单词复杂度2.提出了a novel neural readability ra…
SVD在餐馆菜肴推荐系统中的应用 摘要:餐馆可以分为很多类别,比如中式.美式.日式等等.但是这些类别不一定够用,有的人喜欢混合类别.对用户对菜肴的点评数据进行分析,可以提取出区分菜品的真正因素,利用这些因素我们可以估计人们对没去过的餐厅的看法.提取这些信息的方法就是SVD(Singular Value Decomposition).本文首先介绍SVD的数学原理,然后简单介绍推荐系统的相关原理,最后通过python编程实现简单的基于协同过滤的菜肴推荐系统. 关键词:SVD:推荐系统:python:…
转载自:http://blog.csdn.net/v_july_v/article/details/8203674/ 从K近邻算法.距离度量谈到KD树.SIFT+BBF算法 前言 前两日,在微博上说:“到今天为止,我至少亏欠了3篇文章待写:1.KD树:2.神经网络:3.编程艺术第28章.你看到,blog内的文章与你于别处所见的任何都不同.于是,等啊等,等一台电脑,只好等待..”.得益于田,借了我一台电脑(借他电脑的时候,我连表示感谢,他说“能找到工作全靠你的博客,这点儿小忙还说,不地道”,有的时…
wiki百科:http://zh.wikipedia.org/wiki/%E5%86%B3%E7%AD%96%E6%A0%91%E5%AD%A6%E4%B9%A0 opencv学习笔记--二杈决策树:http://blog.csdn.net/homechao/article/details/9061921 (1):从K近邻算法.距离度量谈到KD树.SIFT+BBF算法:http://blog.csdn.net/v_july_v/article/details/8203674 前言 前两日,在微博…
1. 什么是KNN 1.1 KNN的通俗解释 何谓K近邻算法,即K-Nearest Neighbor algorithm,简称KNN算法,单从名字来猜想,可以简单粗暴的认为是:K个最近的邻居,当K=1时,算法便成了最近邻算法,即寻找最近的那个邻居. 用官方的话来说,所谓K近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(也就是上面所说的K个邻居),这K个实例的多数属于某个类,就把该输入实例分类到这个类中. 如上图所示,有两类不同的样本数据,分别用蓝色的…
认识-什么是KNN KNN 即 K-nearest neighbors, 是一个hello world级别, 但被广泛使用的机器学习算法, 中文叫K近邻算法, 是一种基本的分类和回归方法. KNN既可用来分类, 也可用于回归, 不过我还是觉得分类好一些哦 KNN的核心思想是, 如果一个样本, 在特征空间中的K个最相邻的样本中的大多数属于某一个类别, 则该样本也属于该类别, 即"近朱者赤, 近墨者黑". 这样子兄嘚, 最通俗一点, 每个数据其实就是一个向量, 画成图就是一个点嘛, 每个样…
摘录wiki如下(红色字体是特别标注的部分): http://zh.wikipedia.org/wiki/%E5%8D%8F%E6%96%B9%E5%B7%AE 协方差 协方差(Covariance)在概率论和统计学中用于衡量两个变量的总体误差.而方差是协方差的一种特殊情况,即当两个变量是相同的情况. 期望值分别为与的两个实数随机变量X 与Y 之间的协方差定义为: , 其中E是期望值.它也可以表示为: , 直观上来看,协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同. 如果两…
0. 前言 1.任务描述 2.数据概览 3. 数据准备 4. 模型训练 5. kaggle实战 0. 前言 "尽管新技术新算法层出不穷,但是掌握好基础算法就能解决手头 90% 的机器学习问题." 本系列参考书籍 "Hands-on machine learning with scikit-learn and tensorflow"以及kaggle相关资料 1.任务描述 预测任务:根据某时刻房价相关数据,预测区域内该时刻任一街区的平均房价,决定是否对投资该街区的房子.…
sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share 作者:知乎用户链接:https://www.zhihu.com/question/28641663/answer/41653367来源:知乎著作权归作者…