@(131 - Machine Learning | 机器学习) 零. Goal How Unsupervised Learning fills in that model gap from the original Machine Learning work flow 2.How to compare different models developed using Unsupervised Learning for their relative strengths and relative…
监督学习:简单来说就是给定一定的训练样本(这里一定要注意,样本是既有数据,也有数据对应的结果),利用这个样本进行训练得到一个模型(可以说是一个函数),然后利用这个模型,将所有的输入映射为相应的输出,之后对输出进行简单的判断从而达到了分类(或者说回归)的问题.简单做一个区分,分类就是离散的数据,回归就是连续的数据. 非监督学习:同样,给了样本,但是这个样本是只有数据,但是没有其对应的结果,要求直接对数据进行分析建模. 比如我们去参观一个画展,我们完全对艺术一无所知,但是欣赏完多幅作品之后,我们也能…
非监督学习 非监督学习没有历史样本数据和标签,直接对数据分析或得结果. k-means 使用 >>> from sklearn.cluster import KMeans >>> import numpy as np >>> X = np.array([[1, 2], [1, 4], [1, 0], ... [4, 2], [4, 4], [4, 0]]) >>> kmeans = KMeans(n_clusters=2, rando…
@(131 - Machine Learning | 机器学习) 1 Feature Scaling transforms features to have range [0,1] according to the formula $x' = \frac{x-x_{min}}{x_{max}-x_{min}} $ 1.1 Sklearn - MinMaxScaler from sklearn.preprocessing import MinMaxScaler import numpy weigh…
@(131 - Machine Learning | 机器学习) PCA是一种特征选择方法,可将一组相关变量转变成一组基础正交变量 25 PCA的回顾和定义 Demo: when to use PCA latent features driving the patterns in the data (demo find the big shots in enron) 访问隐藏的特征 dimensionality reduction 1)visualize high dimensional dat…
1 Why? Reason1 Knowledge Discovery (about human beings limitaitons) Reason2 Cause of Dimensionality (维度灾难) (about ML algorithm itself) 所需的数据量会根据你所拥有的特征数量以指数速度增长 2 NP-Hard Problem arbitrarily choose m features from n features (m≤n),don't know what m t…
Supervised Learning Unsupervised Learning Reinforced Learning Goal: How to apply these methods How to evaluate each methods What is Machine Learning? 1.computational statistics 2.computational artifacts(人工制品) that learn over time based on experience…
unsupervised learning 上面是监督学习与无监督学习的比较,监督学习的training set是一组带label(y)的训练集,而无监督学习不带有label(y). 上图中的监督学习求出决策线,用来区别正负样本点: clustering是unsupervised learning算法的一种,用来确定数据内部的结构. clustering算法的一些应用 对客户进行分组clustering来有针对性的营销: 对社交网络(如facebook等)进行分析,找出朋友圈: 利用cluste…
聚类算法是一类非监督学习算法,在有监督学习中,学习的目标是要在两类样本中找出他们的分界,训练数据是给定标签的,要么属于正类要么属于负类.而非监督学习,它的目的是在一个没有标签的数据集中找出这个数据集的结构把它自动聚成两类或者多类. 本讲主要介绍了最常用了一种聚类算法--K-means聚类算法.如果将数据集分成两类,即k=2,K-means算法过程如下: 1.首先任意选取两个不同的样本作为两类样本的中心 2.K-means算法有两部,第一步cluster assignment step,遍历所有样…
前面,我们提到了监督学习,在机器学习中,与之对应的是非监督学习.无监督学习的问题是,在未加标签的数据中,试图找到隐藏的结构.因为提供给学习者的实例是未标记的,因此没有错误或报酬信号来评估潜在的解决方案.这区别于监督学习和强化学习无监督学习. 无监督学习是密切相关的统计数据密度估计的问题.然而无监督学习还包括寻求,总结和解释数据的主要特点等诸多技术.在无监督学习使用的许多方法是基于用于处理数据的数据挖掘方法. 我们来看两张图片:                           从图中我们可以看…