前面,我们提到了监督学习,在机器学习中,与之对应的是非监督学习.无监督学习的问题是,在未加标签的数据中,试图找到隐藏的结构.因为提供给学习者的实例是未标记的,因此没有错误或报酬信号来评估潜在的解决方案.这区别于监督学习和强化学习无监督学习. 无监督学习是密切相关的统计数据密度估计的问题.然而无监督学习还包括寻求,总结和解释数据的主要特点等诸多技术.在无监督学习使用的许多方法是基于用于处理数据的数据挖掘方法. 我们来看两张图片:                           从图中我们可以看…
监督学习即是supervised learning,原始数据中有每个数据有自己的数据结构同时有标签,用于classify,机器learn的是判定规则,通过已成熟的数据training model达到判断新点类型的目的. 非监督学习即是unsupervised learning,原始数据中没有附加标签,仅有数据结构,cluster的过程是机器发现相似数据结构先去找相似pattern,没有新加入的数据,仅是对原始数据的描述.  …
@(131 - Machine Learning | 机器学习) PCA是一种特征选择方法,可将一组相关变量转变成一组基础正交变量 25 PCA的回顾和定义 Demo: when to use PCA latent features driving the patterns in the data (demo find the big shots in enron) 访问隐藏的特征 dimensionality reduction 1)visualize high dimensional dat…
Clustering  K-means: 基本思想是先随机选择要分类数目的点,然后找出距离这些点最近的training data 着色,距离哪个点近就算哪种类型,再对每种分类算出平均值,把中心点移动到平均值处,重复着色算平均值,直到分类成功.   为了防止k-means 算法得到的是local optima, 可以多次运行k-means, 然后选取得到J最小值的那次初始化方法.     One way to choose K is elbow method   Dimentionality Re…
Supervised Learning Unsupervised Learning Reinforced Learning Goal: How to apply these methods How to evaluate each methods What is Machine Learning? 1.computational statistics 2.computational artifacts(人工制品) that learn over time based on experience…
摘要: 本文是吴恩达 (Andrew Ng)老师<机器学习>课程,第一章<绪论:初识机器学习>中第4课时<无监督学习>的视频原文字幕.为本人在视频学习过程中逐字逐句记录下来以便日后查阅使用.现分享给大家.如有错误,欢迎大家批评指正,在此表示诚挚地感谢!同时希望对大家的学习能有所帮助. In this video (article), we'll talk about the second major type of machine learning problem, c…
Unsupervised learning, attention, and other mysteries Get notified when our free report “Future of Machine Intelligence: Perspectives from Leading Practitioners” is available for download. The following interview is one of many that will be included…
Supervised Learning In supervised learning, we are given a data set and already know what our correct output should look like, having the idea that there is a relationship between the input and the output. Supervised learning problems are categorized…
聚类算法是一类非监督学习算法,在有监督学习中,学习的目标是要在两类样本中找出他们的分界,训练数据是给定标签的,要么属于正类要么属于负类.而非监督学习,它的目的是在一个没有标签的数据集中找出这个数据集的结构把它自动聚成两类或者多类. 本讲主要介绍了最常用了一种聚类算法--K-means聚类算法.如果将数据集分成两类,即k=2,K-means算法过程如下: 1.首先任意选取两个不同的样本作为两类样本的中心 2.K-means算法有两部,第一步cluster assignment step,遍历所有样…
1    Unsupervised Learning 1.1    k-means clustering algorithm 1.1.1    算法思想 1.1.2    k-means的不足之处 1.1.3    如何选择K值 1.1.4    Spark MLlib 实现 k-means 算法 1.2    Mixture of Gaussians and the EM algorithm 1.3    The EM Algorithm 1.4    Principal Components…