参见原书1.5节 构建预测模型的一般流程 问题的日常语言表述->问题的数学语言重述重述问题.提取特征.训练算法.评估算法 熟悉不同算法的输入数据结构:1.提取或组合预测所需的特征2.设定训练目标3.训练模型4.评估模型在训练数据上的性能表现 机器学习:开发一个可以实际部署的模型的全部过程,包括对机器学习算法的理解和实际的操作 通常,有非常切实的原因,导致某些算法被经常使用,了解背后的原因 (1)构造一个机器学习问题审视数据集中的数据,确定需要做何种形式的预测如,这些数据代表什么?如何与预测任务关…
点击获取提取码:7qi1 在学习和研究机器学习的时候,面临令人眼花缭乱的算法,机器学习新手往往会不知所措.本书从算法和Python语言实现的角度,帮助读者认识机器学习. 本书专注于两类核心的"算法族",即惩罚线性回归和集成方法,并通过代码实例来展示所讨论的算法的使用原则.全书共分为7章,详细讨论了预测模型的两类核心算法.预测模型的构建.惩罚线性回归和集成方法的具体应用和实现. 本书主要针对想提高机器学习技能的Python开发人员,帮助他们解决某一特定的项目或是提升相关的技能. 主要内容…
参见原书 1.1-1.4节 一.惩罚线性回归模型 基本特性: 1.训练时间快,使用训练好的模型进行预测的时间也快2.应用于高速交易.互联网广告的植入等3.解决回归.分类问题 最重要的特性:能明确指出,哪个变量对预测结果最重要 普通最小二乘法(ordinary least squares,OLS)->惩罚回归方法(OLS主要问题:过拟合) 惩罚回归方法:使自由度与数据规模.问题的复杂度相匹配 核心概念:1.特征工程/特征提取选择哪些变量用于对结果的预测 2.自由度统计学名词,当以样本的统计量估计总…
参见原书2.1-2.2节 新数据集就像一个包装好的礼物,它充满了承诺和希望! 但是直到你打开前,它都保持神秘! 一.基础问题的架构.术语,机器学习数据集的特性 通常,行代表实例,列代表属性特征 属性,实例中用于预测的数据其他名称:预测因子 特征 独立变量 输入 标签,需要预测的数据其他名称:结果 目标 依赖变量 响应 2.1.1属性和标签的不同类型决定模型的选择数值变量 类别变量/因素变量 惩罚回归算法只能处理数值变量:SVM 核方法 K最近邻转换:类别变量->数值变量 当标签是数值的,就叫作回…
EM算法也称期望最大化(Expectation-Maximum,简称EM)算法,它是一个基础算法,是很多机器学习领域的基础,比如隐式马尔科夫算法(HMM),LDA主题模型的变分推断算法等等.本文对于EM算法,我们主要从以下三个方向学习: 1,最大似然 2,EM算法思想及其推导 3,GMM(高斯混合模型) 1,最大似然概率 我们经常会从样本观察数据中,找到样本的模型参数.最常用的方法就是极大化模型分布的对数似然函数.怎么理解呢?下面看我一一道来. 假设我们需要调查我们学习的男生和女生的身高分布.你…
实验设备与软件环境 硬件环境:内存ddr3 4G及以上的x86架构主机一部 系统环境:windows 软件环境:Anaconda2(64位),python3.5,jupyter 内核版本:window10.0 实验内容和原理 (1)实验内容: 使用k近邻算法改进约会网站的配对效果.海伦使用约会网址寻找适合自己的约会对象,约会网站会推荐不同的人选.她将曾经交往过的的人总结为三种类型:不喜欢的人.魅力一般的人.极具魅力的人.尽管发现了这些规律,但依然无法将约会网站提供的人归入恰当的分类.使用KNN算…
K近邻(KNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一. 所谓K最近邻,就是K个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表.KNN算法的核心思想是如果一个样本在特征空间中的K个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特征.该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别.KNN方法在类别决策时,只与极少数的相邻样本有关.由于kNN方法主要靠周围有限的邻近的…
K-Means算法 K-Means 算法是无监督的聚类算法,它实现起来比较简单,聚类效果也不错,因此应用很广泛.K-Means 算法有大量的变体,本文就从最传统的K-Means算法学起,在其基础上学习K-Means的优化变体方法.包括初始化优化K-Means++, 距离计算优化 elkan  K-Means 算法和大数据情况下的优化 Mini Batch K-Means算法. 聚类问题的一些概念: 无监督问题:我们的手里没有标签了 聚类:就是将相似的东西分到一组 聚类问题的难点:如何评估,如何调…
Isolation,意为孤立/隔离,是名词,其动词为isolate,forest是森林,合起来就是“孤立森林”了,也有叫“独异森林”,好像并没有统一的中文叫法.可能大家都习惯用其英文的名字isolation forest,简称iForest . iForest适用于连续数据(Continuous numerical data)的异常检测,将异常定义为“容易被孤立的离群点(more  likely to be separated)”——可以理解为分布稀疏且离密度高的群体较远的点.用统计学来解释,在…
Isolation,意为孤立/隔离,是名词,其动词为isolate,forest是森林,合起来就是“孤立森林”了,也有叫“独异森林”,好像并没有统一的中文叫法.可能大家都习惯用其英文的名字isolation forest,简称iForest . iForest适用于连续数据(Continuous numerical data)的异常检测,将异常定义为“容易被孤立的离群点(more  likely to be separated)”——可以理解为分布稀疏且离密度高的群体较远的点.用统计学来解释,在…