ML 05、分类、标注与回归】的更多相关文章

机器学习算法 原理.实现与实践 —— 分类.标注与回归 1. 分类问题 分类问题是监督学习的一个核心问题.在监督学习中,当输出变量$Y$取有限个离散值时,预测问题便成为分类问题. 监督学习从数据中学习一个分类决策函数或分类模型,称为分类器(classifier).分类器对新的输入进行输出的预测,这个过程称为分类. 分类问题包括学习与分类两个过程.在学习的过程中,根据已知的训练样本数据集利用有效的学习方法学习一个分类器:在分类中,利用学习的分类器对新的输入实例进行分类. 对于训练数据集$(x_1,…
Logistic Regression虽然名字里带“回归”,但是它实际上是一种分类方法,“逻辑”是Logistic的音译,和真正的逻辑没有任何关系. 模型 线性模型 由于逻辑回归是一种分类方法,所以我们仍然以最简的二分类为例.与感知机不同,对于逻辑回归的分类结果,y ∈ {0, 1},我们需要找到最佳的hθ(x)拟合数据. 这里容易联想到线性回归.线性回归也可以用于分类,但是很多时候,尤其是二分类的时候,线性回归并不能很好地工作,因为分类不是连续的函数,其结果只能是固定的离散值.设想一下有线性回…
目录 基本形式 代价函数 用梯度下降法求\(\vec\theta\) 扩展 基本形式 逻辑回归是最常用的分类模型,在线性回归基础之上扩展而来,是一种广义线性回归.下面举例说明什么是逻辑回归:假设我们有样本如下(是我编程生成的数据): 我们要做的是找到一个决策边界,把两类样本给分开,当有新数据进来时,就判断它在决策边界的哪一边.设边界线为线性函数 \[h_\theta(\vec x) = \theta_0 + \theta_1x_1 + \theta_2x_2 \tag {1}\]取0时的直线,如…
二.分类图 1. 分类散点图 (1)散点图striplot(kind='strip') 方法1: seaborn.stripplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None, jitter=True, dodge=False, orient=None, color=None, palette=None, size=5, edgecolor='gray', linewidth=0, ax=None, **kwa…
LR是一个传统的二分类模型,它也可以用于多分类任务,其基本思想是:将多分类任务拆分成若干个二分类任务,然后对每个二分类任务训练一个模型,最后将多个模型的结果进行集成以获得最终的分类结果.一般来说,可以采取的拆分策略有: one vs one策略 假设我们有N个类别,该策略基本思想就是不同类别两两之间训练一个分类器,这时我们一共会训练出种不同的分类器.在预测时,我们将样本提交给所有的分类器,一共会获得N(N+1)个结果,最终结果通过投票产生. one vs all策略 该策略基本思想就是将第i种类…
逻辑回归 对于一个二分类(binary classification)问题,\(y \in \left\{0, 1\right\}\),如果直接用线性回归去预测,结果显然是非常不准确的,所以我们采用一种新的假设函数: \[ h_{\theta}(x) = g(\theta^{T}x) = \frac{1}{1 + e^{-\theta^{T}x}} \] 其中 \[ g(z) = \frac{1}{1 + e^{-z}} \] 被称为sigmoid函数,这个函数的的值域是\((0, 1)\),且…
非线性分类器(Non-linear hypotheses) 为什么使用非线性分类器 我们举几个栗子: 假如我们有一个数据空间如左上角坐标系所看到的,那么我们要的模型须要如右边公式所看到的的预測函数. 如果有n个特征那么计算二次多项式就有O(n^2)的复杂度.n能有多大? 我们来看以下这个栗子. 如果我们须要识别汽车,假如选取图像上两个点,那么就如左边坐标系所看到的,这没什么. 但实际上我们须要的数据空间时整张图片全部的像素.也就是如果图像是50∗50那么我们就有2500个像素点.也就是须要250…
1. 使用回归进行分类 机器学习中分类是指输入一个样本点,输出这个样本点所属的类别,预测的是一个离散值,如类别(1,2). 而回归问题是输入一个样本点,预测一个值,这个值是连续值,可以介于\([1,2]\)之间. 以二分类问题为例,我们可不可以通过回归的方法来进行分类呢?比如输入一个样本点,如果是第1类,就让他输出1,如果是第2类就输出-1.通过线性回归的损失函数\(\frac{1}{m}\sum_{i=1}^n(y_i-\hat y)^2\),进行梯度下降,来求参数\(w,b\)最终获得一个超…
分类问题和线性回归问题问题很像,只是在分类问题中,我们预测的y值包含在一个小的离散数据集里.首先,认识一下二元分类(binary classification),在二元分类中,y的取值只能是0和1.例如,我们要做一个垃圾邮件分类器,则为邮件的特征,而对于y,当它1则为垃圾邮件,取0表示邮件为正常邮件.所以0称之为负类(negative class),1为正类(positive class) 逻辑回归 首先看一个肿瘤是否为恶性肿瘤的分类问题,可能我们一开始想到的是用线性回归的方法来求解,如下图:…
Logistic Regression 逻辑回归 1.模型 逻辑回归解决的是分类问题,并且是二元分类问题(binary classification),y只有0,1两个取值.对于分类问题使用线性回归不行,因为直线无法将样本正确分类. 1.1 Sigmoid Function 因为 y∈{0,1},我们也希望 hθ(x)∈{0,1}.第一种选择是 logistic函数或S型函数(logistic function/sigmoid function).g(z)值的范围在0-1之间,在z=0时为0.5…