数据挖掘算法(三)--logistic回归
数据挖掘算法学习笔记汇总
数据挖掘算法(一)–K近邻算法 (KNN)
数据挖掘算法(二)–决策树
数据挖掘算法(三)–logistic回归
在介绍logistic回归之前先复习几个基础知识点,有助于后面的理解。
基本数学知识点
1、对数似然函数
若总体X为离散型,其概率分布列为
其中θ为未知参数。设 (X1,X2,...,Xn) 是取自总体样本容量为n的样本,则(X1,X2,...,Xn)的联合概率分布率为
又设(X1,X2,...,Xn)的一组观测值为(x1,x2,...,xn),易知样本X1,X2,...,Xn取到观测值 x1,x2,...,xn 的概率为
这一概率随 θ 的取值而变化,它是 θ 的函数,称 L(θ) 为样本的似然函数。但是由于来连乘的函数处理起来比较麻烦,所以对 L(θ) 取自然对数变成加法来处理要简单点。
2、logistic函数
logistic函数或logistic曲线是常见的“S”形(sigmoid curve ,S形曲线),方程式如下:
其中
- e自然对数
- x0 S形中点的x值
- L曲线的 最大值
- k曲线的陡度
上图是L=1,k=1,x0=0时的图像
这里主要说明下这个函数的导数的性质,后面推导的时候会用到。f(x)=11+e−x=ex1+exddxf(x)=ex(1+ex)−exex(1+ex)2ddxf(x)=ex(1+ex)2=f(x)(1−f(x))
logistic回归数学推导
先看一个简单的例子:
我们将平面上的点分为两类,中间的红色线条为边界。
预测类别y=1 如果−3+x1+x2≥0预测类别y=0 如果−3+x1+x2<0
此例子中
对更多维的数据进行分类时,线性边界的情况,边界形式如下:
根据logistic回归可知预测函数为:
hθ(x(i)函数的值有特殊的含义,它表示结果取1的概率,因此对于输入x分类结果为类别1和类别0的概率分别为:
合起来写则可以得到下式:
取似然函数得到下式:
求自然对数得到对数似然函数:
最大似然估计就是要求得使l(θ)取最大值时的θ,利用梯度上升法求解,求得的θ就是要求的最佳参数。下面是利用梯度上升法求解过程。
求利用梯度上升法求解l(θ)的最大值时,根据梯度上升法知道θ的更新公式如下:
下面先求出l(θ)的偏导数:
因为g(θTxi)是logistic函数
所以我们利用前面讲的logistic函数的导数性质可以将l(θ)的偏导数转化
这样就得到了更新的过程
python代码实现
本文代码运行环境:
python:3.5.1
pandas:0.19.2
其他环境可能有细微差别
# -*coding:utf-8*-
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import math
# 获取数据
data = pd.read_table("./logistic.txt", sep="\t", header=None)
dataMat = data.iloc[:, 0:-1]
labelMat = data.iloc[:, -1]
def sigmoid(dataSeries):
return 1.0 / (1 + np.exp(-dataSeries))
# 梯度上升算法
def gradAscent(dataMatrix, LabelsVector):
n = dataMatrix.shape[1]
alpha = 0.001
maxCycles = 500
thetas = np.ones((n, 1))
for k in range(maxCycles): # heavy on matrix operations
h = sigmoid(dataMatrix * thetas) # matrix mult
error = LabelsVector.T - h # vector subtraction
thetas = thetas + alpha * dataMatrix.T * error # matrix mult
return thetas
def plotBestFit(thetas, data):
"""
:param thetas: type DataFrame , the thetas
:param data: type DtaFrame , all the data
:return:
"""
X1 = data[data[3] == 0]
X2 = data[data[3] == 1]
fig = plt.figure()
ax = fig.add_subplot(111)
ax.scatter(X1[1], X1[2], s=30, c='red', marker='s')
ax.scatter(X2[1], X2[2], s=30, c='green')
x = np.arange(-3.0, 3.0, 0.1)
y = (-thetas.iloc[0, 0] - thetas.iloc[1, 0] * x) / thetas.iloc[2, 0]
ax.plot(x, y)
plt.xlabel('X1')
plt.ylabel('X2')
plt.show()
thetas = gradAscent(np.mat(dataMat), np.mat(labelMat))
plotBestFit(pd.DataFrame(thetas), data)
画出的图如下所示:
代码和数据下载地址:链接:http://pan.baidu.com/s/1hs6CKL2 密码:308l
参考资料
1、https://en.wikipedia.org/wiki/Maximum_likelihood_estimation
2、https://en.wikipedia.org/wiki/Logistic_function
欢迎python爱好者加入:学习交流群 667279387
数据挖掘算法(三)--logistic回归的更多相关文章
- 常见算法(logistic回归,随机森林,GBDT和xgboost)
常见算法(logistic回归,随机森林,GBDT和xgboost) 9.25r早上面网易数据挖掘工程师岗位,第一次面数据挖掘的岗位,只想着能够去多准备一些,体验面这个岗位的感觉,虽然最好心有不甘告终 ...
- 第三集 欠拟合与过拟合的概念、局部加权回归、logistic回归、感知器算法
课程大纲 欠拟合的概念(非正式):数据中某些非常明显的模式没有成功的被拟合出来.如图所示,更适合这组数据的应该是而不是一条直线. 过拟合的概念(非正式):算法拟合出的结果仅仅反映了所给的特定数据的特质 ...
- 机器学习算法-logistic回归算法
Logistic回归算法调试 一.算法原理 Logistic回归算法是一种优化算法,主要用用于只有两种标签的分类问题.其原理为对一些数据点用一条直线去拟合,对数据集进行划分.从广义上来讲这也是一种多元 ...
- 神经网络、logistic回归等分类算法简单实现
最近在github上看到一个很有趣的项目,通过文本训练可以让计算机写出特定风格的文章,有人就专门写了一个小项目生成汪峰风格的歌词.看完后有一些自己的小想法,也想做一个玩儿一玩儿.用到的原理是深度学习里 ...
- 【机器学习实战】第5章 Logistic回归
第5章 Logistic回归 Logistic 回归 概述 Logistic 回归虽然名字叫回归,但是它是用来做分类的.其主要思想是: 根据现有数据对分类边界线建立回归公式,以此进行分类. 须知概念 ...
- logistic回归具体解释(二):损失函数(cost function)具体解释
有监督学习 机器学习分为有监督学习,无监督学习,半监督学习.强化学习.对于逻辑回归来说,就是一种典型的有监督学习. 既然是有监督学习,训练集自然能够用例如以下方式表述: {(x1,y1),(x2,y2 ...
- 【机器学习实战】第5章 Logistic回归(逻辑回归)
第5章 Logistic回归 <script type="text/javascript" src="http://cdn.mathjax.org/mathjax/ ...
- 机器学习实战3:逻辑logistic回归+在线学习+病马实例
本文介绍logistic回归,和改进算法随机logistic回归,及一个病马是否可以治愈的案例.例子中涉及了数据清洗工作,缺失值的处理. 一 引言 1 sigmoid函数,这个非线性函数十分重要,f( ...
- 05机器学习实战之Logistic 回归
Logistic 回归 概述 Logistic 回归 或者叫逻辑回归 虽然名字有回归,但是它是用来做分类的.其主要思想是: 根据现有数据对分类边界线(Decision Boundary)建立回归公式, ...
随机推荐
- php ffmpeg视频和序列帧转化
php ffmpeg视频和序列帧转化 <pre>$cmd=shell_exec("ffmpeg -i ".__DIR__ . "/shipin1.mp4 -r ...
- H5+app -- 自动更新
一.最近做了一个app自动更新功能,用的基本都是网上找得到的. 1.h5+ 规范 : http://www.html5plus.org/doc/zh_cn/maps.html 2.环形进度条插件:h ...
- 雅虎日本如何用 Pulsar 构建日均千亿的消息平台
雅虎日本是一家雅虎和软银合资的日本互联网公司,是日本最受欢迎的门户网站之一.雅虎日本的互联网服务在日本市场占主导地位. 下图从三个维度显示了雅虎日本的经营规模.第一个是服务数量,雅虎日本提供上百种互联 ...
- lqb 入门训练 序列求和 (PS:用长整数做数据的输入输出)
入门训练 序列求和 时间限制:1.0s 内存限制:256.0MB 问题描述 求1+2+3+...+n的值. 输入格式 输入包括一个整数n. 输出格式 输出一行,包括一个整数,表示1+2+3 ...
- 基于 cobbler 实现自动安装 linux 系统
使用 cobbler 实现自动安装 centos 6.7系统 1.yum install cobbler -y 安装 cobbler ,有依赖关系,会自动把 TFTP .HTTP 服务安装上:cobb ...
- 网站统计IP PV UV
###我只是一个搬运工 网站流量统计可以帮助我们分析网站的访问和广告来访等数据,里面包含很多数据的,比如访问使用的系统,浏览器,ip归属地,访问时间,搜索引擎来源,广告效果等. PV(访问量):Pag ...
- [FPGA]浅谈LCD1602字符型液晶显示器(Verilog)
目录 概述 LCD1602 LCD1602是什么? LCD1602的管脚 RS_数据/命令选择 E_使能 D0-D7 LCD1602有个DDRAM LCD1602还有个CGROM 指令集 清屏 进入模 ...
- Netflix 开源 Polynote:对标 Jupyter,一个笔记本运行多种语言
谈到数据科学领域的开发工具,Jupyter 无疑是非常知名的一种.它具有灵活高效的特点,非常适合进行开发.调试.分享和教学.近日,Netflix(奈飞)居然也玩起了跨界,他们开源了一个名为 Polyn ...
- IDEA连接Redis
1.创建一个Maven项目 2.在src下的pom.xml文件里,添加相关包引用 <?xml version="1.0" encoding="UTF-8" ...
- 网站优化之使用Free marker静态化网站文章页
博客做出来的时候就想要把一些栏目和文章页都静态化处理,当时没啥时间搞,就一直没去弄.但是最近的工作就是做网站,用cms快速搭出了几个网站,cms搭建网站是真的方便啊 如果没有需要二次开发实现的功能,那 ...