数据挖掘算法学习笔记汇总

数据挖掘算法(一)–K近邻算法 (KNN)

数据挖掘算法(二)–决策树

数据挖掘算法(三)–logistic回归

在介绍logistic回归之前先复习几个基础知识点,有助于后面的理解。

基本数学知识点

1、对数似然函数

若总体X为离散型,其概率分布列为

P(X=x)=p(x,θ)

其中θ为未知参数。设 (X1,X2,...,Xn) 是取自总体样本容量为n的样本,则(X1,X2,...,Xn)的联合概率分布率为

∏i=1np(xi,θ)

又设(X1,X2,...,Xn)的一组观测值为(x1,x2,...,xn),易知样本X1,X2,...,Xn取到观测值 x1,x2,...,xn 的概率为

L(θ)=L(x1,x2,...,xn;θ)=∏i=1np(xi,θ)

这一概率随 θ 的取值而变化,它是 θ 的函数,称 L(θ) 为样本的似然函数。但是由于来连乘的函数处理起来比较麻烦,所以对 L(θ) 取自然对数变成加法来处理要简单点。

lnL(θ)=∑i=1nlnp(xi,θ)

2、logistic函数

logistic函数或logistic曲线是常见的“S”形(sigmoid curve ,S形曲线),方程式如下:

f(x)=L1+e−k(x−x0)

其中

  • e自然对数
  • x0 S形中点的x值
  • L曲线的 最大值
  • k曲线的陡度



    上图是L=1,k=1,x0=0时的图像

    这里主要说明下这个函数的导数的性质,后面推导的时候会用到。

    f(x)=11+e−x=ex1+ex
    ddxf(x)=ex(1+ex)−exex(1+ex)2
    ddxf(x)=ex(1+ex)2=f(x)(1−f(x))

logistic回归数学推导

先看一个简单的例子:



我们将平面上的点分为两类,中间的红色线条为边界。

预测类别y=1 如果−3+x1+x2≥0预测类别y=0 如果−3+x1+x2<0

此例子中

hθ(x)=g(θ0+θ1x1+θ2x2)

对更多维的数据进行分类时,线性边界的情况,边界形式如下:

θ1x1+θ2x2+...+θnxn=θTx

根据logistic回归可知预测函数为:

hθ(x(i))=g(θTxi)=11+e−θTxi

hθ(x(i)函数的值有特殊的含义,它表示结果取1的概率,因此对于输入x分类结果为类别1和类别0的概率分别为:

P(y=1|x;θ)=hθ(x(i)
P(y=0|x;θ)=1−hθ(x(i)

合起来写则可以得到下式:

P(y|x;θ)=(hθ(x))y(1−hθ(x))1−y

取似然函数得到下式:

L(θ)=∏i=1mP(y(i)|x(i),θ)

求自然对数得到对数似然函数:

l(θ)=lnL(θ)
=∑i=1m(y(i)lnhθ(x(i))+(1−y(i))ln(1−hθ(x(i))))

最大似然估计就是要求得使l(θ)取最大值时的θ,利用梯度上升法求解,求得的θ就是要求的最佳参数。下面是利用梯度上升法求解过程。

求利用梯度上升法求解l(θ)的最大值时,根据梯度上升法知道θ的更新公式如下:

θj:=θj+α∂∂θjl(θ)    (j=0...n)

下面先求出l(θ)的偏导数:

∂∂θjl(θ)=∑i=1m((y(i)1hθ(x(i))∂∂θjhθ(x(i))−(1−y(i))11−hθ(x(i))∂∂θjhθ(x(i))
=∑i=1m((y(i)1g(θTx(i))−(1−y(i))11−g(θTx(i)))∂∂θjg(θTx(i))

因为g(θTxi)是logistic函数

g(θTxi)=11+e−θTxi

所以我们利用前面讲的logistic函数的导数性质可以将l(θ)的偏导数转化

∂∂θjl(θ)=∑i=1m((y(i)1g(θTx(i))−(1−y(i))11−g(θTx(i)))g(θTx(i))(1−g(θTx(i)))∂∂θjθTx(i)
=∑i=1m(y(i)(1−g(θTx(i)))−(1−y(i))g(θTx(i)))x(i)j
=∑i=1m(y(i)−g(θTx(i)))x(i)j
=∑i=1m(y(i)−hθ(x(i)))x(i)j

这样就得到了更新的过程

θj:=θj+α∑i=1m(y(i)−hθ(x(i)))x(i)j    (j=0...n)

python代码实现

本文代码运行环境:

python:3.5.1

pandas:0.19.2

其他环境可能有细微差别

# -*coding:utf-8*-
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import math # 获取数据
data = pd.read_table("./logistic.txt", sep="\t", header=None)
dataMat = data.iloc[:, 0:-1]
labelMat = data.iloc[:, -1] def sigmoid(dataSeries):
return 1.0 / (1 + np.exp(-dataSeries)) # 梯度上升算法
def gradAscent(dataMatrix, LabelsVector):
n = dataMatrix.shape[1]
alpha = 0.001
maxCycles = 500
thetas = np.ones((n, 1))
for k in range(maxCycles): # heavy on matrix operations
h = sigmoid(dataMatrix * thetas) # matrix mult
error = LabelsVector.T - h # vector subtraction
thetas = thetas + alpha * dataMatrix.T * error # matrix mult
return thetas def plotBestFit(thetas, data):
"""
:param thetas: type DataFrame , the thetas
:param data: type DtaFrame , all the data
:return:
"""
X1 = data[data[3] == 0]
X2 = data[data[3] == 1]
fig = plt.figure()
ax = fig.add_subplot(111)
ax.scatter(X1[1], X1[2], s=30, c='red', marker='s')
ax.scatter(X2[1], X2[2], s=30, c='green')
x = np.arange(-3.0, 3.0, 0.1)
y = (-thetas.iloc[0, 0] - thetas.iloc[1, 0] * x) / thetas.iloc[2, 0]
ax.plot(x, y)
plt.xlabel('X1')
plt.ylabel('X2')
plt.show() thetas = gradAscent(np.mat(dataMat), np.mat(labelMat))
plotBestFit(pd.DataFrame(thetas), data)

画出的图如下所示:

代码和数据下载地址:链接:http://pan.baidu.com/s/1hs6CKL2 密码:308l

参考资料

1、https://en.wikipedia.org/wiki/Maximum_likelihood_estimation

2、https://en.wikipedia.org/wiki/Logistic_function

欢迎python爱好者加入:学习交流群 667279387

数据挖掘算法(三)--logistic回归的更多相关文章

  1. 常见算法(logistic回归,随机森林,GBDT和xgboost)

    常见算法(logistic回归,随机森林,GBDT和xgboost) 9.25r早上面网易数据挖掘工程师岗位,第一次面数据挖掘的岗位,只想着能够去多准备一些,体验面这个岗位的感觉,虽然最好心有不甘告终 ...

  2. 第三集 欠拟合与过拟合的概念、局部加权回归、logistic回归、感知器算法

    课程大纲 欠拟合的概念(非正式):数据中某些非常明显的模式没有成功的被拟合出来.如图所示,更适合这组数据的应该是而不是一条直线. 过拟合的概念(非正式):算法拟合出的结果仅仅反映了所给的特定数据的特质 ...

  3. 机器学习算法-logistic回归算法

    Logistic回归算法调试 一.算法原理 Logistic回归算法是一种优化算法,主要用用于只有两种标签的分类问题.其原理为对一些数据点用一条直线去拟合,对数据集进行划分.从广义上来讲这也是一种多元 ...

  4. 神经网络、logistic回归等分类算法简单实现

    最近在github上看到一个很有趣的项目,通过文本训练可以让计算机写出特定风格的文章,有人就专门写了一个小项目生成汪峰风格的歌词.看完后有一些自己的小想法,也想做一个玩儿一玩儿.用到的原理是深度学习里 ...

  5. 【机器学习实战】第5章 Logistic回归

    第5章 Logistic回归 Logistic 回归 概述 Logistic 回归虽然名字叫回归,但是它是用来做分类的.其主要思想是: 根据现有数据对分类边界线建立回归公式,以此进行分类. 须知概念 ...

  6. logistic回归具体解释(二):损失函数(cost function)具体解释

    有监督学习 机器学习分为有监督学习,无监督学习,半监督学习.强化学习.对于逻辑回归来说,就是一种典型的有监督学习. 既然是有监督学习,训练集自然能够用例如以下方式表述: {(x1,y1),(x2,y2 ...

  7. 【机器学习实战】第5章 Logistic回归(逻辑回归)

    第5章 Logistic回归 <script type="text/javascript" src="http://cdn.mathjax.org/mathjax/ ...

  8. 机器学习实战3:逻辑logistic回归+在线学习+病马实例

    本文介绍logistic回归,和改进算法随机logistic回归,及一个病马是否可以治愈的案例.例子中涉及了数据清洗工作,缺失值的处理. 一 引言 1 sigmoid函数,这个非线性函数十分重要,f( ...

  9. 05机器学习实战之Logistic 回归

    Logistic 回归 概述 Logistic 回归 或者叫逻辑回归 虽然名字有回归,但是它是用来做分类的.其主要思想是: 根据现有数据对分类边界线(Decision Boundary)建立回归公式, ...

随机推荐

  1. [网络]HTTP

    HTTP HTTP 简介 HTTP 协议是 Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web)服务器传输超文本到本 ...

  2. 对学习Python自然语言处理的一点儿感悟

    研究生阶段,如果一开始找不到知识点,那就结合导师的研究课题以及这个课题设计到的知识领域,扎好基础知识能力.以我研究的自然语言处理领域为例,如果一开始不知道研究点,且又要安排学习计划,那么我会在选择: ...

  3. C语言程序设计100例之(10):最大公约数

    例10        最大公约数 问题描述 有三个正整数a,b,c(0<a,b,c<10^6),其中c不等于b.若a和c的最大公约数为b,现已知a和b,求满足条件的最小的c. 输入数据 第 ...

  4. 手把手教你如何在阿里云ECS搭建Python TensorFlow Jupyter

    前段时间在阿里云买了一台服务器,准备部署网站,近期想玩一些深度学习项目,正好拿来用.TensorFlow官网的安装仅提及Ubuntu,但我的ECS操作系统是 CentOS 7.6 64位,搭建Pyth ...

  5. nyoj 275-队花的烦恼一 (stack, push, pop)

    275-队花的烦恼一 内存限制:64MB 时间限制:3000ms 特判: No 通过数:11 提交数:14 难度:1 题目描述: ACM队的队花C小+经常抱怨:“C语言中的格式输出中有十六.十.八进制 ...

  6. VMware虚拟机Linux中增加磁盘空间的扩容操作

    VMwareware虚拟机安装的Red Hat Enterprise Linux系统剩余空间不足,造成软件无法正常安装.如果重新装一遍系统就需要重新配置好开发环境和软件的安装配置.结合自己的实践,总结 ...

  7. libwebsocket协议切换状态机

    libwebsocket为连接(connection)定义了一组状态机-lws_connection_states,通过状态机我们来看libwebsocket如何实现协议的切换.除了lws_conne ...

  8. FPGA基础(verilog语言)——语法篇

    verilog语言简介 verilog语言是一种语法类似于c的语言,但是与c语言也有不同之处,比如: 1.verilog语言是并行的,每个always块都是同时执行,而c语言是顺序执行的 2.veri ...

  9. Java虚拟机的内存

    JDK1.8之前,java内存分为 线程共享区:堆.方法区.直接内存(非运行时数据区的一部分).线程私有区:程序计数器.虚拟机栈.本地方法栈. JDK1.8开始,虚拟机取消了方法区,改为元空间. 程序 ...

  10. JAVA语 言 的 特 点

    Java到 底 是 一 种 什 么 样 的 语 言 呢? Java是 一 种 简 单 的 面 象 对 象 的 分 布 式 的 解 释 的 健 壮 的 安 全 的 结 构 中 立 的 可 移 植 的 性 ...