利用logistic回归解决多分类问题

利用logistic回归解决手写数字识别问题，数据集私聊。

from scipy.io import loadmat

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

from scipy.optimize import minimize

data = loadmat('ex3data1.mat')

data_row = data['X'].shape #5000个200*200的矩阵，表示5000个手写数字

data_cols = data['y'].shape #5000个结果

def sigmoid(z):

    return 1 / (1 + np.exp(-z))

def cost(theta, X, y, learningrate):

    theta = np.matrix(theta)

    X = np.matrix(X)

    y = np.matrix(y)

    first = np.multiply(-y, np.log(sigmoid(X * theta.T)))

    second = np.multiply((1 - y), np.log(1 - sigmoid(X * theta.T)))

    reg = (learningrate / (2 * len(X))) * np.sum(np.power(theta[:, 1:theta.shape[1]], 2))

    return np.sum(first - second) / len(X) + reg

def gradientReg(theta, X, y, learningRate):

    theta = np.matrix(theta)

    X = np.matrix(X)

    y = np.matrix(y)

    error = sigmoid(X * theta.T) - y

    grad = (((X.T * error) / len(X)).T + ((learningRate) / len(X)) * theta)

    grad[0, 0] = np.sum(np.multiply(error, X[:, 0])) / len(X)

    return np.array(grad).ravel()

def one_vs_all(X, y, num_labels, learning_rate):

    rows = X.shape[0]

    params = X.shape[1]

    all_theta = np.zeros((num_labels, params + 1))

    #在矩阵X前加入一列1

    X = np.insert(X, 0, values=np.ones(rows), axis=1)

    for i in range(1, num_labels + 1):

        theta = np.zeros(params + 1)

        y_i = np.array([1 if label == i else 0 for label in y])

        y_i = np.reshape(y_i, (rows, 1))

        #寻找此分类器的最优参数

        fmin = minimize(fun=cost, x0=theta, args=(X, y_i, learning_rate), method='TNC', jac=gradientReg)

        all_theta[i-1, :] = fmin.x

    return all_theta

num_labels = 10

learningRate = 1

rows = data['X'].shape[0]

params = data['X'].shape[1]

X = np.insert(data['X'], 0, values=np.ones(rows), axis=1)

theta = np.zeros(params + 1)

def predict_all(X, all_theta):

    #在矩阵X前加入一列1

    X = np.insert(X, 0, values=np.ones(rows), axis=1)

    X = np.matrix(X)

    all_theta = np.matrix(all_theta)

    h = sigmoid(X * all_theta.T)

    h_argmax = np.argmax(h, axis=1) #在行方向寻找最大值

    h_argmax = h_argmax + 1

    return h_argmax

all_theta = one_vs_all(data['X'], data['y'], num_labels, 1)

y_predict = predict_all(data['X'], all_theta)

correct = [1 if a == b else 0 for (a, b) in zip(y_predict, data['y'])]

accuracy = (sum(correct) / float(len(correct)))

print('accuracy = {0}%'.format(accuracy * 100))

利用logistic回归解决多分类问题的更多相关文章

Spark2.0机器学习系列之4：Logistic回归及Binary分类（二分问题）结果评估
参数设置 α: 梯度上升算法迭代时候权重更新公式中包含 α : http://blog.csdn.net/lu597203933/article/details/38468303 为了更好理解 α和 ...
NLP之基于logistic回归的文本分类
数据集下载: 链接:https://pan.baidu.com/s/17EL37CQ-FtOXhtdZHQDPgw 提取码:0829 逻辑斯蒂回归 @ 目录逻辑斯蒂回归 1.理论 1.1 多分类 1 ...
《转》Logistic回归多分类问题的推广算法--Softmax回归
转自http://ufldl.stanford.edu/wiki/index.php/Softmax%E5%9B%9E%E5%BD%92 简介在本节中,我们介绍Softmax回归模型,该模型是log ...
线性回归，logistic回归分类
学习过程下面是一个典型的机器学习的过程,首先给出一个输入数据,我们的算法会通过一系列的过程得到一个估计的函数,这个函数有能力对没有见过的新数据给出一个新的估计,也被称为构建一个模型.就如同上面的线性 ...
Softmax回归——logistic回归模型在多分类问题上的推广
Softmax回归 Contents [hide] 1 简介 2 代价函数 3 Softmax回归模型参数化的特点 4 权重衰减 5 Softmax回归与Logistic 回归的关系 6 Softma ...
机器学习实战之logistic回归分类
利用logistic回归进行分类的主要思想:根据现有数据对分类边界建立回归公式,并以此进行分类. logistic优缺点: 优点:计算代价不高,易于理解和实现.缺点:容易欠拟合,分类精度可能不高. . ...
Logistic回归分析之多分类Logistic回归
Logistic回归分析(logit回归)一般可分为3类,分别是二元Logistic回归分析.多分类Logistic回归分析和有序Logistic回归分析.logistic回归分析类型如下所示. Lo ...
第五章：Logistic回归
本章内容 □sigmod函数和logistic回归分类器 □最优化理论初步□梯度下降最优化算法□数据中的缺失项处理这会是激动人心的一章,因为我们将首次接触到最优化算法.仔细想想就会发现,其实我们日常 ...
对线性回归，logistic回归和一般回归的认识
原文:http://www.cnblogs.com/jerrylead/archive/2011/03/05/1971867.html#3281650 对线性回归,logistic回归和一般回归的认识 ...

随机推荐

Linux：源代码安装及脚本安装的使用
由于这两个安装方法比较少,就没有单独分开来写源代码安装源码安装的步骤 (1)对下载的码包进行解压 (2)进入解压目录执行 configure 命令做相关设置 (3)执行 make 进行编译 (4) ...
【oi模拟赛】长乐中学-不知道多少年
改造二叉树 [题目描述] 小Y在学树论时看到了有关二叉树的介绍:在计算机科学中,二叉树是每个结点最多有两个子结点的有序树.通常子结点被称作"左孩子"和"右孩子" ...
poj 3070 矩阵计算Fibonacci
地址 http://poj.org/problem?id=3070 大意是输入一个数字输出位于Fibonacci数列该位置的数字模10000的结果由于n比较大 0 ≤ n ≤ 1,000,000, ...
Linux学习笔记-第19天结束了。突然感觉配置一个服务好简单的样子
课程结束了,这本书又过了一遍,感觉学习到了不少的新知识.虽然整个过程老师讲的有点仓促,但回头想想身处于这个知识大爆炸的时代,学习不单要追求知识面宽广,更需要注重学习的效率,某种角度来讲,这也是一种鞭策 ...
oracle中utl_raw
RAW,类似于CHAR,声明方式RAW(L),L为长度,以字节为单位,作为数据库列最大2000,作为变量最大32767字节.LONG RAW,类似于LONG,作为数据库列最大存储2G字节的数据,作为变 ...
前端 web mime类型引起的常见404错误
mime 类型设置参考https://www.w3school.com.cn/media/media_mimeref.asp
微信公众号开发 ,redirect_uri域名还是与后台配置不一致
测试账号地址: https://mp.weixin.qq.com/debug/cgi-bin/sandboxinfo?action=showinfo&t=sandbox/index https ...
MySQL中使用group_concat遇到的坑
在使用group_concat的过程中遇到个问题,这里记录一下:在MySQL中有个配置参数group_concat_max_len,它会限制使用group_concat返回的最大字符串长度,默认是10 ...
Sql ----- sqlserver 中的if 判断 case... when
与查询放到一块使用: 语法: select case when 范围条件 then 产生的结果 when 范围条件 then 产生的结果 else 不是以上范围产生的结果 end from 表名个人 ...
c#汉字转拼音首字母全拼支持多音字
1.首先在NuGet安装pingyinConverter 2.下载-安装-引用ChineseChar.dll到项目中官网了解:http://www.microsoft.com/zh-cn/downl ...

利用logistic回归解决多分类问题

利用logistic回归解决多分类问题的更多相关文章

随机推荐

热门专题