import numpy as np
from matplotlib import pyplot as plt # 创建线性回归数据集
def create_dataset():
X = 2 * np.random.rand(100, 1)
# 结果加上高斯噪声
y = 4 + 3*X + np.random.randn(100, 1)
return X, y # 线性回归解析法:使用正态方程求解,直接得到全局最优解
def linear_regression_analysis(X, y):
# 特征向量为参数b添加值为1的特征
X_b = np.c_[np.ones((100, 1)), X]
# 用正态方程解得全局最优解
theta_best = np.linalg.inv(X_b.T.dot(X_b)).dot(X_b.T).dot(y)
print("线性回归解析解为:", theta_best)
# 预测
sample = np.array([[0], [2]])
sample_b = np.c_[np.ones((2, 1)), sample]
predict = sample_b.dot(theta_best)
# print('解析解方程预测为:', predict)
# 绘制线性回归模型图像
plt.plot(sample, predict, 'r-')
plt.plot(X, y, 'b.')
plt.axis([0, 2, 0, 15])
plt.show()
return X_b # 使用sk-learn的线性回归模型,默认使用解析法
def linear_regression_sk(X, y):
from sklearn.linear_model import LinearRegression
# 创建线性回归模型实例
lin_reg = LinearRegression()
lin_reg.fit(X, y)
print('sk-learn线性回归解析解:', 'b:', lin_reg.intercept_, 'w:', lin_reg.coef_) # 线性回归批量梯度下降法(batch gradient descent)
def linear_regression_batch_gd(X_b, y):
# 学习率不变、迭代次数和样本数
learning_rate = 0.1
max_iterations = 1000
m = 100
# 随机初始值
theta = np.random.randn(2, 1)
# 开始迭代
for n in range(max_iterations):
gradients = 2/m * X_b.T.dot(X_b.dot(theta)-y)
theta = theta - learning_rate*gradients
print('线性回归批量梯度下降法解:', theta) # 线性回归随机梯度下降法(stochastic gradient descent)
def linear_regression_stochastic_gd(X_b, y):
# epoch次数,样本数
n_epochs = 50
m = 100
theta = np.random.randn(2, 1)
for epoch in range(n_epochs):
for i in range(m):
random_index = np.random.randint(m)
xi = X_b[random_index:random_index+1]
yi = y[random_index:random_index+1]
gradients = 2 * xi.T.dot(xi.dot(theta) - yi)
learning_rate = 1.0/(epoch*m + i + 10)
theta = theta - learning_rate*gradients
print('线性回归随机梯度下降法解:', theta) # sk-learn 线性回归随机梯度下降
def linear_regression_stochastic_gd_sk(X, y):
from sklearn.linear_model import SGDRegressor
sgd_reg = SGDRegressor(n_iter=50, penalty=None, eta0=0.1)
sgd_reg.fit(X, y.ravel())
print('sk-learn线性回归随机梯度下降法解:', 'b:', sgd_reg.intercept_, 'w:', sgd_reg.coef_) # 创建多项式回归数据集
def create_dataset_poly():
m = 100
X1 = 6 * np.random.rand(m, 1) - 3
y1 = 0.5 * X1 ** 2 + X1 + 2 + np.random.randn(m, 1)
return X1, y1 # 多项式回归
def polynomial_regression(X, y):
# 添加二次特征
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
poly_features = PolynomialFeatures(degree=2, include_bias=False)
X_poly = poly_features.fit_transform(X)
lin_reg_poly = LinearRegression()
lin_reg_poly.fit(X_poly, y)
print('多项式回归解:', 'b:', lin_reg_poly.intercept_, 'w:', lin_reg_poly.coef_)
return lin_reg_poly # 绘制关于训练集规模的学习曲线
def plot_learning_curves(model, X, y):
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2)
train_errors, val_errors = [], []
for m in range(1, len(X_train)):
model.fit(X_train[:m], y_train[:m])
y_train_predict = model.predict(X_train[:m])
y_val_predict = model.predict(X_val)
train_errors.append(mean_squared_error(y_train_predict, y_train[:m]))
val_errors.append(mean_squared_error(y_val_predict, y_val))
plt.plot(np.sqrt(train_errors), "r-+", linewidth=2, label="train")
plt.plot(np.sqrt(val_errors), "b-", linewidth=3, label="val")
plt.show() # 岭回归,l2正则化,封闭方程求解
def ridge_regression_analysis(X, y):
from sklearn.linear_model import Ridge
ridge_reg = Ridge(alpha=1, solver="cholesky")
ridge_reg.fit(X, y)
print('岭回归解:', 'b:', ridge_reg.intercept_, 'w:', ridge_reg.coef_) # Lasso 回归,l2正则化,封闭方程求解
def lasso_regression_analysis(X, y):
from sklearn.linear_model import Lasso
lasso_reg = Lasso(alpha=0.1)
lasso_reg.fit(X, y)
print('Lasso 回归解:', 'b:', lasso_reg.intercept_, 'w:', lasso_reg.coef_) # l2,l1正则化,梯度下降求解
def regularization_regression_gd(X, y):
from sklearn.linear_model import SGDRegressor
# l1正则化把 penalty="l2" 改为 penalty="l1"
sgd_reg = SGDRegressor(penalty="l2")
sgd_reg.fit(X, y.ravel())
print('l2梯度下降法解:', 'b:', sgd_reg.intercept_, 'w:', sgd_reg.coef_) # 弹性网路正则化,即l1、l2混合正则化
def elasticnet_regression_gd(X, y):
from sklearn.linear_model import ElasticNet
# l1_ratio 指的就是混合率, 即l1正则化占的比例
elastic_net = ElasticNet(alpha=0.1, l1_ratio=0.5)
elastic_net.fit(X, y)
print('弹性网络解:', 'b:', elastic_net.intercept_, 'w:', elastic_net.coef_) # 早期停止法(Early Stopping)
def early_stoping(X, y):
from sklearn.base import clone
from sklearn.linear_model import SGDRegressor
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
# 当warm_start=True时,调用fit()方法后,训练会从停下来的地方继续,而不是从头重新开始。
sgd_reg = SGDRegressor(max_iter=1, warm_start=True, penalty=None, learning_rate="constant", eta0=0.0005)
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2)
minimum_val_error = float("inf")
best_epoch = None
best_model = None
for epoch in range(1000):
sgd_reg.fit(X_train, y_train.ravel())
y_val_predict = sgd_reg.predict(X_val)
val_error = mean_squared_error(y_val_predict, y_val)
if val_error < minimum_val_error:
minimum_val_error = val_error
best_epoch = epoch
best_model = clone(sgd_reg)
print('stopping in:', best_epoch) # 加载鸢尾花数据集
def load_dataset_flower():
from sklearn import datasets
iris = datasets.load_iris()
# X_f = iris['data']
# y_f = iris['target']
# print('加载鸢尾花数据集成功:', iris)
return iris # logistic 回归
def logistic_classify(iris):
from sklearn.linear_model import LogisticRegression
X = iris["data"][:, 3:] # petal width
y = (iris["target"] == 2).astype(np.int)
log_reg = LogisticRegression()
log_reg.fit(X, y)
# 绘图
X_new = np.linspace(0, 3, 1000).reshape(-1, 1)
y_proba = log_reg.predict_proba(X_new)
plt.plot(X_new, y_proba[:, 1], "g-", label="Iris-Virginica")
plt.plot(X_new, y_proba[:, 0], "b--", label="Not Iris-Virginica")
plt.show() # softmax 回归多分类
def softmax_classify(iris):
from sklearn.linear_model import LogisticRegression
# 划分数据集
X = iris["data"][:, (2, 3)] # petal length, petal width
y = iris["target"]
# 创建 softmax 回归实例
softmax_reg = LogisticRegression(multi_class="multinomial", solver="lbfgs", C=10)
softmax_reg.fit(X, y)
# 预测
predict = softmax_reg.predict([[5, 2]])
predict_pro = softmax_reg.predict_proba([[5, 2]])
print('softmax回归预测为:', predict, '各类概率为', predict_pro) if __name__ == '__main__':
# 获得线性回归数据集
X, y = create_dataset()
# 线性回归解析法
# X_b = linear_regression_analysis(X, y)
# sk-learn线性回归解
# linear_regression_sk(X, y)
# 线性回归批量梯度下降法
# linear_regression_batch_gd(X_b, y)
# 线性回归随机梯度下降法
# linear_regression_stochastic_gd(X_b, y)
# sk-learn线性回归随机梯度下降法
# linear_regression_stochastic_gd_sk(X, y)
# 获得多项式回归数据集
# X1, y1 = create_dataset_poly()
# 多项式回归解
# lin_reg_poly = polynomial_regression(X1, y1)
# 获得关于训练集规模的学习曲线
# plot_learning_curves(lin_reg_poly, X1, y1)
# 岭回归,l2正则化
# ridge_regression_analysis(X, y)
# lasso回归,l1正则化
# lasso_regression_analysis(X, y)
# 梯度下降法的正则化
# regularization_regression_gd(X, y)
# 弹性网络
# elasticnet_regression_gd(X, y)
# 早期停止
# early_stoping(X1, y1)
# 加载花的数据集
iris = load_dataset_flower()
# logistic 回归二分类
logistic_classify(iris)
# softmax 多分类
softmax_classify(iris)

版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。

 

Scikit-Learn 机器学习笔记 -- 线性回归、逻辑回归、softma的更多相关文章

  1. 线性回归,逻辑回归,神经网络,SVM的总结

    目录 线性回归,逻辑回归,神经网络,SVM的总结 线性回归,逻辑回归,神经网络,SVM的总结 详细的学习笔记. markdown的公式编辑手册. 回归的含义: 回归就是指根据之前的数据预测一个准确的输 ...

  2. 机器学习总结之逻辑回归Logistic Regression

    机器学习总结之逻辑回归Logistic Regression 逻辑回归logistic regression,虽然名字是回归,但是实际上它是处理分类问题的算法.简单的说回归问题和分类问题如下: 回归问 ...

  3. 机器学习(1)- 概述&线性回归&逻辑回归&正则化

    根据Andrew Ng在斯坦福的<机器学习>视频做笔记,已经通过李航<统计学习方法>获得的知识不赘述,仅列出提纲. 1 初识机器学习 1.1 监督学习(x,y) 分类(输出y是 ...

  4. 斯坦福机器学习视频笔记 Week3 逻辑回归与正则化 Logistic Regression and Regularization

    我们将讨论逻辑回归. 逻辑回归是一种将数据分类为离散结果的方法. 例如,我们可以使用逻辑回归将电子邮件分类为垃圾邮件或非垃圾邮件. 在本模块中,我们介绍分类的概念,逻辑回归的损失函数(cost fun ...

  5. Stanford机器学习---第三讲. 逻辑回归和过拟合问题的解决 logistic Regression & Regularization

    原文:http://blog.csdn.net/abcjennifer/article/details/7716281 本栏目(Machine learning)包括单参数的线性回归.多参数的线性回归 ...

  6. 机器学习入门11 - 逻辑回归 (Logistic Regression)

    原文链接:https://developers.google.com/machine-learning/crash-course/logistic-regression/ 逻辑回归会生成一个介于 0 ...

  7. 吴恩达机器学习笔记 —— 7 Logistic回归

    http://www.cnblogs.com/xing901022/p/9332529.html 本章主要讲解了逻辑回归相关的问题,比如什么是分类?逻辑回归如何定义损失函数?逻辑回归如何求最优解?如何 ...

  8. Spark机器学习(2):逻辑回归算法

    逻辑回归本质上也是一种线性回归,和普通线性回归不同的是,普通线性回归特征到结果输出的是连续值,而逻辑回归增加了一个函数g(z),能够把连续值映射到0或者1. MLLib的逻辑回归类有两个:Logist ...

  9. 【笔记】逻辑回归中使用多项式(sklearn)

    在逻辑回归中使用多项式特征以及在sklearn中使用逻辑回归并添加多项式 在逻辑回归中使用多项式特征 在上面提到的直线划分中,很明显有个问题,当样本并没有很好地遵循直线划分(非线性分布)的时候,其预测 ...

  10. 【机器学习基础】逻辑回归——LogisticRegression

    LR算法作为一种比较经典的分类算法,在实际应用和面试中经常受到青睐,虽然在理论方面不是特别复杂,但LR所牵涉的知识点还是比较多的,同时与概率生成模型.神经网络都有着一定的联系,本节就针对这一算法及其所 ...

随机推荐

  1. js求对象数组的交集/并集/差集/去重

    1.求交集 var arr1 = [{name:'name1',id:1},{name:'name2',id:2},{name:'name3',id:3}]; var arr1Id = [1,2,3] ...

  2. 阿里P7整理20个非常有用的Java程序片段,你知道吗?

    1.字符串有整型的相互转换 String a = String.valueOf(2);  //integer to numeric string   int i = Integer.parseInt( ...

  3. MQTT的websockets应用_转

    转自:mosquitto 与websocket 的结合 前言 mosquitto 作为一个消息代理, 客户端与 mosquitto 服务端的通信时基于 MQTT 协议的, 而现在的主流 web 应用时 ...

  4. 【HCIA Gauss】学习汇总-数据库管理(数据库基本概念)-3

    数据库:操作系统文件或磁盘数据块的集合数据库实例: 指操作系统中一系列进程以及为这些进程分配的内存块 通常来说一个数据库实例对应着一个数据库[数据库实例是访问数据的通道] 多实例:利用多实例 可以充分 ...

  5. 2013.4.24 - KDD第六天

    今天早上,中秋给我发了一个压缩包,里面有战德臣的课件,昨天我说我SQL没学好,他说给我发战徳臣课件,然后说我SQL不会的话可以看这个,还有两篇文 章<LDA数学八卦>以及<A Not ...

  6. UVA816 Abbott's Revenge (三元组BFS)

    题目描述: 输入输出: 输入样例: SAMPLE 3 1 N 3 3 1 1 WL NR * 1 2 WLF NR ER * 1 3 NL ER * 2 1 SL WR NF * 2 2 SL WF ...

  7. 题解 洛谷P1281 【书的复制】

    蒟蒻的\(DP\)很菜,\(SO\)我准备上一套二分的玄学操作 一.简单的二分答案 二分主要是用来解决一些最值问题,它可以有效的优化暴力,使复杂度减少到\(O(logn)\). 我先给大家介绍一下二分 ...

  8. Alpha冲刺随笔六:第六天

    课程名称:软件工程1916|W(福州大学) 作业要求:项目Alpha冲刺(十天冲刺) 团队名称:葫芦娃队 作业目标:在十天冲刺里对每天的任务进行总结. 随笔汇总:https://www.cnblogs ...

  9. 八.Protobuf3更新消息类型(添加新的字段)

    Protobuf3 更新消息类型 如果现有的消息类型不满足你的所有需求——例如,你希望消息格式有一个额外的字段——但是你仍然希望使用用旧格式创建的代码,别担心!在不破坏任何现有代码的情况下更新消息类型 ...

  10. Apollo简介及工作原理

    一.Apollo简介 1.Apollo是携程框架部门研发的分布式配置中心 2.集中化管理应用的不同环境和不同集群的配置 3.配置修改后能够实时推送到应用端 4.具备规范的权限.流程治理等特性 二.Ap ...