机器学习 —— log-linear 模型】的更多相关文章

    本文转自:http://www.360doc.com/content/17/0212/11/35919193_628410589.shtml#   看穿机器学习(W-GAN模型)的黑箱 2017-02-12  黑马_御风  摘自 老顾谈几何  阅 3  转藏到我的图书馆   微信分享:   图a. Principle of GAN. 前两天纽约暴雪,天地一片苍茫.今天元宵节,长岛依然清冷寂寥,正月十五闹花灯的喧嚣热闹已成为悠远的回忆.这学期,老顾在讲授一门研究生水平的数字几何课程,目前讲…
在之前的文章<机器学习---线性回归(Machine Learning Linear Regression)>中说到,使用最小二乘回归模型需要满足一些假设条件.但是这些假设条件却往往是人们容易忽略的地方.如果不考虑模型的适用情况,就只会得到错误的模型.下面来看一下,使用最小二乘回归模型需要满足哪些假设,以及如果不满足这些假设条件会产生怎样的后果. 最小二乘回归模型的5个基本假设: 自变量(X)和因变量(y)线性相关 自变量(X)之间相互独立 误差项(ε)之间相互独立 误差项(ε)呈正态分布,期…
分类模型的预测目标是:类别编号 回归模型的预测目标是:实数变量 回归模型种类 线性模型 最小二乘回归模型 应用L2正则化时--岭回归(ridge regression) 应用L1正则化时--LASSO(Least Absolute Shrinkage and Selection Operator) 决策树 不纯度度量方法:方差 0 准备数据 archive.ics.uci.edu/ml/machine-learning-databases/00275/Bike-Sharing-Dataset.z…
作者:JSong, 日期:2017.10.10 集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务,常可获得比单一学习器显著优越的泛化性能,这对"弱学习器"尤为明显. 目前,有三种常见的集成学习框架:bagging,boosting和stacking.第一种是并行的,各个基学习器之间不存在强依赖关系,代表是随机森林算法.后两者是串行的,基学习器之间存在强依赖关系,必须串行生成.具体可参见我的文章 机器学习|集成学习. 1.前向分步算法(forward…
PCA(主成分分析法,Principal Components Analysis) SVD(奇异值分解法,Singular Value Decomposition) http://vis-www.cs.umass.edu/lfw/lfw-a.tgz 0 运行环境 export SPARK_HOME=/Users/erichan/Garden/spark-1.5.1-bin-hadoop2.6 cd $SPARK_HOME bin/spark-shell --name my_mlib --pack…
最近一直在回顾linear regression model和logistic regression model,但对其中的一些问题都很疑惑不解,知道我看到广义线性模型即Generalized Linear Model后才恍然大悟原来这些模型是这样推导的,在这里与诸位分享一下,具体更多细节可以参考Andrew Ng的课程. 一.指数分布 广义线性模型都是由指数分布出发来推导的,所以在介绍GLM之前先讲讲什么是指数分布.指数分布的形式如下: η是参数,T(y)是y的充分统计量,即T(y)可以完全表…
1. Model Log 介绍 Model Log 是一款基于 Python3 的轻量级机器学习(Machine Learning).深度学习(Deep Learning)模型训练评估指标可视化工具,与 TensorFlow.Pytorch.PaddlePaddle结合使用,可以记录模型训练过程当中的超参数.Loss.Accuracy.Precision.F1值等,并以曲线图的形式进行展现对比,轻松三步即可实现. 通过调节超参数的方式多次训练模型,并使用 Model Log 工具进行记录,可以很…
这个线性回归的作业需要上传到https://inclass.kaggle.com/c/ml2016-pm2-5-prediction 上面,这是一个kaggle比赛的网站.第一次接触听说这个东西,恰好在京东上有一本刚出来的关于这个的书<Python机器学习及实践:从零开始通往Kaggle竞赛之路>.把我自己写的代码运行保存的结果提交上去后发现,损失函数值很大,baseline是6,而我的却是8,于是很不心甘,尝试了其他方法无果后,准备利用scikit learn 工具刷刷数据. 具体步骤: 1…
今天看到这篇文章里面提到如何选择模型,觉得非常好,单独写在这里. 更多的机器学习实战可以看这篇文章:http://www.cnblogs.com/charlesblc/p/6159187.html 另外关于机器学习与数据挖掘的区别, 参考这篇文章:https://www.zhihu.com/question/30557267 数据挖掘:也就是data mining,是一个很宽泛的概念.字面意思就是从成吨的数据里面挖掘有用的信息.这个工作BI(商业智能)可以做,数据分析可以做,甚至市场运营也可以做…
模型性能的度量 在监督学习中,已知样本 ,要求拟合出一个模型(函数),其预测值与样本实际值的误差最小. 考虑到样本数据其实是采样,并不是真实值本身,假设真实模型(函数)是,则采样值,其中代表噪音,其均值为0,方差为. 拟合函数的主要目的是希望它能对新的样本进行预测,所以,拟合出函数后,需要在测试集(训练时未见过的数据)上检测其预测值与实际值之间的误差.可以采用平方误差函数(mean squared error)来度量其拟合的好坏程度,即 误差期望值的分解 经过进一步的研究发现,对于某种特定的模型…