ML-学习提纲2】的更多相关文章

[ML学习笔记] XGBoost算法 回归树 决策树可用于分类和回归,分类的结果是离散值(类别),回归的结果是连续值(数值),但本质都是特征(feature)到结果/标签(label)之间的映射. 这时候就没法用信息增益.信息增益率.基尼系数来判定树的节点分裂了,那么回归树采用新的方式是预测误差,常用的有均方误差.对数误差等(损失函数).而且节点不再是类别,而是数值(预测值),划分到叶子后的节点预测值有不同的计算方法,有的是节点内样本均值,有的是最优化算出来的比如Xgboost. XGBoost…
[ML学习笔记] 朴素贝叶斯算法(Naive Bayesian) 贝叶斯公式 \[P(A\mid B) = \frac{P(B\mid A)P(A)}{P(B)}\] 我们把P(A)称为"先验概率"(Prior probability),即在B事件发生之前,对A事件概率的一个判断.P(A|B)称为"后验概率"(Posterior probability),即在B事件发生之后,对A事件概率的重新评估.P(B|A)/P(B)称为"可能性函数"(Lik…
[ML学习笔记] 决策树与随机森林(Decision Tree&Random Forest) 决策树 决策树算法以树状结构表示数据分类的结果.每个决策点实现一个具有离散输出的测试函数,记为分支. 一棵决策树的组成:根节点.非叶子节点(决策点).叶子节点.分支 算法分为两个步骤:1. 训练阶段(建模) 2. 分类阶段(应用) 熵的概念 设用P(X)代表X发生的概率,H(X)代表X发生的不确定性,则有:P(X)越大,H(X)越小:P(X)越小,H(X)越大. 信息熵的一句话解释是:消除不确定性的程度…
[ML学习笔记] 回归分析(Regression Analysis) 回归分析:在一系列已知自变量与因变量之间相关关系的基础上,建立变量之间的回归方程,把回归方程作为算法模型,实现对新自变量得出因变量的关系. 回归与分类的区别:回归预测的是连续变量(数值),分类预测的是离散变量(类别). 线性回归 线性回归通过大量的训练出一个与数据拟合效果最好的模型,实质就是求解出每个特征自变量的权值θ. 设有特征值x1.x2(二维),预测值 $ h_\theta(x)=\theta_0 + \theta_1x…
原作:面包包包包包包 改动:寒小阳 && 龙心尘 时间:2016年2月 出处:http://blog.csdn.net/Breada/article/details/50697030 http://blog.csdn.net/han_xiaoyang/article/details/50697074 http://blog.csdn.net/longxinchen_ml/article/details/50697105 声明:版权全部.转载请联系作者并注明出处 1. 引言 提笔写这篇博客,…
原作:面包包包包包包 修改:寒小阳 && 龙心尘 时间:2016年1月 出处: http://blog.csdn.net/breada/article/details/50572914 http://blog.csdn.net/han_xiaoyang/article/details/50580423 http://blog.csdn.net/longxinchen_ml/article/details/50580647 声明:版权所有,转载请联系作者并注明出处 1. 引言 提笔写这篇博客…
摘要: 1.pipeline 模式 1.1相关概念 1.2代码示例 2.特征提取,转换以及特征选择 2.1特征提取 2.2特征转换 2.3特征选择 3.模型选择与参数选择 3.1 交叉验证 3.2 训练集-测试集 切分 内容: 1.pipeline 模式 1.1相关概念 DataFrame是来自Spark SQL的ML DataSet 可以存储一系列的数据类型,text,特征向量,Label和预测结果 Transformer:将DataFrame转化为另外一个DataFrame的算法,通过实现t…
Core ML工具是一个Python包(coremltools),托管在Python包索引(PyPI)上. 从表格中可看出,支持caffe工具. 使用与模型的第三方工具相对应的Core ML转换器转换模型. 调用转换器的convert方法并将生成的模型保存到Core ML模型格式(.mlmodel). 例如如果模型是使用Caffe创建的,请将Caffe模型(.caffemodel)传递给coremltools.converters.caffe.convert方法. coremltools官网文档…
神经网络 有的模型可以有多种算法.而有的算法可能可用于多种模型.在神经网络中,对外部环境提供的模式样本进行学习训练,并能存储这种模式,则称为感知器;对外部环境有适应能力,能自动提取外部环境变化特征,则称为认知器.神经网络在学习中,一般分为有教师和无教师学习两种.感知器采用有教师信号进行学习,而认知器则采用无教师信号学习的.在主要神经网络如Bp网络,Hopfield网络,ART络和Kohonen网络中;Bp网络和Hopfield网络是需要教师信号才能进行学习的;而ART网络和Khonone网络则无…
2019/03/09 16:16 归一化方法: 简单放缩(线性归一化):这种归一化方法比较适用在数值比较集中的情况.这种方法有个缺陷,如果max和min不稳定,很容易使得归一化结果不稳定,使得后续使用效果也不稳定.实际使用中可以用经验常量值来替代max和min. 特征标准化:经过处理的数据符合标准正态分布,即均值为0,标准差为1. 逐样本均值消减(非线性的归一化): 经常用在数据分化比较大的场景,有些数值很大,有些很小.通过一些数学函数,将原始值进行映射.该方法包括 log.指数,正切等.需要根…
0x00 什么是TF-IDF TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率). # 是一种用于资讯检索与资讯探勘的常用加权技术.TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度.字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降. 上述引用总结就是, 一个词语在一篇文章中出现次数越多, 同时在所有文档中出现次数越少, 越能够代表该文章.…
作者:@houkai本文为作者原创,转载请注明出处:https://www.cnblogs.com/houkai/p/3399646.html 0x00 概述 TEX 是Donald E. Knuth 编写的一个以排版文章及数学公式为目标的计算机程序.TEX的版本号不断趋近于π,现在为3.141592.由Pascal 语言写成,特点: 免费.输出质量高.擅长科技排版.有点像编程. LATEX 目前使用最广泛的TEX 宏集. 每一个LATEX 命令实际上最后都会被转换解释成几个甚至上百个TEX命令…
关于本课程的相关资料http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17.html 通过模型可以分类输入,此时根据分类结果的正确与否会有一个Loss函数.找到一个最佳的分类模型有很多方法, 此次介绍的是利用Gaussian Distribution获得Maximum Likelihood 对于一堆数据样本数据在二维上分布,如何确定一个新的数据是属于哪一类的?我们可以根据样本数据计算出相应的高斯分布,然后将新的点回代,就能得到这个点属于该分布的机率. 从…
关于本课程的相关资料http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17.html 根据前面所为,当我们得到Loss方程的时候,我们希望求得最优的Loss方程.为此,我们可以采用了一种方法----Gradien Descent. 为什么可以使用这种方法呢,我们先保留这个疑问,先看一下什么是Gradien Descent. 如下图,我们假定某个Loss方程有两个参数,同时我们假定了一个learning rate.每次update 参数与其偏微分learn…
关于本课程的相关资料http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17.html 错误来自哪里? error due to "bias" and error due to "variance" 当我们要求无穷多个数的平均值或者方差时,我们选取了N个样本出现计算.很显然我们得到的结果是存在一定误差的.当我们选区的样本的值越多的时候,我们得到的结果也就越准确.类比于训练模型,我们所选择的训练数据是有限的,很多时候我们希望他们…
Regression Output a scalar Model:a set of function 以Linear model为例 y = b+w * $x_cp$ parameters:b,W feature:$x_cp$ Goodness of Function training data Loss function: input:a function output: how bad it is 如下图,定义损失函数: Best Function 选择出最优的损失函数: 即求出在某参数W,…
0x00 概述 Jupyter Notebook安装的官方网站 安装Jupyter Notebook的先决条件:已经安装了python(python 2.7 或者是python3) 具体的安装方法: 官方建议利用Anaconda安装Jupyter 安装完成Anaconda后,如果该Anaconda并不自带Jupyter Noterbook,那么,打开cmd,输入:conda install jupyter 可以使用pip install jupyter安装 0x01 更改Jupyter note…
0x00 概述 在没有安装XGBoost之前,import xgboot会出错,如下: # ModuleNotFoundError: No module named ‘xgboost’ 0x01 安装xgboost 前提条件:windows环境下,anaconda(这里指的是Anaconda3)已安装,相应的numpy和sicpy已安装 下面介绍最简单的安装方式: 打开Anaconda Prompt输入命令 : # pip install xgboost -i https://pypi.tuna…
import xgboost as xgb import numpy as np import pandas as pd from sklearn.model_selection import train_test_split if __name__ == '__main__': iris_feature_E = "sepal lenght", "sepal width", "petal length", "petal width&qu…
摘要: 1.spark_core 2.spark_sql 3.spark_ml 内容: 1.spark_core 原理篇: Spark RDD 核心总结 RangePartitioner 实现简记 Spark核心作业调度和任务调度之DAGScheduler源码 Spark 运行架构核心总结 Spark DAGSheduler生成Stage过程分析实验 Spark join 源码跟读记录 图解spark的RDD编程模型 (收藏用) 实战篇: Spark算子选择策略 Spark的持久化简记 Spar…
利用ML&AI判定未知恶意程序 导语:0x01.前言 在上一篇ML&AI如何在云态势感知产品中落地中介绍了,为什么我们要预测未知恶意程序,传统的安全产品已经无法满足现有的安全态势.那么我们要使用新的技术手段武装我们的安全产品,通过大数据的手段更好的解决未知恶意程序 0x01.前言 在上一篇ML&AI如何在云态势感知产品中落地中介绍了,为什么我们要预测未知恶意程序,传统的安全产品已经无法满足现有的安全态势.那么我们要使用新的技术手段武装我们的安全产品,通过大数据的手段更好的解决未知恶…
Decision Tree:Analysis 大家有没有玩过猜猜看(Twenty Questions)的游戏?我在心里想一件物体,你可以用一些问题来确定我心里想的这个物体:如是不是植物?是否会飞?能游泳不?当你问完这些问题后,你就能得到这个物体的特征,然后猜出我心里想象的那个物体,看是否正确. 这个游戏很简单,但是蕴含的思想却是质朴的.每个问题都会将范围减少,直到特征显现,内蕴的思想就是Decision Tree算法.判定树(Decision Tree)算法是机器学习中很重要的一种算法,有文章声…
http://blog.csdn.net/pipisorry/article/details/49428053 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Leskovec courses学习笔记 计算广告Computational Advertising {博客内容:Computational Advertising.  The problem is to select ads to show with other information, typica…
1.常用工具相关 有道云笔记 http://note.youdao.com/signIn/index.html 36镇-最好用的共享收藏夹 http://www.36zhen.com/ 浏览器同步测试工具 http://www.browsersync.cn/ https://www.browsersync.io/ 草料二维码生成器 http://cli.im/ GitHub https://github.com/ StackOverFlow http://stackoverflow.com/ 图…
参考 db存储及分层 一个db一个文件夹. 一张表两个文件frm是存表结构的,ibd是存数据的 连接层: sock ip sql层: 存储层: 2018年4月1日 20:53:54小结: 时间太久,抓破脑袋斗争,想不起具体 mysql事务是干嘛的 不怕不会,怕的是每次遇到都不会. 靠.... 遇到一次杀一次... 建库 建表 查表结构 插入数据 alert修改表结构 增加字段 删除字段 重命名字段 事务 transaction: 交易:事务; 参考 start transaction; # 开启…
1.常用工具相关 有道云笔记 http://note.youdao.com/signIn/index.html 36镇-最好用的共享收藏夹 http://www.36zhen.com/ 浏览器同步测试工具 http://www.browsersync.cn/ https://www.browsersync.io/ 草料二维码生成器 http://cli.im/ GitHub https://github.com/ StackOverFlow http://stackoverflow.com/ 图…
主要参考课本第二章所学习内容  (信息的表示和处理) 所有重点内容: 信息存储 整数表示/运算 浮点数 一   十六进制表示 0~9 A~F 0000~1111 注:(主要参考课本P22) 字 字长: 整数和指针数据的标称大小 一般电脑为32位  4千兆字节 后也有64位 数据大小: 整数,浮点数 Char 单独字节 寻址和字节顺序(类型转化) Typedef命名数据类型 Printf格式化输出 指针和数组 指针的创建和间接引用 注:参考课本25-27页 二  整数表示 整形数据类型(C语言支持…
公司有个智能货柜,通过微信扫码开门,拿货,自动扣款,挺智能的.还不错.研究一下原理,网上查了一下. 文章简介: 目前新零售风刮的蛮大,笔者进入该领域近一年,负责过无人便利店.智能货柜.智慧商超等产品,在这个阶段不断去学习AI技术.积累新零售领域经验.该篇文章作为第一篇AI产品设计复盘文章,为大家从行业.技术.产品设计三个点去介绍视觉识别智能货柜.文章也许会衍生成新零售系列,主要目的有: 带来客观的新零售+AI领域结合的行业和智能货柜产品动向. 真正以一个PM角色以综合视觉去看待:趋势.行业.产品…
为了方便后面对ottertune进行魔(hu)改(gao),需要先搞清楚它的源码结构和pipeline OtterTune分为两大部分: server side: 包括一个MySQL数据库(用于存储调优数据,供ml model用),Django(FrontEnd User Interface),Celery(用于调度ML task): client side: Target_DBMS(存储用户的业务数据用,支持多种DBMS),Controller(用于控制target DBMS),Driver(…
转载请注明:http://blog.csdn.net/xinzhangyanxiang/article/details/9285001 该系列笔记1-5pdf下载请猛击这里. 本篇博客为斯坦福ML公开课第五个视频的笔记,主要内容包括生成学习算法(generate learning algorithm).高斯判别分析(Gaussian DiscriminantAnalysis,GDA).朴素贝叶斯(Navie Bayes).拉普拉斯平滑(Laplace Smoothing).…