ML.NET 笔记】的更多相关文章

[ML学习笔记] XGBoost算法 回归树 决策树可用于分类和回归,分类的结果是离散值(类别),回归的结果是连续值(数值),但本质都是特征(feature)到结果/标签(label)之间的映射. 这时候就没法用信息增益.信息增益率.基尼系数来判定树的节点分裂了,那么回归树采用新的方式是预测误差,常用的有均方误差.对数误差等(损失函数).而且节点不再是类别,而是数值(预测值),划分到叶子后的节点预测值有不同的计算方法,有的是节点内样本均值,有的是最优化算出来的比如Xgboost. XGBoost…
[ML学习笔记] 朴素贝叶斯算法(Naive Bayesian) 贝叶斯公式 \[P(A\mid B) = \frac{P(B\mid A)P(A)}{P(B)}\] 我们把P(A)称为"先验概率"(Prior probability),即在B事件发生之前,对A事件概率的一个判断.P(A|B)称为"后验概率"(Posterior probability),即在B事件发生之后,对A事件概率的重新评估.P(B|A)/P(B)称为"可能性函数"(Lik…
[ML学习笔记] 决策树与随机森林(Decision Tree&Random Forest) 决策树 决策树算法以树状结构表示数据分类的结果.每个决策点实现一个具有离散输出的测试函数,记为分支. 一棵决策树的组成:根节点.非叶子节点(决策点).叶子节点.分支 算法分为两个步骤:1. 训练阶段(建模) 2. 分类阶段(应用) 熵的概念 设用P(X)代表X发生的概率,H(X)代表X发生的不确定性,则有:P(X)越大,H(X)越小:P(X)越小,H(X)越大. 信息熵的一句话解释是:消除不确定性的程度…
[ML学习笔记] 回归分析(Regression Analysis) 回归分析:在一系列已知自变量与因变量之间相关关系的基础上,建立变量之间的回归方程,把回归方程作为算法模型,实现对新自变量得出因变量的关系. 回归与分类的区别:回归预测的是连续变量(数值),分类预测的是离散变量(类别). 线性回归 线性回归通过大量的训练出一个与数据拟合效果最好的模型,实质就是求解出每个特征自变量的权值θ. 设有特征值x1.x2(二维),预测值 $ h_\theta(x)=\theta_0 + \theta_1x…
一.安装机器学习的包 1.conda create -n ml python=3.6 2.source activate ml 3.升级pip :pip install --upgrade pip 4.安装scikit-learn:conda install scikit-learn (机器学习的框架:scikit-learn) 5.安装pandas:conda install pandas (数据处理工具:pandas)(科学计算包:numpy) 6.返回yixia目录:cd 7.创建一个文件…
0x00 什么是TF-IDF TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率). # 是一种用于资讯检索与资讯探勘的常用加权技术.TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度.字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降. 上述引用总结就是, 一个词语在一篇文章中出现次数越多, 同时在所有文档中出现次数越少, 越能够代表该文章.…
神经网络 有的模型可以有多种算法.而有的算法可能可用于多种模型.在神经网络中,对外部环境提供的模式样本进行学习训练,并能存储这种模式,则称为感知器;对外部环境有适应能力,能自动提取外部环境变化特征,则称为认知器.神经网络在学习中,一般分为有教师和无教师学习两种.感知器采用有教师信号进行学习,而认知器则采用无教师信号学习的.在主要神经网络如Bp网络,Hopfield网络,ART络和Kohonen网络中;Bp网络和Hopfield网络是需要教师信号才能进行学习的;而ART网络和Khonone网络则无…
参考文档:http://www.cnblogs.com/huliangwen/p/7491797.html…
2019/03/09 16:16 归一化方法: 简单放缩(线性归一化):这种归一化方法比较适用在数值比较集中的情况.这种方法有个缺陷,如果max和min不稳定,很容易使得归一化结果不稳定,使得后续使用效果也不稳定.实际使用中可以用经验常量值来替代max和min. 特征标准化:经过处理的数据符合标准正态分布,即均值为0,标准差为1. 逐样本均值消减(非线性的归一化): 经常用在数据分化比较大的场景,有些数值很大,有些很小.通过一些数学函数,将原始值进行映射.该方法包括 log.指数,正切等.需要根…
0x00 概述 Jupyter Notebook安装的官方网站 安装Jupyter Notebook的先决条件:已经安装了python(python 2.7 或者是python3) 具体的安装方法: 官方建议利用Anaconda安装Jupyter 安装完成Anaconda后,如果该Anaconda并不自带Jupyter Noterbook,那么,打开cmd,输入:conda install jupyter 可以使用pip install jupyter安装 0x01 更改Jupyter note…
作者:@houkai本文为作者原创,转载请注明出处:https://www.cnblogs.com/houkai/p/3399646.html 0x00 概述 TEX 是Donald E. Knuth 编写的一个以排版文章及数学公式为目标的计算机程序.TEX的版本号不断趋近于π,现在为3.141592.由Pascal 语言写成,特点: 免费.输出质量高.擅长科技排版.有点像编程. LATEX 目前使用最广泛的TEX 宏集. 每一个LATEX 命令实际上最后都会被转换解释成几个甚至上百个TEX命令…
0x00 概述 在没有安装XGBoost之前,import xgboot会出错,如下: # ModuleNotFoundError: No module named ‘xgboost’ 0x01 安装xgboost 前提条件:windows环境下,anaconda(这里指的是Anaconda3)已安装,相应的numpy和sicpy已安装 下面介绍最简单的安装方式: 打开Anaconda Prompt输入命令 : # pip install xgboost -i https://pypi.tuna…
import xgboost as xgb import numpy as np import pandas as pd from sklearn.model_selection import train_test_split if __name__ == '__main__': iris_feature_E = "sepal lenght", "sepal width", "petal length", "petal width&qu…
ROC曲线 ROC空间将偽陽性率(FPR)定義為 X 軸,真陽性率(TPR)定义为 Y 轴. TPR:在所有實際為陽性的樣本中,被正確地判斷為陽性之比率. FPR:在所有實際為阴性的样本中,被錯誤地判斷為陽性之比率. 給定一個二元分類模型和它的閾值,就能從所有樣本的(陽性/陰性)真實值和預測值計算出一個 (X=FPR, Y=TPR) 座標點. 從 (0, 0) 到 (1,1) 的對角線将ROC空间划分为左上/右下两个区域,在这条线的以上的点代表了一个好的分类结果(勝過隨機分類),而在这条线以下的…
原文地址:https://www.jianshu.com/p/a02c6bd5d5e9 error来自哪?来自于偏差Bias和方差Variance. 就如打靶时瞄准一个点\(\overline{f}\),打出的点\(f^*\)分布在该点周围.那么,\(\overline{f}\)与实际靶心\(\hat{f}\)的距离就是偏差Bias,打出的点\(f^*\)与\(\overline{f}\)的分布距离就是方差Variance. 可将偏差理解为没瞄准,方差理解为瞄准了但是打得太散. 简单模型的方差小…
week1 一张图片,设像素为64*64, 颜色通道为红蓝绿三通道,则对应3个64*64实数矩阵 为了用向量表示这些矩阵,将这些矩阵的像素值展开为一个向量x作为算法的输入 从红色到绿色再到蓝色,依次按行一个个将元素读到向量x中,则x是一个\(1\times64*64*3\)的矩阵,也就是一个64*64*3维的向量 用 \(n_x = 64*64*3\) 表示特征向量x的维度 而所有的训练样本表示成:\(X = \begin{bmatrix}\mid & \mid &\mid &&a…
机器学习(二)数据处理&相似/异性度量 https://woaielf.github.io/2017/03/17/dm-2/ 2017-03-17 ZOE    数据科学  机器学习/数据挖掘 Notes: ★ 如果你是第一次阅读,推荐先浏览:[重要公告]文章更新.阅读规则.导图下载. ★ 目前文章更新主平台已迁移至公众号「数林觅风」,ID:zoemindmap,博客只在每月末集中更新一次.所有「PDF&高清原图」只需在公众号后台回复关键词或者直接从菜单栏进入即可下载. 本文是我的「ML&…
地址: http://spark.apache.org/docs/2.0.0/ml-pipeline.html   Spark PipeLine 是基于DataFrames的高层的API,可以方便用户构建和调试机器学习流水线 可以使得多个机器学习算法顺序执行,达到高效的数据处理的目的   DataFrame是来自Spark SQL的ML DataSet 可以存储一系列的数据类型,text,特征向量,Label和预测结果   Transformer:将DataFrame转化为另外一个DataFra…
斯坦福ML公开课笔记15 我们在上一篇笔记中讲到了PCA(主成分分析). PCA是一种直接的降维方法.通过求解特征值与特征向量,并选取特征值较大的一些特征向量来达到降维的效果. 本文继续PCA的话题,包含PCA的一个应用--LSI(Latent Semantic Indexing, 隐含语义索引)和PCA的一个实现--SVD(Singular Value Decomposition,神秘值分解). 在SVD和LSI结束之后.关于PCA的内容就告一段落. 视频的后半段開始讲无监督学习的一种--IC…
转载请注明:http://blog.csdn.net/xinzhangyanxiang/article/details/9285001 该系列笔记1-5pdf下载请猛击这里. 本篇博客为斯坦福ML公开课第五个视频的笔记,主要内容包括生成学习算法(generate learning algorithm).高斯判别分析(Gaussian DiscriminantAnalysis,GDA).朴素贝叶斯(Navie Bayes).拉普拉斯平滑(Laplace Smoothing).…
转载请注明:http://blog.csdn.net/xinzhangyanxiang/article/details/9774135 本篇笔记针对ML公开课的第七个视频,主要内容包括最优间隔分类器(Optimal Margin Classifier).原始/对偶问题(Primal/Dual Problem).svm的对偶问题,都是svm(support vector machine,支持向量机)的内容.…
转载请注明:http://blog.csdn.net/xinzhangyanxiang/article/details/9722701 本篇笔记针对斯坦福ML公开课的第6个视频,主要内容包括朴素贝叶斯的多项式事件模型(MultivariateBernoulli Event Model).神经网络(Neural Network).支持向量机(Support Vector Machine)的函数间隔(functionalmargin)与几何间隔(geometricmargin).…
1  定义 机器学习 (Machine Learning):improving some performance measure with experience computed from data 2  应用举例 ML:an alternative route to build complicated systems 2.1  股票预测   2.2  图像识别 2.3  衣食住行    2.4  关键要素 在决定某些应用场景,是否适合使用机器学习时,常考虑以下三个要素: 1) exists s…
[ML]熵.KL散度.信息增益.互信息-学习笔记 https://segmentfault.com/a/1190000000641079…
[机器学习] Coursera ML笔记 - 监督学习(Supervised Learning) - Representation http://blog.csdn.net/walilk/article/details/50922854…
一.问题与解决方案 通过多元分类算法进行手写数字识别,手写数字的图片分辨率为8*8的灰度图片.已经预先进行过处理,读取了各像素点的灰度值,并进行了标记. 其中第0列是序号(不参与运算).1-64列是像素值.65列是结果. 我们以64位像素值为特征进行多元分类,算法采用SDCA最大熵分类算法. 二.源码 先贴出全部代码: namespace MulticlassClassification_Mnist { class Program { static readonly string TrainDa…
一.要解决的问题 问题:常常一些单位或组织召开会议时需要录入会议记录,我们需要通过机器学习对用户输入的文本内容进行自动评判,合格或不合格.(同样的问题还类似垃圾短信检测.工作日志质量分析等.) 处理思路:我们人工对现有会议记录进行评判,标记合格或不合格,通过对这些记录的学习形成模型,学习算法仍采用二元分类的快速决策树算法,和上一篇文章不同,这次输入的特征值不再是浮点数,而是中文文本.这里就要涉及到文本特征提取. 为什么要进行文本特征提取呢?因为文本是人类的语言,符号文字序列不能直接传递给算法.而…
一.准备样本 接上一篇文章提到的问题:根据一个人的身高.体重来判断一个人的身材是否很好.但我手上没有样本数据,只能伪造一批数据了,伪造的数据比较标准,用来学习还是蛮合适的. 下面是我用来伪造数据的代码: string Filename = "./figure_full.csv"; StreamWriter sw = new StreamWriter(Filename, false); sw.WriteLine("Height,Weight,Result"); Ran…
一.序言 微软的机器学习框架于2018年5月出了0.1版本,2019年5月发布1.0版本.期间各版本之间差异(包括命名空间.方法等)还是比较大的,随着1.0版发布,应该是趋于稳定了.之前在园子里也看到不少相关介绍的文章,对我的学习提供了不少帮助.由于目前资料不是很丰富,所以学习过程中也走了不少弯路,本系列的文章主要记录我学习过程中的一些心得体会,并对一些细节会做详细的解释,希望能为机器学习零基础的同学提供一些帮助.(C#零基础可不行) 二.基本概念 1.什么是机器学习?定义:一个电脑程序要完成任…
一.概述 上一篇文章我们利用ML.NET的多元分类算法实现了一个手写数字识别的例子,这个例子存在一个问题,就是输入的数据是预处理过的,很不直观,这次我们要直接通过图片来进行学习和判断.思路很简单,就是写一个自定义的数据处理通道,输入为文件名,输出为float数字,里面保存的是像素信息. 样本包括6万张训练图片和1万张测试图片,图片为灰度图片,分辨率为20*20 .train_tags.tsv文件对每个图片的数值进行了标记,如下: 二.源码 全部代码: namespace MulticlassCl…