ML.NET 笔记

[ML学习笔记] XGBoost算法

[ML学习笔记] XGBoost算法回归树决策树可用于分类和回归,分类的结果是离散值(类别),回归的结果是连续值(数值),但本质都是特征(feature)到结果/标签(label)之间的映射. 这时候就没法用信息增益.信息增益率.基尼系数来判定树的节点分裂了,那么回归树采用新的方式是预测误差,常用的有均方误差.对数误差等(损失函数).而且节点不再是类别,而是数值(预测值),划分到叶子后的节点预测值有不同的计算方法,有的是节点内样本均值,有的是最优化算出来的比如Xgboost. XGBoost…

[ML学习笔记] 朴素贝叶斯算法（Naive Bayesian)

[ML学习笔记] 朴素贝叶斯算法(Naive Bayesian) 贝叶斯公式 \[P(A\mid B) = \frac{P(B\mid A)P(A)}{P(B)}\] 我们把P(A)称为"先验概率"(Prior probability),即在B事件发生之前,对A事件概率的一个判断.P(A|B)称为"后验概率"(Posterior probability),即在B事件发生之后,对A事件概率的重新评估.P(B|A)/P(B)称为"可能性函数"(Lik…

[ML学习笔记] 决策树与随机森林（Decision Tree&Random Forest）

[ML学习笔记] 决策树与随机森林(Decision Tree&Random Forest) 决策树决策树算法以树状结构表示数据分类的结果.每个决策点实现一个具有离散输出的测试函数,记为分支. 一棵决策树的组成:根节点.非叶子节点(决策点).叶子节点.分支算法分为两个步骤:1. 训练阶段(建模) 2. 分类阶段(应用) 熵的概念设用P(X)代表X发生的概率,H(X)代表X发生的不确定性,则有:P(X)越大,H(X)越小:P(X)越小,H(X)越大. 信息熵的一句话解释是:消除不确定性的程度…

[ML学习笔记] 回归分析（Regression Analysis）

[ML学习笔记] 回归分析(Regression Analysis) 回归分析:在一系列已知自变量与因变量之间相关关系的基础上,建立变量之间的回归方程,把回归方程作为算法模型,实现对新自变量得出因变量的关系. 回归与分类的区别:回归预测的是连续变量(数值),分类预测的是离散变量(类别). 线性回归线性回归通过大量的训练出一个与数据拟合效果最好的模型,实质就是求解出每个特征自变量的权值θ. 设有特征值x1.x2(二维),预测值 $ h_\theta(x)=\theta_0 + \theta_1x…

ml机器学习笔记

一.安装机器学习的包 1.conda create -n ml python=3.6 2.source activate ml 3.升级pip :pip install --upgrade pip 4.安装scikit-learn:conda install scikit-learn (机器学习的框架:scikit-learn) 5.安装pandas:conda install pandas (数据处理工具:pandas)(科学计算包:numpy) 6.返回yixia目录:cd 7.创建一个文件…

ML学习笔记之TF-IDF原理及使用

0x00 什么是TF-IDF TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率). # 是一种用于资讯检索与资讯探勘的常用加权技术.TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度.字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降. 上述引用总结就是, 一个词语在一篇文章中出现次数越多, 同时在所有文档中出现次数越少, 越能够代表该文章.…

ML学习笔记- 神经网络

神经网络有的模型可以有多种算法.而有的算法可能可用于多种模型.在神经网络中,对外部环境提供的模式样本进行学习训练,并能存储这种模式,则称为感知器;对外部环境有适应能力,能自动提取外部环境变化特征,则称为认知器.神经网络在学习中,一般分为有教师和无教师学习两种.感知器采用有教师信号进行学习,而认知器则采用无教师信号学习的.在主要神经网络如Bp网络,Hopfield网络,ART络和Kohonen网络中;Bp网络和Hopfield网络是需要教师信号才能进行学习的;而ART网络和Khonone网络则无…

spark ml阅读笔记

参考文档:http://www.cnblogs.com/huliangwen/p/7491797.html…

ML学习笔记（1）

2019/03/09 16:16 归一化方法: 简单放缩(线性归一化):这种归一化方法比较适用在数值比较集中的情况.这种方法有个缺陷,如果max和min不稳定,很容易使得归一化结果不稳定,使得后续使用效果也不稳定.实际使用中可以用经验常量值来替代max和min. 特征标准化:经过处理的数据符合标准正态分布,即均值为0,标准差为1. 逐样本均值消减(非线性的归一化): 经常用在数据分化比较大的场景,有些数值很大,有些很小.通过一些数学函数,将原始值进行映射.该方法包括 log.指数,正切等.需要根…

ML学习笔记之Jupyter Notebook各种使用方法

0x00 概述 Jupyter Notebook安装的官方网站安装Jupyter Notebook的先决条件:已经安装了python(python 2.7 或者是python3) 具体的安装方法: 官方建议利用Anaconda安装Jupyter 安装完成Anaconda后,如果该Anaconda并不自带Jupyter Noterbook,那么,打开cmd,输入:conda install jupyter 可以使用pip install jupyter安装 0x01 更改Jupyter note…

ML学习笔记之LATEX数学公式基本语法

作者:@houkai本文为作者原创,转载请注明出处:https://www.cnblogs.com/houkai/p/3399646.html 0x00 概述 TEX 是Donald E. Knuth 编写的一个以排版文章及数学公式为目标的计算机程序.TEX的版本号不断趋近于π,现在为3.141592.由Pascal 语言写成,特点: 免费.输出质量高.擅长科技排版.有点像编程. LATEX 目前使用最广泛的TEX 宏集. 每一个LATEX 命令实际上最后都会被转换解释成几个甚至上百个TEX命令…

ML学习笔记之Anaconda中命令形式安装XGBoost(pip install)

0x00 概述在没有安装XGBoost之前,import xgboot会出错,如下: # ModuleNotFoundError: No module named ‘xgboost’ 0x01 安装xgboost 前提条件:windows环境下,anaconda(这里指的是Anaconda3)已安装,相应的numpy和sicpy已安装下面介绍最简单的安装方式: 打开Anaconda Prompt输入命令 : # pip install xgboost -i https://pypi.tuna…

ML学习笔记之XGBoost实现对鸢尾花数据集分类预测

import xgboost as xgb import numpy as np import pandas as pd from sklearn.model_selection import train_test_split if __name__ == '__main__': iris_feature_E = "sepal lenght", "sepal width", "petal length", "petal width&qu…

ROC曲线 ROC空间将偽陽性率(FPR)定義為 X 軸,真陽性率(TPR)定义为 Y 轴. TPR:在所有實際為陽性的樣本中,被正確地判斷為陽性之比率. FPR:在所有實際為阴性的样本中,被錯誤地判斷為陽性之比率. 給定一個二元分類模型和它的閾值,就能從所有樣本的(陽性/陰性)真實值和預測值計算出一個 (X=FPR, Y=TPR) 座標點. 從 (0, 0) 到 (1,1) 的對角線将ROC空间划分为左上/右下两个区域,在这条线的以上的点代表了一个好的分类结果(勝過隨機分類),而在这条线以下的…

ML&MLDS笔记：偏差 vs 方差

原文地址:https://www.jianshu.com/p/a02c6bd5d5e9 error来自哪?来自于偏差Bias和方差Variance. 就如打靶时瞄准一个点$\overline{f}$,打出的点$f^*$分布在该点周围.那么,$\overline{f}$与实际靶心$\hat{f}$的距离就是偏差Bias,打出的点$f^*$与$\overline{f}$的分布距离就是方差Variance. 可将偏差理解为没瞄准,方差理解为瞄准了但是打得太散. 简单模型的方差小…

Deep Learning--week1~week3

week1 一张图片,设像素为64*64, 颜色通道为红蓝绿三通道,则对应3个64*64实数矩阵为了用向量表示这些矩阵,将这些矩阵的像素值展开为一个向量x作为算法的输入从红色到绿色再到蓝色,依次按行一个个将元素读到向量x中,则x是一个$1\times64*64*3$的矩阵,也就是一个64*64*3维的向量用 $n_x = 64*64*3$ 表示特征向量x的维度而所有的训练样本表示成:\(X = \begin{bmatrix}\mid & \mid &\mid &&a…

机器学习（二）数据处理&相似/异性度量

机器学习(二)数据处理&相似/异性度量 https://woaielf.github.io/2017/03/17/dm-2/ 2017-03-17 ZOE 数据科学机器学习/数据挖掘 Notes: ★ 如果你是第一次阅读,推荐先浏览:[重要公告]文章更新.阅读规则.导图下载. ★ 目前文章更新主平台已迁移至公众号「数林觅风」,ID:zoemindmap,博客只在每月末集中更新一次.所有「PDF&高清原图」只需在公众号后台回复关键词或者直接从菜单栏进入即可下载. 本文是我的「ML&…

Spark.ML之PipeLine学习笔记

地址: http://spark.apache.org/docs/2.0.0/ml-pipeline.html Spark PipeLine 是基于DataFrames的高层的API,可以方便用户构建和调试机器学习流水线可以使得多个机器学习算法顺序执行,达到高效的数据处理的目的 DataFrame是来自Spark SQL的ML DataSet 可以存储一系列的数据类型,text,特征向量,Label和预测结果 Transformer:将DataFrame转化为另外一个DataFra…

斯坦福ML公开课笔记15—隐含语义索引、神秘值分解、独立成分分析

斯坦福ML公开课笔记15 我们在上一篇笔记中讲到了PCA(主成分分析). PCA是一种直接的降维方法.通过求解特征值与特征向量,并选取特征值较大的一些特征向量来达到降维的效果. 本文继续PCA的话题,包含PCA的一个应用--LSI(Latent Semantic Indexing, 隐含语义索引)和PCA的一个实现--SVD(Singular Value Decomposition,神秘值分解). 在SVD和LSI结束之后.关于PCA的内容就告一段落. 视频的后半段開始讲无监督学习的一种--IC…

【ML.NET 笔记】的更多相关文章

[ML学习笔记] XGBoost算法

[ML学习笔记] 朴素贝叶斯算法（Naive Bayesian)

[ML学习笔记] 决策树与随机森林（Decision Tree&Random Forest）

[ML学习笔记] 回归分析（Regression Analysis）

ml机器学习笔记

ML学习笔记之TF-IDF原理及使用

ML学习笔记- 神经网络

spark ml阅读笔记

ML学习笔记（1）

ML学习笔记之Jupyter Notebook各种使用方法

ML学习笔记之LATEX数学公式基本语法

ML学习笔记之Anaconda中命令形式安装XGBoost(pip install)

ML学习笔记之XGBoost实现对鸢尾花数据集分类预测

ML.NET 笔记

ML&MLDS笔记：偏差 vs 方差

Deep Learning--week1~week3

机器学习（二）数据处理&相似/异性度量

Spark.ML之PipeLine学习笔记

斯坦福ML公开课笔记15—隐含语义索引、神秘值分解、独立成分分析

[置顶] 生成学习算法、高斯判别分析、朴素贝叶斯、Laplace平滑——斯坦福ML公开课笔记5

[置顶] 最优间隔分类器、原始/对偶问题、SVM的对偶问题——斯坦福ML公开课笔记7

[置顶] NB多项式事件模型、神经网络、SVM之函数/几何间隔——斯坦福ML公开课笔记6

ML笔记_机器学习基石01

[ML]熵、KL散度、信息增益、互信息-学习笔记

（转载）[机器学习] Coursera ML笔记 - 监督学习（Supervised Learning） - Representation

机器学习框架ML.NET学习笔记【4】多元分类之手写数字识别

机器学习框架ML.NET学习笔记【3】文本特征分析

机器学习框架ML.NET学习笔记【2】入门之二元分类

机器学习框架ML.NET学习笔记【1】基本概念与系列文章目录

机器学习框架ML.NET学习笔记【5】多元分类之手写数字识别（续）