Python数据科学手册-机器学习：朴素贝叶斯分类

llcl 2024-09-18 06:35:32 原文

朴素贝叶斯模型

朴素贝叶斯模型是一组非常简单快速的分类方法，通常适用于维度非常高的数据集。因为运行速度快，可调参数少。是一个快速粗糙的分类基本方案。

naive Bayes classifiers

贝叶斯分类

朴素贝叶斯分类器建立在贝叶斯分类方法的基础上。数学基础是贝叶斯定理。一个描述统计量条件概率关系的公式。

在贝叶斯分类中，我们希望确定一个具有某些特征的样本属于某类标签的概率。通常记为 P(L|特征)

需要确定俩种标签，定义为L1和L2. 计算俩个标签的后验概率的比值

现在需要一种模型。帮我们计算每个标签的P(特征|Li).这种模型被称为生成模型。

因为它可以训练处生成输入数据的假设随机过程（概率分布）

为每中标签设置生成模型是贝叶斯分类器训练过程的主要部分。

之所以称为朴素。是因为如果对每种标签的生成模型进行非常简单的假设，就能找到每种类型生成模型的近似解，然后就可以使用贝叶斯分类。

不同类型的朴素贝叶斯分类器是有对数据的不同假设决定的。

高斯朴素贝叶斯

Gaussian naive Bayes 。假设每个标签的数据都服从简单的高斯分布。

原始数据如下：

假设数据服从高斯分布，且变量无协方差（线性无关）

只需要找出每个标签的所有样本点均值和标准差。再定义一个高斯分布。就可以拟合模型了。

每个椭圆曲线表示每个标签的高斯生成模型。越靠近椭圆中心的可能性越大。

通过每种类型的生成模型，可以计算出任意数据点的似然估计 P (特征|L1) 。

然后根据贝叶斯定理计算出后验概率比值，从而确定每个数据点可能性最大的标签。

评估器 GaussianNB实现：

预测标签：

可以在分类结果中看到一条稍显弯曲的边界

通常：高斯朴素贝叶斯的边界是二次方曲线。

多项式朴素贝叶斯

假设特征是由一个简单多项式分布生成的。多项分布式可以描述各种类型样本出现次数的概率。

文本分类

特征：分类文本的单词出现次数。

执行了15分钟。。。淦。

选择四类新闻，下载训练集和测试集

看其中一篇新闻：

为了让这些数据能用于机器学习，需要将每个字符串的内容转换成数值向量。

将模型应用到训练数据上。

用混淆矩阵统计结果。

Python数据科学手册-机器学习：朴素贝叶斯分类的更多相关文章

Python数据科学手册-机器学习介绍
机器学习分为俩类: 有监督学习 supervised learning 和无监督学习 unsupervised learning 有监督学习: 对数据的若干特征与若干标签之间的关联性进行建模的过 ...
Python数据科学手册-机器学习：线性回归
朴素贝叶斯是解决分类任务的好起点,线性回归是解决回归任务的好起点. 简单线性回归将数据拟合成一条直线. y = ax + b , a 是斜率, b是直线截距原始数据如下: 使用LinearRegr ...
Python数据科学手册-机器学习: k-means聚类/高斯混合模型
前面学习的无监督学习模型:降维另一种无监督学习模型:聚类算法. 聚类算法直接冲数据的内在性质中学习最优的划分结果或者确定离散标签类型. 最简单最容易理解的聚类算法可能是 k-means聚类算法了. ...
Python数据科学手册-机器学习: 流形学习
PCA对非线性的数据集处理效果不太好. 另一种方法流形学习 manifold learning 是一种无监督评估器,试图将一个低维度流形嵌入到一个高纬度空间来描述数据集 . 类似一张纸 (二维) ...
Python数据科学手册-机器学习: 主成分分析
PCA principal component analysis 主成分分析是一个快速灵活的数据降维无监督方法, 可视化一个包含200个数据点的二维数据集 x 和 y有线性关系,无监督学习希望探索x值 ...
Python数据科学手册-机器学习: 决策树与随机森林
无参数算法随机森林随机森林是一种集成方法,集成多个比较简单的评估器形成累计效果. 导入标准程序库随机森林的诱因: 决策树随机森林是建立在决策树基础上的集成学习器建一颗决策树二叉决策树 ...
Python数据科学手册-机器学习: 支持向量机
support vector machine SVM 是非常强大. 灵活的有监督学习算法, 可以用于分类和回归. 贝叶斯分类器,对每个类进行了随机分布的假设,用生成的模型估计新数据点的标签.是属于 ...
Python数据科学手册-机器学习之特征工程
特征工程常见示例: 分类数据.文本.图像. 还有提高模型复杂度的衍生特征和处理缺失数据的填充方法.这个过程被叫做向量化.把任意格式的数据转换成具有良好特性的向量形式. 分类特征比如房屋数 ...
Python数据科学手册-机器学习之模型验证
模型验证 model validation 就是在选择模型和超参数之后.通过对训练数据进行学习.对比模型对已知数据的预测值和实际值的差异. 错误的模型验证方法. 用同一套数据训练和评 ...

随机推荐

Markdown第一次学习
# # Markdown学习一级标题: #空格+标题名称+回车得到一级标题 ## 二级标题一级标题方法中变成两个##号 ### 三级标题变成三个###号,以此类推,最多到六级标题 ## 字体 h ...
NC16746 神奇盘子
NC16746 神奇盘子题目题目描述有一个神奇的盘子,形状为圆形.盘子上面爬着一个大象(视作一个点).由于现实的扭曲,当大象在盘子某个直径的一端的时候,可以瞬间传送至直径的另一端.现在大象想去盘 ...
js导入excel&导出excel
Excel导入 html代码 <button style={{ color: '#1890ff', fontSize: '14px', cursor: 'pointer' }} onClick= ...
优化对称加密的 shell 脚本
前言之前一篇文章<shell 脚本实现文件对称加密>中,讲述了如何用 shell 脚本实现对称加密. 之后写管理密码脚本时,发觉该脚本的处理速度非常慢,而其原因就在 shell 的处理命 ...
CTO与CIO选型数据中台的几大建议
企业数字化转型离不开企业数字化技术的配备.但企业在选择数字化技术时也面临着一个问题,就是如何在大胆采用先进的数字化技术和对技术进行投资之间找到平衡,将投资风险降到最低,毕竟错误的技术选型会给企业带来不 ...
零基础学Java（9）在mac上运行命令行提示"找不到或无法加载主类"
天坑遇到的问题:使用命令行执行命令:java EightSample,会报以下错误错误: 找不到或无法加载主类 EightSample 运行环境 mac系统 IntelliJ IDEA编译器 Ja ...
Techempower web框架性能测试第21轮结果发布--asp.net core继续前进
废话不说,直接上结果: Round 21 results - TechEmpower Framework Benchmarks Techempower benchmark是包含范围最广泛的web框架性 ...
mysql 存储过程和触发器
存储过程 -- 声明结束符 -- 创建存储过程 DELIMITER $ -- 声明存储过程的结束符 CREATE PROCEDURE pro_test() --存储过程名称(参数列表) BEGIN - ...
mysql常见用法
查看连接数show processlist; 查看慢日志 show variables like '%slow_query_log%'; show variables like 'long_query ...
Python3的单元测试模块Mock与性能测试模块CProfile
原文转载自「刘悦的技术博客」https://v3u.cn/a_id_92 我们知道写完了代码需要自己跑一跑进行测试,一个写好的程序如果连测试都没有就上到生产环境是不敢想象的,这么做的人不是太自信就是太 ...