贝叶斯决策_bayes(新闻分类)
1、简单例子引入
2、先验概率
3、后验概率
4、最小错误率决策
5、最小风险贝叶斯决策
1. 贝叶斯公式
2简单例子
正常情况下,我们可以快速的将街上的人分成男和女两类。这里街上的人就是我们观测到的样本,将每一个人分成男、女两类就是我们做决策的过程。上面的问题就是一个分类问题。
分类可以看作是一种决策,即我们根据观测对样本做出应归属哪一类的决策。
假定我手里握着一枚硬币,让你猜是多少钱的硬币,这其实就可以看作一个分类决策的问题:你需要从各种可能的硬币中做出一个决策。硬币假设面值有1角、5角、1块。
如果事先告知这枚硬币只可能是一角或者五角,那么问题就是一个两分类问题。
3.先验概率
先验概率的一些问题
4.后验概率
5.决策
7.例子
例 假设在某个局部地区细胞识别中正常和异常两类的先验概率分别为,
正常状态
![]()
现有一待识别的细胞,其观察值为x,从类条件概率密度分布曲线上查得
![]()
试对该细胞进行分类。
解:利用贝叶斯公式,分别计算两类后验概率
8.最小错误率决策
根据贝叶斯决策规则,因为
P(w1 | x) = 0.818 > P(w2 | x) = 0.182
所以,将 x 归类于正常状态。
假设有某个观测值 x,
•若 x 使得 P(w1|x) > P(w2|x),则我们自然会做出真实类别是 w1 的判决
•若 x 使 得 P(w2|x) > P(w1|x),则我们更倾向于选择w2
据此规则进行一次判决的错误概率:
显然,对于某个给定的x,采用上述规则可以使错误概率最小。
问题是,这一规则能够使得平均错误概率最小吗?
平均错误概率:
如果对于每个 x 我们都能保证P(error|x)尽量小,则上述积分值也必然最小
9.最小风险贝叶斯决策
前面给出的是在最小错误率的原则下得到的决策规则。但是,根据情况的不同,我们关心的有可能不仅仅是错误率,而是错误所带来的损失。把五角错认成一角与一角错认成五角所带来的损失是不同的。
在癌细胞识别中,如果将正常细胞误判为癌细胞,会给病人带来精神上的负担和不必要的进一步检查,这是一种损失或风险;反之如果把癌细胞细胞误判为正常细胞,则损失更大,这可能会导致病人丧失宝贵的早期发现癌症的机会,甚至会造成影响病人生命的严重后果。
将这两种错误一视同仁来对待,在很多情况下是不恰当的。
所谓最小风险贝叶斯决策,就是考虑各种错误造成损失不同时的一种最优决策。
基本思想:
使错误率最小并不一定是一个普遍适用的最佳选择。
癌细胞分类
两种错误:
癌细胞 –>正常细胞
正常细胞 –>癌细胞
两种错误的代价(损失)不同
宁可扩大一些总的错误率,但也要使总的损失减少。
引进一个与损失有关联的,更为广泛的概念——风险。
在作出决策时,要考虑所承担的风险。
基于最小风险的贝叶斯决策规则正是为了体现这一点而产生的。
10.贝叶斯决策理论的分类方法
优点:数据较少仍然有效,可以处理多类别问题。
缺点:对于输入数据的准备方式较为敏感。
应用:文档分类的常用算法。
代码实例
![]()
![]()
问题分析:
![]()
![]()
实例说明
统一文本形式
代码实现
构建词汇表-词典
词向量—词集、词袋模型
类概率
类条件概率密度
判断:
存在问题
类条件概率及先验概率结果
结果
实例——使用贝叶斯方法对邮件进行分类
正常数据
垃圾邮件数据
分类步骤
垃圾邮件分类

贝叶斯决策_bayes(新闻分类)的更多相关文章
- [Deep-Learning-with-Python]基于Kears的Reuters新闻分类
Reuters数据集下载速度慢,可以在我的repo库中找到下载,下载后放到~/.keras/datasets/目录下,即可正常运行. 构建神经网络将路透社新闻分类,一共有46个类别.因为有多个类别,属 ...
- 朴素贝叶斯算法——实现新闻分类(Sklearn实现)
1.朴素贝叶斯实现新闻分类的步骤 (1)提供文本文件,即数据集下载 (2)准备数据 将数据集划分为训练集和测试集:使用jieba模块进行分词,词频统计,停用词过滤,文本特征提取,将文本数据向量化 停用 ...
- 机器学习入门-贝叶斯中文新闻分类任务 1. .map(做标签数字替换) 2.CountVectorizer(词频向量映射) 3.TfidfVectorizer(TFDIF向量映射) 4.MultinomialNB()贝叶斯模型构建
1.map做一个标签的数字替换 2.vec = CountVectorizer(lowercase=False, max_features=4000) # 从sklean.extract_featu ...
- 我一直跑的分类LSTM模型原来是这一个,新闻分类网络
原始的github可以参考这里: https://github.com/FudanNLP/nlpcc2017_news_headline_categorization 我的经验文章可以参考这里: ht ...
- 使用Sklearn构建朴素贝叶斯分类器-新闻分类
# -*- coding: UTF-8 -*- import jieba import os import random from sklearn.naive_bayes import Multino ...
- 使用百度NLP接口对搜狐新闻做分类
一.简介 本文主要是要利用百度提供的NLP接口对搜狐的新闻做分类,百度对NLP接口有提供免费的额度可以拿来练习,主要是利用了NLP里面有个文章分类的功能,可以顺便测试看看百度NLP分类做的准不准.详细 ...
- windows定时执行百度新闻爬虫
想要做个新闻文本识别分类的项目,就先写了个爬取百度新闻的爬虫. 环境:win7 32 bit python3.4 若干第三方库 可以实现的功能:定期按照百度新闻的分类抓取新闻的标题,所属类别及文本内容 ...
- 使用jQuery Mobile实现新闻浏览器(3)
在本教程的前两篇文章中,笔者分别向大家介绍了使用jQuery Mobile框架如何去设计手机新闻浏览器,其中实现了一个WEB版本的新闻浏览器,在本教程的最后一篇中,将讲解如何将已实现的web版本的新闻 ...
- JQuery Mobile实现手机新闻浏览器(2)
在上一篇文章中,已经讨论了程序的结构和页面的布局,并简单介绍了一些jQuery Mobile的使用技巧.在本篇文章中,笔者将继续完成我们web应用的新闻浏览器的设计. 程序的启动 我们现在来研究一下程 ...
随机推荐
- centos7安装eclipse
centos7安装eclipse Eclipse是一个集成开发环境(IDE),包含一个基工作区和定制环境的可扩展插件系统.大部分使用 Java 编写,Eclipse 可以用来开发应用程序.通过各种插件 ...
- CF 445B DZY Loves Chemistry(并查集)
题目链接: 传送门 DZY Loves Chemistry time limit per test:1 second memory limit per test:256 megabytes D ...
- 【Alpha版本】 第十天 11.18
一.站立式会议照片: 二.项目燃尽图: 三.项目进展: 成 员 昨天完成任务 今天完成任务 明天要做任务 问题困难 心得体会 胡泽善 完成管理员的三大功能界面框架, 我要招聘查看报名者的列表显示 完成 ...
- Linux操作系统发展史
1984年,面对美国电话电报公司启动的UNIX商业化计划和程序开发的封闭模式,麻省理工学院的RichardM.Stallman发起了一项国际性的源代码开放的GNU(GNU's Not Unix)计划, ...
- paramiko模块使用
paramiko是一个用于做远程控制的模块,使用该模块可以对远程服务器进行命令或文件操作,fabric和ansible内部远程管理就是使用paramiko来实现. #!/usr/bin/env pyt ...
- Struts2入门-十分简单的登陆
Struts2是一个基于MVC设计模式的Web应用框架,它本质上相当于一个servlet,在MVC设计模式中,Struts2作为控制器(Controller)来建立模型与视图的数据交互. 开始编写St ...
- LDA(转发)
主题模型-LDA浅析 分类: 数据挖掘 机器学习2012-09-03 14:09 24937人阅读 评论(16) 收藏 举报 文档allocationsemanticeach算法网络 上个月参加了在北 ...
- 安装vim的ycm
环境centos 6.7 vim 7.3 安装vundle Vundle(Vim bundle)是一个Vim的插件管理器.它是把git操作整合进去,用户需要做的只是去GitHub上找到自己想要的插件的 ...
- js数组特定位置元素置空,非null和undefined,实现echarts现状图效果;谷歌格式化压缩js代码
一.想要实现eCharts线状图表的断点效果,如图(后来又查到数据格式为data:['-', 2, 3,'-' , 5, 6, 7]:也可以断点显示) 这种效果,在设置数据的时候应该是这样: data ...
- 《深入理解bootstrap》读书笔记:第三章 CSS布局
一. 概述一下理念 bootstrap基于H5开发.提倡移动先行(媒询声明是必须的),对浏览器支持面不是很广. 响应式图片:max-width:100% height:auto; 可以加上:.img- ...


















































