1.离散信源的分类和数学模型 在离散时间发出离散符号的信源称为离散信源.如果信源符号集为有限集,则称为有限离散信源.如果信源符号集为无限可数集,则称为无限离散信源. 离散无记忆信源的N次拓展源:设信源为X,则由X构成的N维随机矢量集合XN = X1X2X3...XN(其中Xi与X同分布),称为信源X的N次扩展源. 2.离散无记忆信源的熵 2.1离散平稳信源   若具有有限符号集A={a1,a2,a3,...,an}的信源X产生的随机序列{xi},i=...1,2...且满足:对所有的i1,i2,…
关于categorical cross entropy 和 binary cross entropy的比较,差异一般体现在不同的分类(二分类.多分类等)任务目标,可以参考文章keras中两种交叉熵损失函数的探讨,其结合keras的API讨论了两者的计算原理和应用原理. 本文主要是介绍TF中的接口调用方式. 一.二分类交叉熵 对应的是网络输出单个节点,这个节点将被sigmoid处理,使用阈值分类为0或者1的问题.此类问题logits和labels必须具有相同的type和shape. 原理介绍 设x…
本文进入到数学建模七日谈第四天:数学模型分类浅谈 大家常常问道,数学模型到底有哪些,分别该怎么学习,这样能让我们的学习有的放矢,而不至于没了方向.我想告诉大家,现实生活中的问题有哪些类,数学模型就有哪些类,因为说到底,数学模型是用来解决实际问题的,解决那些当我们缺乏某一方面足够的经验时,定量化地依靠数字来解决问题的办法. 于是,们可以想想,在现实生活中,我们能够遇到哪些需要定量化解决的问题,而这些问题能否利用数学工具加以解决. 优化类问题:我们常常需要对某些行为进行决策,这些是我们可以控制的因素…
本篇代码可在 http://download.csdn.net/detail/fansy1990/8502323下载. 前篇<HotSpot关联规则算法(1)-- 挖掘离散型数据>分析了离散型数据的HotSpot关联规则,本篇分析离散型和连续型数据的HotSpot关联规则挖掘. 1. 首先看下数据格式(txt文档): @attribute outlook {sunny, overcast, rainy} @attribute temperature numeric @attribute hum…
数据的标准化 数据标准化就是将不同取值范围的数据,在保留各自数据相对大小顺序不变的情况下,整体映射到一个固定的区间中.根据具体的实现方法不同,有的时候会映射到 [ 0 ,1 ],有时映射到 0 附近的一个较小区间内. 这样做的目的是消除数据不同取值范围带来的干扰. 数据标准化的方法,我在这里介绍两种 min-max标准化 min-man 标准化会把结果映射到 0 与 1 之间,下面是映射的公式. min 是整个样本的最小值,max是整个样本的最大值 Z-score标准化 Z-score会把结果映…
一.文本表示 文本表示的意思是把字词处理成向量或矩阵,以便计算机能进行处理.文本表示是自然语言处理的开始环节. 文本表示按照细粒度划分,一般可分为字级别.词语级别和句子级别的文本表示.字级别(char level)的如把“邓紫棋实在太可爱了,我想养一只”这句话拆成一个个的字:{邓,紫,棋,实,在,太,可,爱,了,我,想,养,一,只},然后把每个字用一个向量表示,那么这句话就转化为了由14个向量组成的矩阵. 文本表示分为离散表示和分布式表示.离散表示的代表就是词袋模型,one-hot(也叫独热编码…
图像的正交变换在数字图像的处理与分析中起着很重要的作用,被广泛应用于图像增强.去噪.压缩编码等众多领域.本文手工实现了二维离散傅里叶变换和二维离散余弦变换算法,并在多个图像样本上进行测试,以探究二者的变换效果. 1. 傅里叶变换 实验原理 对一幅图像进行离散傅里叶变换(DFT),可以得到图像信号的傅里叶频谱.二维 DFT 的变换及逆变换公式如下: DFT 尽管解决了频域离散化的问题,但运算量太大.从公式中可以看到,有两个嵌套的求和符号,显然直接计算的复杂度为 \(O(n^2)\) .为了加快傅里…
起源:决策树切分数据集 决策树每次决策时,按照一定规则切分数据集,并将切分后的小数据集递归处理.这样的处理方式给了线性回归处理非线性数据一个启发. 能不能先将类似特征的数据切成一小部分,再将这一小部分放大处理,使用线性的方法增加准确率呢? Part I:  树的枝与叶 枝:二叉 or 多叉? 在AdaBoost的单决策树中,对于连续型数据构建决策树,我们采取步进阈值切分2段的方法.还有一种简化处理,即选择子数据集中的当前维度所有不同的值作为阈值切分. 而在CART里,大于阈值归为左孩子,小于阈值…
总体思路: 各种类型的机器学习分类 按照输出空间类型分Y 按照数据标记类型分yn 按照不同目标函数类型分f 按照不同的输入空间类型分X 按照输出空间类型Y,可以分为二元分类,多元分类,回归分析以及结构化学习等,这个好理解,离散的是分类,连续的是回归,到是结构化的学习接触的相对较少,以后有空可以关注下. 按照数据标记分可以分为: 监督: 非监督: 半监督: 增强学习: 下面这张ppt很好的总结了这点: 这是围绕标记yn的类型进行分类的, 监督和非监督很好理解,半监督和增强其实应用更加普遍,数据的标…
其实,之前就接触过随机森林,但仅仅是用来做分类和回归.最近,因为要实现一个idea,想到用随机森林做ensemble learning才具体的来看其理论知识.随机森林主要是用到决策树的理论,也就是用决策树来对特征进行选择.而在特征选择的过程中用到的是熵的概念,其主要实现算法有ID3和C4.5.下面我们先来看看决策树. 下面我们用一个例子具体的来说明 我们要选取一个最好的特征来判断是否贷款,上面给出了年龄,工作,房子,信贷四种特征.如果一种特征具有更好的分类能力,或者说,按照这一特征将训练数据集分…