Cardinality Estimation算法学习（二）（Linear Counting算法、最大似然估计(MLE)）

　　在上篇，我了解了基数的基本概念，现在进入Linear Counting算法的学习。理解颇浅，还请大神指点！

　　http://blog.codinglabs.org/articles/algorithms-for-cardinality-estimation-part-ii.html

　　它的基本处理方法和上篇中用bitmap统计的方法类似，但是最后要用到一个公式：

　　说明：m为bitmap总位数，u为0的个数，最后的结果为n的一个估计，且为最大似然估计（MLE）。

　　那么问题来了，最大似然估计是什么东东？好像在学概率论的时候听说过，于是又去搜索了一下MLE的信息。

MLE：（此处不使用概率论中的各种符号及表示方法，按我自己的理解写）

　　以下内容参考链接：http://blog.csdn.net/yanqingan/article/details/6125812

　　假设进行一个实验，实验次数定为10次，每次实验成功率为0.2，那么不成功的概率为0.8，用n来表示成功的次数。

　　事件之间是相互独立的，于是可以得到成功次数的概率：

成功次数	0	1	2	3	4	5	6	7	8	9	10
概率	0.107374	0.268435	0.301990	0.201327	0.088080	0.026424	0.005505	0.000786	0.000074	0.000004	0.000000

　　以上数据由下述程序计算：

 #include <stdio.h>

 #define N 10

 #define G 0.2

 int factorial(int n)

 {

     int i;

     int ret = ;

     for(i = ; i <= n; ++i)

     {

         ret *= i;

     }

     return ret;

 }

 double exponent(double m, int n)

 {

     int i;

     double ret = ;

     for(i = ; i < n; ++i)

     {

         ret *= m;

     }

     return ret;

 }

 double fun(int n)

 {

     return ((double)factorial(N) / factorial(n) / factorial(N - n) * exponent(G, n) * exponent( - G, N - n));

 }

 int main()

 {

     int i;

     for(i = ; i <= N; ++i)

     {

         printf("%f\t", fun(i));

     }

     printf("\n");

 }

　　用excel做出它的图表

　　而所谓概率密度，就是这一个个柱子的面积。公式如下：

　　所谓的最大似然估计，就是在已知成功次数n的情况下，求出每次实验成功率的最可能的值。

　　假设现已知成功次数为n=7，那么每次的成功概率ω可能是多少呢？

　　可以代入式子：

　　于是它成了P和ω的方程。

　　既然成功次数为7，那么假设n=7时，P有极大值，即求上述方程极大值。借助excel，画出它的方程曲线图：

　　即先求导，然后取导数的0点，即为最大可能概率：

　　但是这样做又不方便，又容易出错，于是可以借助对数来进行处理：

　　这样继续求解是不是方便多了呢？

　　现在回到Linear Counting算法（具体一开始头上带^的n是怎么推导的可以查看一下开关的链接，或者“A linear-time probabilistic counting algorithm for database applications”）

　　Linear Counting算法中，m是比n小的。我并不知道应该如何描述它，于是按个人的理解举个例子：

　　假设一个网站一天有n个不同的人访问，现设一m位的bitmap，将“不同的人”传入哈希函数，传出的结果填入bitmap（可能重复），最后用bitmap中的分布情况来估计n的值。

　　引用链接中的一个图：

　　每个圈代表一个人，然后用bitmap中的分布情况估计出圈的个数。

　　这样的估计是有误差的，所以应该对m的选择考虑一番。

结论：Linear Counting算法比直接用bitmap节约了常系数极的空间

Cardinality Estimation算法学习（二）（Linear Counting算法、最大似然估计(MLE)）的更多相关文章

萌新笔记——Cardinality Estimation算法学习（二）（Linear Counting算法、最大似然估计(MLE)）
在上篇,我了解了基数的基本概念,现在进入Linear Counting算法的学习. 理解颇浅,还请大神指点! http://blog.codinglabs.org/articles/algorithm ...
CRC16算法之二：CRC16-CCITT-XMODEM算法的java实现
CRC16算法系列文章: CRC16算法之一:CRC16-CCITT-FALSE算法的java实现 CRC16算法之二:CRC16-CCITT-XMODEM算法的java实现 CRC16算法之三:CR ...
JVM-GC算法（二）-复制算法&&标记整理算法
这次我和各位分享GC最后两种算法,复制算法以及标记/整理算法.上一篇在讲解标记/清除算法时已经提到过,这两种算法都是在此基础上演化而来的,究竟这两种算法优化了之前标记/清除算法的哪些问题呢? 复制算法 ...
数据结构与算法学习(二)——Master公式及其应用
本篇文章涉及公式,由于博客园没有很好的支持,建议移步我的CSDN博客和简书进行阅读. 1. Master公式是什么? 我们在解决算法问题时,经常会用到递归.递归在较难理解的同时,其算法的复杂度也不是很 ...
Opencv算法学习二
1.直方图:图片中像素值分布情况的坐标图. 直方图均衡化:按一定规律拉伸像素值,提高像素值少的点,增加原图的对比度,使人感觉更清晰的函数. equalizeHist( src, dst ); 2.ha ...
疯子的算法总结(二） STL Ⅰ 算法（ algorithm ）
写在前面: 为了能够使后续的代码具有高效简洁的特点,在这里讲一下STL,就不用自己写堆,写队列,但是做为ACMer不用学的很全面,我认为够用就好,我只写我用的比较多的. 什么是STL(STl内容): ...
五大常用算法之二：动态规划算法（DP）
一.基本概念动态规划过程是:每次决策依赖于当前状态,又随即引起状态的转移.一个决策序列就是在变化的状态中产生出来的,所以,这种多阶段最优化决策解决问题的过程就称为动态规划. 二.基本思想与策略基本 ...
四旋翼基础算法学习2-IMU输入滤波算法
前言: 处理器读取陀螺仪加速度计数据后首先需要对数据进行滤波处理,此文分析比较几种常用的滤波算法. 参考学习:四轴加速度计滤波 IMU: IMU使用MPU9250(即MPU6500),设置加速度量程± ...
数据结构&算法（二）_算法基础之前传（递归、时间复杂度、空间复杂度、二分查找）
什么是算法: 间而言之算法(Algorithm):一个计算过程,解决问题的方法递归的两个特点: 调用自身结束条件递归示例: def func(x): : print("我的小鲤鱼&qu ...

随机推荐

ubuntu14.04搭建ftp服务器
一,搭建匿名FTP服务器实现ftp匿名登录,上传,下载,重命名文件. 1. 首先安装vsftpd:sudo apt-get install vsftpd,装好之后,默认的ftp根目录是在 /srv/ ...
jxl获取excel中的合并的单元格(主要是方法介绍)
Range[] rangeCells = sheet.getMergedCells();// 返回sheet中合并的单元格数组 for (Range r : rangeCells) {//对数组遍历拿 ...
[redis] 数据特性简单实验
位图由bit位组成的数组,实际的底层数组类型是字符串,而字符串的本质是二进制大对象,所以将其视作位图,位图存储的是boolean指,一定程度上可以减少存储空间. -- 设置位图指定偏移量的比特位的值 ...
如何解决 “invalid resource directory name”, resource “crunch”
Ant and the ADT Plugin for Eclipse are packing the .apk file in a different build chain and temp gen ...
使用 json_serializable (flutter packages pub run build_runner build) 问题
命令: flutter packages pub run build_runner build 使用 build_runner 生成 .g.dart 文件 flutter packages pub r ...
UGUI优化总结
1.动静分离 canvas下元素变化时,会使整个canvas重新绘制.因此将ui经常改变和不怎么改变的部分分离,分别使用不同的canvas. 2.图集优化不同界面的ui,可以打包成不同的图集,一些公 ...
关于cg语言中求法向量 N=mul(worldMatrix_IT,normal); 的随笔
解释一下标题,N是变换到世界坐标后的法向量,worldMatrix_IT是变换矩阵worldMatrix的逆的转置矩阵,normal就是模型坐标的法向量. 对于点p,我们根据变换矩阵M(即worldM ...
java实现猴子选大王问题（约瑟夫问题）
题目:m只猴子围成一圈报数,报n的猴子自动离开,然后下一位重新从1开始报数,一直循环,最后剩下的那个猴子就是猴大王,写出程序求出最后是大王的那只猴子最初的位置. package learn; impo ...
013-PaymentUtils工具类模板
package ${enclosing_package}; import java.io.UnsupportedEncodingException; import java.security.Mess ...
转功能强大的shell：if条件语句
原文 http://blog.zol.com.cn/2322/article_2321767.html 功能强大的shell:if条件语句 if语句测试条件,测试条件返回真(0)或假(1)后,可相应执 ...

Cardinality Estimation算法学习（二）（Linear Counting算法、最大似然估计(MLE)）

Cardinality Estimation算法学习（二）（Linear Counting算法、最大似然估计(MLE)）的更多相关文章

随机推荐

热门专题