萌新笔记——Cardinality Estimation算法学习（一）（了解基数计算的基本概念及回顾求字符串中不重复元素的个数的问题）

【萌新笔记——Cardinality Estimation算法学习（一）（了解基数计算的基本概念及回顾求字符串中不重复元素的个数的问题）】的更多相关文章

萌新笔记——Cardinality Estimation算法学习（一）（了解基数计算的基本概念及回顾求字符串中不重复元素的个数的问题）

最近在菜鸟教程上自学redis.看到Redis HyperLogLog的时候,对"基数"以及其它一些没接触过(或者是忘了)的东西产生了好奇. 于是就去搜了"HyperLogLog",从而引出了Cardinality Estimation算法,以及学习它时参考的一些文章: http://blog.codinglabs.org/articles/algorithms-for-cardinality-estimation-part-i.html 从文章上看来,基数是指一个…

Cardinality Estimation算法学习（一）（了解基数计算的基本概念及回顾求字符串中不重复元素的个数的问题）

最近在菜鸟教程上自学redis.看到Redis HyperLogLog的时候,对“基数”以及其它一些没接触过(或者是忘了)的东西产生了好奇. 于是就去搜了“HyperLogLog”,从而引出了Cardinality Estimation算法,以及学习它时参考的一些文章: http://blog.codinglabs.org/articles/algorithms-for-cardinality-estimation-part-i.html 从文章上看来,基数是指一个集合(这里的集合允许存在重复元…

萌新笔记——Cardinality Estimation算法学习（二）（Linear Counting算法、最大似然估计(MLE)）

在上篇,我了解了基数的基本概念,现在进入Linear Counting算法的学习. 理解颇浅,还请大神指点! http://blog.codinglabs.org/articles/algorithms-for-cardinality-estimation-part-ii.html 它的基本处理方法和上篇中用bitmap统计的方法类似,但是最后要用到一个公式: 说明:m为bitmap总位数,u为0的个数,最后的结果为n的一个估计,且为最大似然估计(MLE). 那么问题来了,最大似然估计是什么东东…

萌新笔记——用KMP算法与Trie字典树实现屏蔽敏感词（UTF-8编码）

前几天写好了字典,又刚好重温了KMP算法,恰逢遇到朋友吐槽最近被和谐的词越来越多了,于是突发奇想,想要自己实现一下敏感词屏蔽. 基本敏感词的屏蔽说起来很简单,只要把字符串中的敏感词替换成"***"就可以了.对于子串的查找,就KMP算法就可以了.但是敏感词这么多,总不能一个一个地遍历看看里面有没有相应的词吧! 于是我想到了前几天写的字典树.如果把它改造一下,并KMP算法结合,似乎可以节约不少时间. 首先说明一下思路: 对于KMP算法,这里不过多阐述.对于敏感词库,如果把它存进字典树,并在…

Cardinality Estimation算法学习（二）（Linear Counting算法、最大似然估计(MLE)）

在上篇,我了解了基数的基本概念,现在进入Linear Counting算法的学习. 理解颇浅,还请大神指点! http://blog.codinglabs.org/articles/algorithms-for-cardinality-estimation-part-ii.html 它的基本处理方法和上篇中用bitmap统计的方法类似,但是最后要用到一个公式: 说明:m为bitmap总位数,u为0的个数,最后的结果为n的一个估计,且为最大似然估计(MLE). 那么问题来了,最大似然估计是什么东东…

算法练习之x的平方根,爬楼梯,删除排序链表中的重复元素, 合并两个有序数组

1.x的平方根 java (1)直接使用函数 class Solution { public int mySqrt(int x) { int rs = 0; rs = (int)Math.sqrt(x); return rs; } } (2)二分法对于一个非负数n,它的平方根不会小于大于(n/2+1). 在[0, n/2+1]这个范围内可以进行二分搜索,求出n的平方根. class Solution { public int mySqrt(int x) { long left=1,right=…

萌新笔记——C++里创建 Trie字典树（中文词典）（三）（联想）

萌新做词典第三篇,做得不好,还请指正,谢谢大佬! 今天把词典的联想做好了,也是比较low的,还改了之前的查询.遍历等代码. Orz 一样地先放上运行结果: test1 ID : char : 件 word : 编程软件 ID : char : 习 word : 编程学习 ID : char : 站 word : 编程学习网站 ID : char : 门 word : 编程入门 test2 ID : char : 练 word : 编程训练 ID : char : 门 word : 编程入门 I…

萌新笔记——C++里创建 Trie字典树（中文词典）（二）（插入、查找、导入、导出）

萌新做词典第二篇,做得不好,还请指正,谢谢大佬! 做好了插入与遍历功能之后,我发现最基本的查找功能没有实现,同时还希望能够把内存的数据存入文件保存下来,并可以从文件中导入词典.此外,数据的路径是存在配置文件中的.甚至,还想尝试类似自动补全的功能.当然了,是做一个比较low的补全,比如传入"编程",能够得到"软件"."学习"."学习网站"."入门"四个字符串.但是传入"编"不会得到&quo…

萌新笔记——C++里创建 Trie字典树（中文词典）（一）（插入、遍历）

萌新做词典第一篇,做得不好,还请指正,谢谢大佬! 写了一个词典,用到了Trie字典树. 写这个词典的目的,一个是为了压缩一些数据,另一个是为了尝试搜索提示,就像在谷歌搜索的时候,打出某个关键字,会提示一串可能要搜索的东西. 首先放上最终的结果: input: 编程入门编程软件编程学习编程学习网站 output: char : 件 word : 编程软件 char : 习 word : 编程学习 char : 网 word : 编程学习网 char : 门 word : 编程入门其实这里不…

萌新笔记之堆(heap)

前言(萌新感想): 以前用STL的queue啊stack啊priority_queue啊,一直很想懂原理,现在终于课上到了priority_queue,还有就是下周期中考,哈哈,所以写几篇blog总结一下. 这里萌新讲下堆这个好东西: 堆的定义: 如果搞过ACM的童鞋应该会使用STL的priority_queue,堆就是STL的priority_queue. 堆是一种特殊的队列,从堆中取元素的依据是元素优先权大小,而不是元素进入队的先后顺序: 直接切入主题吧: 堆最常用的结构是二叉树,一棵完全二…