比如一个网站有1亿个用户, 现在要统计一周内连续登录的用户 方法: 可以用一个字节8个位表示7个人, 首位不算固定为0, 若某人周一登录则置为1, 没登录则为0 127.0.0.1:6379> set mon 01010100 OK 127.0.0.1:6379> set thu 01100101 OK 127.0.0.1:6379> ...... 127.0.0.1:6379> set sun 00010111 OK 127.0.0.1:6379> 使用 bitop ope
前言 本文用Python编写代码,并通过hadoop streaming框架运行. 算法思想 下图是一个网络: 考虑转移矩阵是一个很多的稀疏矩阵,我们可以用稀疏矩阵的形式表示,我们把web图中的每一个网页及其链出的网页作为一行,即用如下方式表示: 1 A B C D 2 B A D 3 C C 4 D B C Map阶段 在Map阶段,Map操作的每一行,对所有出链发射当前网页概率值的1/k,k是当前网页的出链数,比如对第一行输出<B,1/3*1/4>,<C,1/3*1/4>,&l
Common sense reduced to computation - Pierre-Simon, marquis de Laplace (1749–1827) Inventor of Bayesian inference 贝叶斯方法的逻辑十分接近人脑的思维:人脑的优势不是计算,在纯数值计算方面,可以说几十年前的计算器就已经超过人脑了. 人脑的核心能力在于推理,而记忆在推理中扮演了重要的角色,我们都是基于已知的常识来做出推理.贝叶斯推断也是如此,先验就是常识,在我们有了新的观测数据后,就可以