感谢敖山、薛霄老师把我引进了统计学和现代服务业的大门.......至少是长见识了。

  查相似项检索时发现的。

  中间一部分资料来自厦门大学数据库实验室,感谢大牛们的传道授业,爱你们。
  查资料时发现很多计算机相关(比如分布式、数据库)的研究生都曾经是数学系的学生。

  ppt是英文的,笔者做了简单翻译。

一.英语单词

  subsidiary :附带的

  Standard Deviation:标准差
  outline:梗概,大纲
  spam:垃圾邮件
  extrac:提取
  crap:废物,排泄物
  objection:反对
  vague:模糊的
  violate:违反,妨碍,亵渎
  suspicious:可疑的
  at length:详细地

  moral:道德上的,寓意,教训

二.课程大纲

  测虚假(bogus)数据。
  可视化(visualization):用图代替兆字节(Megabyte)的输出。

  Databases: concentrate on large-scale (non-main-memory) data.
  AI (machine-learning): concentrate on complex methods, small data.
  Statistics: concentrate on models.
  模型和过程分析:对数据库人员说,数据挖掘是过程分析的极端表现形式;对于统计学人员,数据挖掘是模型的推断(inference),结果是模型的参数。

  Given a billion numbers, a DB person would compute their average and standard deviation.A statistician might fit the billion points to the best Gaussian distribution and report the mean and standard deviation of that distribution.

2.1 课程大纲(一)  

  Map-Reduce and Hadoop.  

  Association rules, frequent itemsets.
  PageRank and related measures of importance on the Web (link analysis ).
  Spam detection.
  Topic-specific search.
  Recommendation systems.
  Collaborative filtering.

2.2 课程大纲(二)

  Finding similar sets.Minhashing, Locality-Sensitive hashing.
  Extracting structured data (relations) from the Web.
  Clustering data.
  Managing Web advertisements.
  Mining data streams.

  充满意义的回答。
  大数据挖掘的风险:可能发现毫无意义的模式。
  邦弗朗尼原理:如何避免统计假象。

2.3 邦弗朗尼原理

  斯坦福教授证明追踪恐怖分子是不可能的(我查资料发现介绍邦弗朗尼原理的书中都有这个例子)。

  在考察数据时,如果将某些对象视为数据的有趣特征,而这些对象中的许多都可能会在随机数据中出现,那么这些显著的特征就不可依赖。对于那些实际中并不充分罕见的特征来说,上述观察结果限制了从这些数据特征中进行挖掘的能力。

  邦弗朗尼校正(Bonferroni correction):在数据随机性假设的基础上,可以计算所寻找事件出现次数的期望值。如果该结果显著高于你所希望找到的真正实例的数目,那么可以预期,寻找到的几乎任何事物都是臆造的,也就是说,它们是在统计上出现的假象,而不是你所寻找事件的凭证。

  假设我们确信在某个地方有一群恶人,目标是把他们揪出来。再假定我们有理由相信,这些恶人会定期在某个宾馆聚会来商讨他们的作恶计划。为限定问题的规模,我们再给出如下假设:

  (1) 恶人数目可能有10亿;

  (2) 每个人每100天当中会有一天去宾馆;

  (3) 一个宾馆最多容纳100个人。因此,100 000个宾馆已足够容纳10亿人中的1%在某个给定的日子入住宾馆;

  (4) 我们将对1000天的宾馆入住记录进行核查。

  为了在上述数据中发现恶人的踪迹,我们可以找出那些在两个不同日子入住同一宾馆的人。但是假设并没有恶人,也就是说,给定某一天,对每个人来说,他们都是随机地确定是否去宾馆(概率为0.01),然后又是随机地从105个宾馆中选择一个。从上述数据中,我们能否推断出某两个人可能是恶人?

  接下来我们做个简单的近似计算。给定某天,任意两个人都决定去宾馆的概率为0.000 1,而他们入住同一宾馆的概率应该在0.000 1基础上除以105(宾馆的数量)。因此,在给定某天的情况下,两个人同时入住同一宾馆的概率是10 9。而在任意给定的不同的两个日子,两人入住同一宾馆的概率就是10 9的平方,即10 18。需要指出的是,上述推理中只需要两人两次中每次住的宾馆相同即可,并不需要两次都是同一家宾馆 。

  基于上述计算,我们必须要考虑到底事件出现多少次才意味着作恶事件的发生。上例中,"事件"的含义是指"两个人在两天中的每一天入住相同宾馆"。为简化数字运算,对于较大的n, 大概等于n2/2。下面我们都采用这个近似值。因此在109中的人员组对个数为 =5×1017,而在1000天内任意两天的组合个数为 =5×105。疑似作恶事件的期望数目应该是上述两者的乘积再乘上"两个人在两天中的每一天入住相同宾馆"的概率,结果为5 × 1017 × 5 × 105 × 10 18 = 250 000

  也就是说,大概有25万对人员看上去像恶人,即使他们根本不是。

  现在假定实际上只有10对人员是真正的恶人。警察局需要调查25万对人员来寻找他们。除了会侵犯近50万无辜人们的生活外,所需的工作量非常大,以至于上述做法几乎是不可行的。

寓意:Understanding Bonferroni’s Principle will help you look a little less stupid than a parapsychologist.

三.结束

  英文课件下载链接:http://download.csdn.net/detail/huoxingshiyilang/8694175
  参考文献:斯坦福网易公开课、51CTO读书频道

斯坦福数据挖掘Introduction的更多相关文章

  1. 2011斯坦福大学iOS应用开发教程学习笔记(第一课)MVC.and.Introduction.to.Objective-C

    blog.csdn.net/totogo2010/article/details/8205810  目录(?)[-] 第一课名称 MVC and Introduction to Objective-C ...

  2. 斯坦福大学自然语言处理第一课——引言(Introduction)

    一.课程介绍 斯坦福大学于2012年3月在Coursera启动了在线自然语言处理课程,由NLP领域大牛Dan Jurafsky 和 Chirs Manning教授授课:https://class.co ...

  3. Machine Learning Algorithms Study Notes(1)--Introduction

    Machine Learning Algorithms Study Notes 高雪松 @雪松Cedro Microsoft MVP 目 录 1    Introduction    1 1.1    ...

  4. [C0] 引言(Introduction)

    引言(Introduction) 欢迎(Welcome) 机器学习是目前信息技术中最激动人心的方向之一.在这门课中,你将学习到这门技术的前沿,并可以自己实现学习机器学习的算法. 你或许每天都在不知不觉 ...

  5. 【十大经典数据挖掘算法】AdaBoost

    [十大经典数据挖掘算法]系列 C4.5 K-Means SVM Apriori EM PageRank AdaBoost kNN Naïve Bayes CART 1. 集成学习 集成学习(ensem ...

  6. 【十大经典数据挖掘算法】SVM

    [十大经典数据挖掘算法]系列 C4.5 K-Means SVM Apriori EM PageRank AdaBoost kNN Naïve Bayes CART SVM(Support Vector ...

  7. 【十大经典数据挖掘算法】C4.5

    [十大经典数据挖掘算法]系列 C4.5 K-Means SVM Apriori EM PageRank AdaBoost kNN Naïve Bayes CART 1. 决策树模型与学习 决策树(de ...

  8. 【十大经典数据挖掘算法】k-means

    [十大经典数据挖掘算法]系列 C4.5 K-Means SVM Apriori EM PageRank AdaBoost kNN Naïve Bayes CART 1. 引言 k-means与kNN虽 ...

  9. 【十大经典数据挖掘算法】Apriori

    [十大经典数据挖掘算法]系列 C4.5 K-Means SVM Apriori EM PageRank AdaBoost kNN Naïve Bayes CART 1. 关联分析 关联分析是一类非常有 ...

随机推荐

  1. Spring(3.2.3) - Beans(7): 延迟实例化

    默认情况下,Spring IoC 容器启动后,在初始化过程中,会以单例模式创建并配置所有使用 singleton 定义的 Bean 的实例.通常情况下,提前实例化 Bean 是可取的,因为这样在配置中 ...

  2. Unity3D导出的EXE不用显示分辨率选择界面

    在导出游戏的时候,选择Build-setting ->Player-setting; 具体如图: resolution 是选分辨率和屏幕大小display resolution 选disable ...

  3. RESTful 服务架构风格 * .NET的RESTful框架 OpenRasta

    REST 的约束采用的就是掌控 Web 的基本原则.这些原则是: 用户代理与资源交互,任何可命名和表达的事物都可称为资源.每项资源都有一个唯一的统一资源标识符 (URI). 与资源的交互(通过其唯一的 ...

  4. 每天一道LeetCode--172. Factorial Trailing Zeroes

    Given an integer n, return the number of trailing zeroes in n!. Note: Your solution should be in log ...

  5. response小结(五)—通过response实现请求重定向

    请求重定向指的是一个web资源收到客户端请求后,通知客户端去访问另外一个web资源,这称之为请求重定向.302状态码和location头即可实现重定向. 请求重定向最常见的应用场景就是用户登录. 下面 ...

  6. 和阿文一起学H5——如何搜到超酷的GIF素材

    方法一: 1.条件搜索法 关键词 + gif 2.dribbble全球顶点设计师殿堂,里面有好多大师神作. https://dribbble.com/ 3.pinterest,号称灵感的春药的网站,收 ...

  7. asp.net php asp jsp 301重定向的代码

    介绍一下针对各类程序系统实施301重定向的代码: 1.Linux主机重定向 Godaddy的Liunx主机,Godaddy本身已经支持Apache,所以直接创建一个.htaccess文件就可以了,一般 ...

  8. Linux/centos/redhat下各种压缩解压缩方式详解

    1.zip命令 zip -r myfile.zip ./* 将当前目录下的所有文件和文件夹全部压缩成myfile.zip文件,-r表示递归压缩子目录下所有文件. 2.unzip unzip -o -d ...

  9. selenium Grid(一)

    selenium grid Quick Start selenium-grid是用于设计帮助我们进行分布式测试的工具,其整个结构是由一个hub节点和若干个代理节点组成.hub用来管理各个代理节点的注册 ...

  10. PHP学习笔记 - 进阶篇(5)

    PHP学习笔记 - 进阶篇(5) 正则表达式 什么叫正则表达式 正则表达式是对字符串进行操作的一种逻辑公式,就是用一些特定的字符组合成一个规则字符串,称之为正则匹配模式. $p = '/apple/' ...