http://blog.csdn.net/pipisorry/article/details/48579435 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Leskovec courses学习笔记之链接分析:PageRank算法 链接分析与PageRank {大图分析the Analysis of Large Graphs} how the class fits together 图数据的例子 社交网络Social Networks(Facebook so…
http://blog.csdn.net/pipisorry/article/details/48443533 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Leskovec courses学习笔记之MapReduce {A programming system for easily implementing parallel algorithms on commodity clusters.} Distributed File Systems分布式文件系统…
http://blog.csdn.net/pipisorry/article/details/49686913 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Leskovec courses学习笔记 相似项的发现:局部敏感哈希(LSH, Locality-Sensitive Hashing) {博客内容:More about Locality-Sensitive Hashing:在海量数据挖掘MMDS week2: 局部敏感哈希Locality-Sensit…
http://blog.csdn.net/pipisorry/article/details/49052255 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Leskovec courses学习笔记之社交网络之社区检测:高级技巧-线性代数方法 Communities in Social Networks:  Intuitively, "communities" are sets of individuals in a network like Fa…
http://blog.csdn.net/pipisorry/article/details/48858661 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Leskovec courses学习笔记之 Locality-Sensitive Hashing(LSH) 局部敏感哈希 {This is the first half of discussion of a powerful technique for focusing search on things…
http://blog.csdn.net/pipisorry/article/details/49256457 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Leskovec courses学习笔记 推荐系统Recommendation System之隐语义模型latent semantic analysis {博客内容:推荐系统构建三大方法:基于内容的推荐content-based,协同过滤collaborative filtering,隐语义模型(LFM…
http://blog.csdn.net/pipisorry/article/details/49445519 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Leskovec courses学习笔记 大规模机器学习之MapReduce算法 {博客内容:MapReduce Algorithms.  how to design a good algorithm to run under MapReduce.  They also discuss the limi…
http://blog.csdn.net/pipisorry/article/details/49427989 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Leskovec courses学习笔记 推荐系统Recommendation System之隐语义模型latent semantic analysis {博客内容:Clustering.  The problem is to take large numbers of points and group…
http://blog.csdn.net/pipisorry/article/details/49052057 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Leskovec courses学习笔记之社交网络之社区检测:基本技巧-生成模型及其参数的梯度上升方法求解 Communities in Social Networks:  Intuitively, "communities" are sets of individuals in a netw…
http://blog.csdn.net/pipisorry/article/details/49742907 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Leskovec courses学习笔记 相似项的发现:面向高相似度的方法 {博客内容:More about Locality-Sensitive Hashing:当所能接受的相似度较低时,基于LSH的方法表现得更为有效.但当要找几乎相等的集合时,还存在一些更快的方法,并且这些方法是精准的,即它们会找到…
http://blog.csdn.net/pipisorry/article/details/49445465 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Leskovec courses学习笔记 大规模机器学习之决策树Decision Trees {博客内容:Decision Trees.  This is one of the oldest forms of machine-learning, but there are issues that com…
http://blog.csdn.net/pipisorry/article/details/49445387 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Leskovec courses学习笔记 大规模机器学习之支持向量机Support-Vector Machines,SVM {博客内容:the most powerful techniques available for large-scale machine learning.支持向量机主要应用于非线…
http://blog.csdn.net/pipisorry/article/details/49428053 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Leskovec courses学习笔记 计算广告Computational Advertising {博客内容:Computational Advertising.  The problem is to select ads to show with other information, typica…
http://blog.csdn.net/pipisorry/article/details/49231919 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Leskovec courses学习笔记 推荐系统Recommendation System之降维Dimensionality Reduction {博客内容:推荐系统有一种推荐称作隐语义模型(LFM, latent factor model)推荐,这种推荐将在下一篇博客中讲到.这篇博客主要讲隐语义模型…
http://blog.csdn.net/pipisorry/article/details/49205589 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Leskovec courses学习笔记 推荐系统Recommendation System {博客内容:推荐系统构建三大方法:基于内容的推荐content-based,协同过滤collaborative filtering,隐语义模型(LFM, latent factor model)推荐.这篇博客只…
http://blog.csdn.net/pipisorry/article/details/49183379 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Leskovec courses学习笔记之流算法Stream Algorithms Stream Algorithms:  "Streams" are data inputs to a system that arrive at a very high rate, typically too…
http://blog.csdn.net/pipisorry/article/details/48914067 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Leskovec courses学习笔记之关联规则Apriori算法的改进:非hash方法 - 大数据集下的频繁项集:挖掘随机采样算法.SON算法.Toivonen算法 Apriori算法的改进:大数据集下的频繁项集挖掘 1. 前面所讨论的频繁项都是在一次能处理的情况.如果数据量过大超过了主存的大小,这…
http://blog.csdn.net/pipisorry/article/details/48901217 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Leskovec courses学习笔记之关联规则Apriori算法的改进:基于hash的方法:PCY算法, Multistage算法, Multihash算法 Apriori算法的改进 {All these extensions to A-Priori have the goal of minimiz…
http://blog.csdn.net/pipisorry/article/details/48894977 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Leskovec courses学习笔记之association rules关联规则与频繁项集挖掘 {Frequent Itemsets: Often called "association rules," learn a number of techniques for finding it…
http://blog.csdn.net/pipisorry/article/details/48894963 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Leskovec courses学习笔记之Nearest-Neighbor Learning,KNN最近邻学习 {The module is about large scale machine learning.} Supervised Learning监督学习 Note: y有多种不同的形式,对应不同…
http://blog.csdn.net/pipisorry/article/details/48882167 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Leskovec courses学习笔记之局部敏感哈希LSH的距离度量方法 Distance Measures距离度量方法 {There are many other notions of similarity(beyond jaccard similarity) or distance and whi…
1. 前言 这系列的文章主要讲述2006年评出的数据挖掘10大算法(见图1).文章的重点将偏向于算法的来源以及算法的主要思想,不涉及具体的实现.如果发现文中有错,希望各位指出来,一起讨论. 图1 来自IDMer的文章 在这些算法中,最引人注目的自然是Google的核心技术之一——PageRank.因此本系列就先来探索PageRank的诞生过程. 2. 核心思想 常言道,看一个人怎样,看他有什么朋友就知道了.也就是说,一个人有着越多牛X朋友的人,他是牛X的概率就越大.将这个知识迁移到网页上就是“被…
网络信息的特点在于: Query: "IBM" --> "Computer" --> documentIDs. In degree i 正比于 1/iα ,  例如: α = 2.1 即:i越大,量越少. Query processing §  First retrieve all pages meeting the text query (say venture capital). §  Order these by their link popula…
刘  勇  Email:lyssym@sina.com 简介 鉴于在Web抓取服务和文本挖掘之句子向量中对权重值的计算需要,本文基于MapReduce计算模型实现了PageRank算法.为验证本文算法的有效性,本文采用177万余条源URL到目标URL链接的数据集,并迭代101次来展开测试,测试结果表明:对上述数据集进行测试,总计耗时40.29分钟.因此,在权重评定的算法设计与实现中引入该思想,具有较好的现实意义. 引言 在Web抓取服务中,由于采用多个定向爬虫对网页进行抓取,因此其面临2个重要问…
上一篇博客我们介绍了针对大数据量的处理,我们应该对程序做什么样的处理,但是一个程序的优化是有底线的,我们要考虑人力,物力,程序的优化是海量数据处理的一部分,这里介绍我们的重头戏,对数据库的优化! 这里我们将数据库的优化,分为三个大的方面: 一,设计之初优化 1,反范式思维 在数据库优化的方向上,没有什么范式是绝对的,我们要根据情况设计合理的表结构,一味地追求完美的三范式是一个错误且固执的想法! 举例:大家看看这两个考试记录表的设计区别: 分析: 我们看,哪个更符合三范式呢,明显是第二个,因为第一…
http://blog.csdn.net/pipisorry/article/details/54020333 Networks算法Algorithms 最短路径Shortest Paths shortest_path all_shortest_paths shortest_path_length average_shortest_path_length has_path Advanced Interface Dense Graphs A* Algorithm [Shortest Paths]…
感谢敖山.薛霄老师把我引进了统计学和现代服务业的大门.......至少是长见识了. 查相似项检索时发现的. 中间一部分资料来自厦门大学数据库实验室,感谢大牛们的传道授业,爱你们. 查资料时发现很多计算机相关(比如分布式.数据库)的研究生都曾经是数学系的学生. ppt是英文的,笔者做了简单翻译. 一.英语单词 subsidiary :附带的 Standard Deviation:标准差 outline:梗概,大纲 spam:垃圾邮件 extrac:提取 crap:废物,排泄物 objection:…
一.前沿 数据挖掘就是从大量的.不完全的.有噪声的.模糊的.随机的数据中,提取隐含在其中的.人们事先不知道的但又是潜在有用的信息和知识的过程.数据挖掘的任务是从数据集中发现模式,可以发现的模式有很多种,按功能可以分为两大类:预测性(Predictive)模式和描述性(Descriptive)模式.在应用中往往根据模式的实际作用细分为以下几种:分类,估值,预测,相关性分析,序列,时间序列,描述和可视化等. 数据挖掘涉及的学科领域和技术很多,有多种分类法.根据挖掘任务分,可分为分类或预测模型发现.数…
一.前 沿 数据挖掘就是从大量的.不完全的.有噪声的.模糊的.随机的数据中,提取隐含在其中的.人们事先不知道的但又是潜在有用的信息和知识的过程.数据挖掘的任务是从数据集中发现模式,可以发现的模式有很多种,按功能可以分为两大类:预测性(Predictive)模式和描述性(Descriptive)模式.在应用中往往根据模式的实际作用细分为以下几种:分类,估值,预测,相关性分析,序列,时间序列,描述和可视化等. 数据挖掘涉及的学科领域和技术很多,有多种分类法.根据挖掘任务分,可分为分类或预测模型发现.…
NO.1 Data Mining 和统计分析有什么不同? 硬要去区分Data Mining和Statistics的差异其实是没有太大意义的.一般将之定义为Data Mining技术的CART.CHAID或模糊计算等等理论方法,也都是由统计学者根据统计理论所发展衍生,换另一个角度看,Data Mining有相当大的比重是由高等统计学中的多变量分析所支撑.但是为什么Data Mining的出现会引发各领域的广泛注意呢?主要原因在相较于传统统计分析而言,Data Mining有下列几项特性: 1.处理…