第一周:

学习PageRank,

知识点:每个节点的权值由其他节点的投票决定,所有节点的权值和为1

当节点很多时候必须转换成矩阵运算来计算节点的最终值,由马尔可夫链可以证明,这个值可以迭代得到

问题:可能出现无出度节点,导致总体失衡

解决办法:每个节点的入读权值矩阵M' = 0.8*M + 0.2*1/n,以0.2的概率跳出当前节点

第二周:

minhashing h(i) 随机排列后,一列数据的第一个不为1的下标

用普通hash替代每个minhashing(hash出每行每列,在移动行中,确定这一列的某hash的第一个下标)

LSH:使用hash应用到col,找出相似对

方法:把一列signature分成很多band,对每个band的r行进行hash,从而分到bucket。

这样有相似signature的列更容易分到同一个bucket中。

使用threshold t

Frequent Set:

从frequent items,筛选frequent pairs,再向其他扩展。

PCY:在第一次frequent items的时候,存储hash pair的count,满足count的bit个数为1否则为0

Simple: 随机取出Sample组判断frequent set

SON:顺序读取一部分,进行Simple,不会出现false negative

Toivonen :利用negative border防止丢失frequent set,如果有negative border被发现为frequent set,需要重新计算

negative border:所有直接子集都frequent

Week 2C Q1:参考这里,Total Memory Needed for the Triples = 3X = 3M(1+P/S) = T = (31/32)S,其中S=S/4(转换到integer)

第三周:

图,

使用Spectral Clustering on the Laplacian matrix来进行cluster,重要的点是找到second eigenvector(first is always 0,second is the eigenvalue second min)

stream:

DGIM(计算最近有多少个1):使用多个2^n组合而非bits来计数,在2^x有3个时,合并成2^(x+1),最大的2^n利用估算来统计

Sampling(取样本):将key hash到0-B-1数组,取h(key) <= t, t不断减小以丢弃存不下的Sample

Bloom Filter(过滤已经见过的):使用hash将key hash到n bucket也就是n bits,不会有false negative,但是又false positive

Flagolet-Martin lgorithm(计算不同值出现的次数):利用多个hash统计,得到每个hash的尾部0个数R,估算单个hash结果为2^R.将hash结果按照大小排列后分组计算平均值,对所有组的平均值取中位数。

week3 A q4

(defn ha [x] (rem (+ 7 (* 3 x)) 11))
(defn ham [coll] (map #(Integer/toBinaryString (ha %)) coll))

AMS(计算surprise number):随机取x个timestam,计算每个t位置元素到目前的出现次数m,X=n(2m-1),最终结果为所有t的X的平均数

第四周:Recommendation Systems

ContentBased:需要得到Item Profiles,可以由用户评分等得到,也可以由Content中抽取Feature来组成

Colaborating filter:对于用户根据item选出相关用户,推荐相关产品。或者对于item根据用户选出相关item,推荐给用户。

item要比用户关联度更高,因为item更单纯。

降维的方法,可以利用基向量表示高纬度数据,忽略不重要的基对应的数据

SVD:将矩阵解构(decomp-svd)成S U V三个矩阵,分别代表一些概念,可以相乘得到原矩阵

第五周:

cluster的方法:

Hierarchical Clustering,最好O(n^2*logn)

k-means:k为预选的中心点,多次循环调整中心点直到不再变化。可以用sample的HC选出来中心点个数。

BFR:要求正态分布,第一次获取:Discard Set,Compressed Set, Retained Set。第二次对RS进行HC,再将CS

Cure:第一次从Sample中选出相对最远的几个点做代表。第二次,根据代表来计算分布情况。

第六周:

SVD:找出最大margin的w向量(N维度需要N+1个点来support 这个分割线,这N+1个点叫做support vector),如果需要容忍错误,需要使用迭代的方式找到最优解

SVD的理解:从高维度里提取概念,通过概念将高维度合并到底维度。M= U sigma V^T

U 代表每个用户对应的合并后的分值

sigma 提取出来的概念

V^T 代表每一项与概念的相关程度

Decision Tree:生成各个节点的决策树,可以使用MapReduce

MapReduce可以解决矩阵相乘的问题

Massive Data Mining学习记录的更多相关文章

  1. Spring Data JPA 学习记录1 -- 单向1:N关联的一些问题

    开新坑 开新坑了(笑)....公司项目使用的是Spring Data JPA做持久化框架....学习了一段时间以后发现了一点值得注意的小问题.....与大家分享 主要是针对1:N单向关联产生的一系列问 ...

  2. 论文翻译:Data mining with big data

    原文: Wu X, Zhu X, Wu G Q, et al. Data mining with big data[J]. IEEE transactions on knowledge and dat ...

  3. Data Mining的十种分析方法——摘自《市场研究网络版》谢邦昌教授

    Data Mining的十种分析方法: 记忆基础推理法(Memory-Based Reasoning:MBR)        记忆基础推理法最主要的概念是用已知的案例(case)来预测未来案例的一些属 ...

  4. 搭建Data Mining环境(Spark版本)

    前言:工欲善其事,必先利其器.倘若不懂得构建一套大数据挖掘环境,何来谈Data Mining!何来领悟“Data Mining Engineer”中的工程二字!也仅仅是在做数据分析相关的事罢了!此文来 ...

  5. [Django]模型学习记录篇--基础

    模型学习记录篇,仅仅自己学习时做的记录!!! 实现模型变更的三个步骤: 修改你的模型(在models.py文件中). 运行python manage.py makemigrations ,为这些修改创 ...

  6. Matlab 进阶学习记录

    最近在看 Faster RCNN的Matlab code,发现很多matlab技巧,在此记录: 1. conf_proposal  =  proposal_config('image_means', ...

  7. 在Ubuntu Server下搭建LAMP环境学习记录

    更新于2015/6/16日,因图片地址失效,请在此地址查看:http://note.youdao.com/share/?id=1c249ae6dc6150cbf692adec67b23a33& ...

  8. Weka 3: Data Mining Software in Java

    官方网站: Weka 3: Data Mining Software in Java 相关使用方法博客 WEKA使用教程(经典教程转载) (实例数据:bank-data.csv) Weka初步一.二. ...

  9. 【转】BLE 学习记录

    原文网址:http://m.blog.csdn.net/blog/chiooo/43985401 BLE 学习记录 ANROID BLE 开发,基于 bluetoothlegatt 分析 mBluet ...

随机推荐

  1. vue slot的使用介绍

    插槽:slot (不知道我这样理解是不是对的,欢迎大佬指点) 具体是什么样子的,请看例子说明 父组件代码 子组件代码 结果 可以看到 ,结果是父组件里面内容显示了,子组件内容显示了,但是在父组件中插入 ...

  2. 用element-ui的走马灯carousel轻松实现自适应全屏banner图

    写在前面:网站轮播图建议使用swiper组件,非常方便快捷.vue轮播图插件之vue-awesome-swiper 接手一个项目,轮播图是用element-ui的carousel实现的,看起来效果还不 ...

  3. 商业研究(21):活力蛙,足疗O2O,曾经的“中国上门足疗领先品牌”

    友情提示:商业研究系列文章,只探讨项目和相关项目的商业本身,不针对任何人和任何组织!!! 2015年,在京东-东家 股权众筹平台,参与投资了足疗O2O项目,活力蛙.     后来由于,股市大跌和资本寒 ...

  4. Webdriver元素定位1

    元素的定位应该是自动化测试的核心,要想操作一个元素,首先应该识别这个元素. webdriver提供了一系列的元素定位方法,常用的有以下几种: id name class name tag link t ...

  5. input输入框的readonly属性-----http://www.w3school.com.cn/tags/tag_input.asp

    http://www.w3school.com.cn/tags/tag_input.asp input输入框的readonly属性 查询方法: 1.先找官方的文档,api 2.官方的有看不懂的再百度相 ...

  6. sql 日期问题从周转换到日期

    alter procedure p_date@year int=2005,    --年份@week int=33,    --第几周@firstday datetime =null output,  ...

  7. [bzoj1500][NOI2005]维修数列[Treap][可持久化Treap]

    非旋转式Treap1500 :) #include <bits/stdc++.h> #pragma GCC optimize(3) using namespace std; const i ...

  8. 【NOIP2016】蚯蚓(单调队列)

    题意: 思路: 我们发现,对于任意两次切割i和j,i<j,在进行完第j次切割后,第i次切割的u/v部分一定大于等于第j次切割的u/v部分,第i次的1-u/v部分也一定大于等于第j次的1-u/v部 ...

  9. 输入一个URL之后。。。

    1.输入URL2.浏览器去浏览器缓存.系统缓存.路由器缓存查找缓存记录,有则直接访问URL对应的IP,无则下一步3.DNS解析URL,获得对应的IP4.浏览器通过TCP/IP三次握手连接服务器5.客户 ...

  10. searchIndexer.exe占用过高CPU

    1.searchIndexer.exe占用过高CPU很可能是Windows的索引损坏造成的. 这时候只要进入控制面板—索引选项—高级—重建即可解决 2. net stop "windows ...