大数据热点问题TOP K

1单节点上的topK

（1）批量数据

　　数据结构：HashMap, PriorityQueue

　　步骤：（1）数据预处理：遍历整个数据集，hash表记录词频

　　　　　（2）构建最小堆：最小堆只存k个数据.

　　时间复杂度：O(n +n*lgk) = O(nlgk)

　　空间复杂度：O(|n|+k) (|n| = number of unique words)

　　lintcode原题：Top K Frequent Words

（2）流式数据

　　数据结构：TreeMap, HashMap

　　步骤：有新数据到来时，HashMap进行更新，在TreeMap中查找所更新的条目，如果存在，把旧的条目删除，加入更新后的条目；如果不存在，将该条目与TreeMap中最小的比较，小于该最小值就pass,大于该值则TreeMap删除最小值，插入新的条目。

　　lintcode原题：Top K Frequent Words II

2 多节点上的topK

场景一： 假设给一组10T文件，文件内容是10million用户，当天的微博搜索记录，求微博今日热搜？

思路：先分再合。

　　 a.切分成小文件

　　 b.小文件分发到不同的节点

　　　c. 每个节点计算自己的topK

　　 d.合并每个topK，计算总的TopK

　　　　切分方式：如果按照文件顺序切分，可能会导致一个词频很高的词被均匀分配到各个节点，导致它在各个节点的topK中无法胜出。正确的切分方式是用hash，相同的单词　　　　　　　　　　　　　　　　　　 hash值相同，同一个的hash值只由一个节点处理。这样就保证了相同的单词一定会发送到同一个节点，不会出现上面的问题。

　　　　可能出现的问题：一个词的词频过大，都发往一个节点导致该节点负荷过重。解决思路是：建立监测机制，当发现一个节点负荷很重，其他节点负荷很轻时，对该节点上的词　　　　　　　　　　　　　加一个后缀，然后进行二次hash，发往其他节点进行topK，完成后再把TopK的结果返回到当前的slave。

场景二：有N台机器，每台机器各自存储单词文件，求所有单词出现频率的topK。

思路：使用rehash，将相同的单词发送到同一个节点，再来计算每个节点的topK，最后再合。有点跟shuffle类似。

3 Realtime TopK with Low QPS

当新数据进来时，写入到disk还是hashMap?

（答：都不是。写入disk速度太慢，写入hashMap会导致内存不够，以及宕机时会导致数据丢失。应该写入database。)

之后每次database更新就触发treeMap进行更新。

4 Realtime TopK with High QPS

QPS高的时候，database的效率很低，会带来高延时。解决方案是将请求分散到各个节点，这样每个节点的QPS就会降低。如下图：

问题是，当一个词很热门时，仍然会出现一个节点上的QPS很高，带来高时延，如下图：

用户向master请求topK，master向slave1请求topK1，但是此时有新数据到达slave1，使得dataBase更新，进而会更新TreeMap，更新TreeMap时会锁住TreeMap，使得获取topK1的请求一直要waiting。

解决方案：（牺牲一定的精确性得到低延时）使用缓存。新数据每次存到缓存中，缓存隔一段时间会往database里面写，database更新的时候再来锁treeMap。这样treeMap被锁的频率就大大降低了。

5 Approx TopK Algorithm（近似TopK算法）

　　由于实际情况中可能总共有一百万个单词，其中只有一百个词是高频词，剩下的都是低频词。把这些低频词存储在hash表中很浪费空间，因此有一种近似topK方法来解决这个问题。

　　该算法中，我们可以手动指定hash表的大小，且hash表中的key是不再是单词，而是单词的hash值，value仍然是词频（只不过表示所有hash值为key的词的词频）。当新词到来时，更新hash表，并且认为这个词的词频就是hash表中对应的词频，基于此来更新treeMap。

　　可以看出，上面的过程中存在两种情况会导致错误：

　　（1）多个低频词映射到同一个hash值，导致这个hash值的value很大，进而错误的选择低频词作为topK。

　　分析：这种情况其实出现的概率比较低。通常是多个低频词的词频加起来还没有一个高频词的词频大，还要要求这些低频词hash值相同。因此这种情况可以不考虑。

　　（2）一个高频词映射到一个hash值，使得它的value很大，这时候又来一个低频词也映射到这个hash值。这种情况下会误认为这个低频词的词频也是那么大，进而会错误地把它选到topK里面。

　　分析：这种情况实际中很有可能发生。解决办法是使用Bloom Filter，即选用多个hash函数，然后选取这些hash函数中映射的最小词频作为这个新词的词频。如果这个新词真的是高频词，那么这个词频就接近真实值；如果是低频词，则这个最小值很有可能就很小。