目录 1. 背景描述 2. 问题描述 3. 解决方案 1. 背景描述 目前在做音乐推荐项目,前期做排序模型优化,任务是使用模型对用户的历史音乐进行排序,有6800多万个用户,约40G的用户数据,使用HBase作为数据仓库. 利用HBase可以存储多个版本数据的特性,数据运算完后入库时,将用户id作为rowkey,songInfo:songid的值为歌曲id,使用自定义时间戳,将排序模型输出的歌曲得分(分值越高)作为时间戳.因为HBase数据存储默按照时间戳降序存储,这样只要取出用户的songIn