【甘道夫】使用HIVE SQL实现推荐系统数据补全

需求

在推荐系统场景中，假设基础行为数据太少，或者过于稀疏，通过推荐算法计算得出的推荐结果非常可能达不到要求的数量。

比方，希望针对每一个item或user推荐20个item，可是通过计算仅仅得到8个。剩下的12个就须要补全。

欢迎转载，请注明出处：

http://blog.csdn.net/u010967382/article/details/39674047

策略

数据补全的详细策略是：

补全时机：在挖掘计算结束后，挖掘结果导入HBase（终于web系统从HBase取数据）前。进行数据补全，补全后的数据再导入HBase。（还有另外一个可选时机，在接到请求后再在程序中实现补全，但这种效率肯定没有直接从HBase中读数的高，所以空间换时间是更为合理的策略）；
实现技术：补全过程基于HIVE实现；
补全数据：測试过程使用当前浏览item同分类下近一段时间的浏览量TopN；
測试场景：本文仅针对“看了又看”进行数据补全实验。其他推荐需求类似。

实验过程

1.首先在Oracle下调试SQL

调试过程涉及两张表：

（1）TEST_TOPN：

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxMDk2NzM4Mg==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="">

该表中每行代表了一个item在某一天的訪问量。

（2）TEST_X_AND_X：

该表中每行代表了针对每个item的看了又看的item及其訪问量。

我们的目的。就是将该表补全，针对每一个current_item都要有5个看了又看的item。

比方，针对10001号item，须要从it分类下取得top2填补到该表中来。

Oracle中通过下面SQL成功实现该目的：

select * from

(select row_number() over(partition by current_item_category,current_item_id order by source,view_count desc) no,

current_item_id, current_item_category, andx_item_id, source, view_count from

( source, view_count

from test_x_and_x

union

select,b.view_count

from

(select current_item_id,current_item_category from test_x_and_x

group by current_item_id,current_item_category) a, test_topn b

where a.current_item_category = b.item_category

))

注意：当中的source列用于标识数据来自原始表还是TOPN，全部TOPN的表数据都排在原始表数据之后。

2. 将Oracle中的SQL语句移植到HIVE中

成功移植的HIVE SQL：

select * from

(select rank() over(partition by c.current_item_category,c.current_item_id order by c.source,c.view_count desc) no,

c.current_item_id, c.current_item_category, c.andx_item_id, c.source, c.view_count

from

(select current_item_id,current_item_category,andx_item_id,1 source,view_count

from test_x_and_x

union all

select a.current_item_id current_item_id,a.current_item_category current_item_category,b.item_id andx_item_id,2 source,b.view_count view_count

from

(select current_item_id,current_item_category from test_x_and_x

group by current_item_id,current_item_category) a, test_topn b

where a.current_item_category = b.item_category) c

) d where d.no <= 5;

运行结果和Oracle中全然一致：

移植过程中遇到一些坑。特此记录：

HIVE仅仅支持union all，不支持union。
union all的两张表。不仅要相应字段数据类型同样，字段名（可使用列别名）也必须全然同样；
每个嵌套子查询的结果集都必须使用表别名！

【甘道夫】使用HIVE SQL实现推荐系统数据补全的更多相关文章

【甘道夫】Hive 0.13.1 on Hadoop2.2.0 + Oracle10g部署详细解释
环境: hadoop2.2.0 hive0.13.1 Ubuntu 14.04 LTS java version "1.7.0_60" Oracle10g ***欢迎转载.请注明来 ...
【甘道夫】通过Mahout构建推荐系统--通过IDRescorer扩展评分规则
通过Mahout构建推荐系统时,假设我们须要添�某些过滤规则(比方:item的创建时间在一年以内),则须要用到IDRescorer接口,该接口源代码例如以下: package org.apache.m ...
【甘道夫】Win7x64环境下编译Apache Hadoop2.2.0的Eclipse小工具
目标: 编译Apache Hadoop2.2.0在win7x64环境下的Eclipse插件环境: win7x64家庭普通版 eclipse-jee-kepler-SR1-win32-x86_64.z ...
【甘道夫】MapReduce实现矩阵乘法--实现代码
之前写了一篇分析MapReduce实现矩阵乘法算法的文章: [甘道夫]Mapreduce实现矩阵乘法的算法思路为了让大家更直观的了解程序运行,今天编写了实现代码供大家參考. 编程环境: java v ...
【甘道夫】Sqoop1.99.3基础操作--导入Oracle的数据到HDFS
第一步:进入clientShell fulong@FBI008:~$ sqoop.sh client Sqoop home directory: /home/fulong/Sqoop/sqoop-1. ...
【甘道夫】HBase（0.96以上版本号）过滤器Filter具体解释及实例代码
说明: 本文參考官方Ref Guide,Developer API和众多博客.并结合实測代码编写.具体总结HBase的Filter功能,并附上每类Filter的对应代码实现. 本文尽量遵从Ref Gu ...
【甘道夫】HBase基本数据操作的详细说明【完整版，精绝】
介绍之前具体写了一篇HBase过滤器的文章.今天把基础的表和数据相关操作补上. 本文档參考最新(截止2014年7月16日)的官方Ref Guide.Developer API编写. 全部代码均基于& ...
【甘道夫】怎样在cdh5.2上执行mahout的itemcf on hadoop
环境: hadoop-2.5.0-cdh5.2.0 mahout-0.9-cdh5.2.0 步骤: 基本思路是,将mahout下的全部jar包都引入hadoop的classpath就可以,所以改动了$ ...
【甘道夫】Apache Hadoop 2.5.0-cdh5.2.0 HDFS Quotas 配额控制
前言 HDFS为管理员提供了针对文件夹的配额控制特性,能够控制名称配额(指定文件夹下的文件&文件夹总数),或者空间配额(占用磁盘空间的上限). 本文探究了HDFS的配额控制特性,记录了各类配额 ...

随机推荐

3. 表单输入框在 IE 中会有 “X” 和类似wifi图标的图标出现
原因: IE 自动给 input加了伪类 ::ms-clear 和 ::ms-reveal 解决: input::ms-clear, input::ms-reveal { display: none; ...
2015.8.3 Java
今天继续学习Java 用的是eclipse IDE 这个ide怪怪的,但是有一个很方便的功能就是通过右键选择source 可以点击Generate Getters and Setters生成属性的 ...
UIImage缩放
+(UIImage *)scaleImage: (UIImage *)image scaleFactor:(float)scaleFloat { CGSize size = CGSizeMake(im ...
Spring学习之Aop的各种增强方法
AspectJ允许使用注解用于定义切面.切入点和增强处理,而Spring框架则可以识别并根据这些注解来生成AOP代理.Spring只是使用了和AspectJ 5一样的注解,但并没有使用AspectJ的 ...
php内核一一次请求与结束
php开始到结束有两个阶段请求开始之间的初始化阶段请求之后的结束处理阶段开始阶段: 模块初始化模块激活模块初始化: 在整个SAPI生命周期内,只执行一次(apache服务器启动的 ...
Output in PowerShell
Reference article: https://rkeithhill.wordpress.com/2007/09/16/effective-powershell-item-7-understan ...
一个最简的 USB Audio 示例
经过了两三个月的痛苦,USB 协议栈的 Audio Device Class 框架已具雏形了,用了两三天时间,使用这个框架实战了一个基于新唐 M0 的最简单的 USB Audio 程序,可以作为 US ...
Qt多线程编程总结（二）——QMutex
QMutex类提供的是线程之间的访问顺序化. QMutex的目的是保护一个对象.数据结构或者代码段,所以同一时间只有一个线程可以访问它.(在Java术语中,它和同步关键字“synchronized”很 ...
Python经常使用第三方工具、库、骨架
Python ImagingLibrary(PIL):它提供强大的图形处理的能力,并提供广泛的图形文件格式支持.该库能进行图形格式的转换.打印和显示.还能进行一些图形效果的处理,如图形的放大.缩小和旋 ...
SQL执行效率总结
1.关于SQL查询效率,100w数据,查询只要1秒,与您分享: 机器情况 p4: 2.4 内存: 1 G os: windows 2003 数据库: ms sql server 2000 目的: 查询 ...

【甘道夫】使用HIVE SQL实现推荐系统数据补全

【甘道夫】使用HIVE SQL实现推荐系统数据补全的更多相关文章

随机推荐

热门专题