MongoDB,HDFS, Spark to 电影推荐

http://www.infoq.com/cn/news/2014/12/mongdb-spark-movie-recommend

MovieWeb是一个电影相关的网站，它提供的功能包括搜索电影信息、排名或者电影明星资料等。它拥有10000部电影的信息，70000个用户，和超过1千万的电影评分。借用它的搜索目录，用户可以通过类型分类、排名和片名浏览等方式检索电影。但如何解决电影智能推荐的问题呢？近日MongoDB分享了他们结合Hadoop的经验。

MovieWeb基于Python。在构建电影推荐系统时，使用flask和PyMongo读取数据，应用Python网页应用浏览电影和评分推荐；使用Spark应用来运算处理实际的推荐，并用MLLib实现协同过滤；然后搜集电影评分的数据，并创建和训练数据模型，而后处理用户和电影的数据集，再反向应用训练过的模型来尝试预测电影排名。以上完成后，将预测结果写入MongoDB，接下来那些网页应用就可以将预测的排名展示出来，再收取新一轮的预测。其中用到的工具有Apache Hadoop 2.3.0（HDFS和YARN），Spark1.0和用于管理数据的MongoDB。

MovieWeb的工作流程：

以BSON的格式快速建立数据库；在HDFS中储存该BSON；将BSON读取到Spark应用中；用已有的排名评分训练模型；建立“用户—影片”对；为所有“用户—影片”对预测排名；将预测结果写入MongoDB采集库；网页应用展示推荐；每周重复一次以上工作。这不是一项MapReduce的工作，其代码量很少，加上引入语法基本上也只需要150行左右的代码。

Spark的环境建立和架构建立的执行语句如下：

$ export SPARK_JAR=spark-assembly-1.0.0-hadoop2.3.0.jar
$ Export HADOOP_CONF_DIR=/usr/local/Hadoop/etc/Hadoop
$ bin/spark-submit
 --master yarn-cluster
 --class com.mongodb.hadoop.demo.Recommender demo-1.0.jar
 --jars mongo-java-2.12.2.jar,mongo-hadoop-1.2.1.jar
 --driver-memory 1G
 --executor-memory 2G
 --num-executors 4

功能实现之后的推荐系统中，“您可能喜欢的影片”一栏，那些根据预测推荐的影片是基于用户正在浏览的影片的第一个所属类别。例如影片《非常嫌疑犯》，第一类别为“犯罪”，则浏览该片时所推荐的电影也都属于这一类别。当用户表现出需求时，系统就会自动为用户过滤类别，再将筛选出来的结果进入给用户的推荐广播之中。

MongoDB,HDFS, Spark to 电影推荐的更多相关文章

数据算法 --hadoop/spark数据处理技巧 --（9.基于内容的电影推荐 10. 使用马尔科夫模型的智能邮件营销）
九.基于内容的电影推荐在基于内容的推荐系统中,我们得到的关于内容的信息越多,算法就会越复杂(设计的变量更多),不过推荐也会更准确,更合理. 本次基于评分,提供一个3阶段的MR解决方案来实现电影推荐. ...
【大数据 Spark】利用电影观看记录数据,进行电影推荐
利用电影观看记录数据,进行电影推荐. 目录利用电影观看记录数据,进行电影推荐. 准备 1.任务描述: 2.数据下载 3.部分数据展示实操 1.设置输入输出路径 2.配置spark 3.读取Rati ...
基于Spark的电影推荐系统（推荐系统~7）
基于Spark的电影推荐系统(推荐系统~7) 22/100 发布文章 liuge36 第四部分-推荐系统-实时推荐本模块基于第4节得到的模型,开始为用户做实时推荐,推荐用户最有可能喜爱的5部电影. ...
基于Spark的电影推荐系统（推荐系统~1）
第四部分-推荐系统-项目介绍行业背景: 快速:Apache Spark以内存计算为核心通用 :一站式解决各个问题,ADHOC SQL查询,流计算,数据挖掘,图计算完整的生态圈只要掌握Spark ...
基于Spark的电影推荐系统（电影网站）
第一部分-电影网站: 软件架构: SpringBoot+Mybatis+JSP 项目描述:主要实现电影网站的展现和用户的所有动作的地方技术选型: 技术名称官网 Spring Boot 容器 ...
基于Spark的电影推荐系统（实战简介）
写在前面一直不知道这个专栏该如何开始写,思来想去,还是暂时把自己对这个项目的一些想法和大家分享的形式来展现.有什么问题,欢迎大家一起留言讨论. 这个项目的源代码是在https://github. ...
基于Spark的电影推荐系统（推荐系统~2）
第四部分-推荐系统-数据ETL 本模块完成数据清洗,并将清洗后的数据load到Hive数据表里面去前置准备: spark +hive vim $SPARK_HOME/conf/hive-site.x ...
基于Spark的电影推荐系统
数据文件: u.data(userid itemid rating timestamp) u.item(主要使用 movieid movietitle) 数据操作把u.data导入RDD, t ...
基于hadoop的电影推荐结果可视化
数据可视化 1.数据的分析与统计使用sql语句进行查询,获取所有数据的概述,包括电影数.电影类别数.人数.职业种类.点评数等. 2.构建数据可视化框架这里使用了前端框架Bootstrap进行前端的 ...

随机推荐

【Spark学习】Apache Spark for 第三方Hadoop分发版
Spark版本:1.1.1 本文系从官方文档翻译而来,转载请尊重译者的工作,注明以下链接: http://www.cnblogs.com/zhangningbo/p/4137979.html
NotePad++ delphi/Pascal函数过程列表插件
从cnpack上爬下来的函数过程列表点击下载
激活Windows 10
激活Windows 10按 win+X 组合键,打开“命令提示符(管理员)”,输入以下代码:slmgr /ipk NKJFK-GPHP7-G8C3J-P6JXR-HQRJR 然后按Enter键回车即 ...
Web Service学习之六：CXF解决无法处理的数据类型
CXF不能够处理像Map复杂的数据类型,需要单独转换处理. 总体思路:创建一个转换器和一个对应的可以处理的数据结构类型,将不能处理的类型转换成可以处理的类型: 步骤: 一.创建一个可以处理的类型举例 ...
POJ 1751 Highways （最小生成树）
Highways 题目链接: http://acm.hust.edu.cn/vjudge/contest/124434#problem/G Description The island nation ...
HDU 3072 Intelligence System （强连通分量）
Intelligence System Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Othe ...
一、Microsoft Dynamics CRM 4.0 SDK概述
Chapter 1. Microsoft Dynamics CRM 4.0 SDK Overview(SDK概述) You are probably reading this book because ...
DBMS_LOB
1．LOB背景在现在的系统开发中,需要存储的已不仅仅是简单的文字信息,也包括一些图片.音像资料或者超长的文本,这要求后台数据库具有存储这些数据的能力,Oracle通过提供LOB对象实现了该功能. 2 ...
Android内存优化（使用SparseArray和ArrayMap代替HashMap）
在Android开发时,我们使用的大部分都是Java的api,比如HashMap这个api,使用率非常高,但是对于Android这种对内存非常敏感的移动平台,很多时候使用一些java的api并不能达到 ...
【转】Android 实现ListView的滑动删除效果
http://www.cnblogs.com/weixiao870428/p/3524055.html http://download.csdn.net/download/love_javc_you/ ...

MongoDB,HDFS, Spark to 电影推荐

MongoDB,HDFS, Spark to 电影推荐的更多相关文章

随机推荐

热门专题