推荐系统之余弦相似度的Spark实现

（1）原理分析

余弦相似度度量是相似度度量中最常用的度量关系，从程序分析中，

第一步是数据的输入，
其次是使用相似性度量公式
最后是对不同用户的递归计算。

本例子是基于欧几里得举例的相似度计算。

（2）源代码

 package com.bigdata.demo

 import org.apache.spark.{SparkContext, SparkConf}

 /**

   * Created by SimonsZhao on 3/29/2017.

   */

 object CollaborativeFilteringSpark {

   //1.设置环境变量

   val conf=new SparkConf().setMaster("local").setAppName("CollaborativeFilteringSpark")

   //2.实例化环境

   val sc=new SparkContext(conf)

   //3.设置用户

   val users=sc.parallelize(Array("aaa","bbb","ccc","ddd","eee"))

   //4.设置电影名

   sc.parallelize(Array("smzdm","ylxb","znb","nhsc","fcwr"))

   //5.使用一个source嵌套map作为姓名电影名和分值的存储

   var source=Map[String,Map[String,Int]]()

   //6.设置一个用以存放电影分的map

   val filmSource =Map[String,Int]()

   //7.设置电影评分

   def getSource():Map[String,Map[String,Int]]={

     val user1FilmSource=Map("smzdm"->2,"ylxb"->3,"znb"->1,"nhsc"->0,"fcwr"->1)

     val user2FilmSource=Map("smzdm"->1,"ylxb"->2,"znb"->2,"nhsc"->1,"fcwr"->4)

     val user3FilmSource=Map("smzdm"->2,"ylxb"->1,"znb"->0,"nhsc"->1,"fcwr"->4)

     val user4FilmSource=Map("smzdm"->3,"ylxb"->2,"znb"->0,"nhsc"->5,"fcwr"->3)

     val user5FilmSource=Map("smzdm"->5,"ylxb"->3,"znb"->1,"nhsc"->1,"fcwr"->2)

     //存储人的名字

     source += ("aaa" -> user1FilmSource)

     //存储人的名字

     source += ("bbb" -> user2FilmSource)

     //存储人的名字

     source += ("ccc" -> user3FilmSource)

     //存储人的名字

     source += ("ddd" -> user4FilmSource)

     //存储人的名字

     source += ("eee" -> user5FilmSource)

     //返回嵌套的map

     source

   }

   //采用余弦相似度两两计算分值

   def getCollaborateSource(user1:String,user2:String):Double={

     //获得第一个用户的评分

       val user1FilmSource =source.get(user1).get.values.toVector

     //获得第二个用户的评分

       val user2FileSource=source.get(user2).get.values.toVector

     //对公示分子部分进行计算

       val member=user1FilmSource.zip(user2FileSource).map(d => d._1 *d._2).reduce(_+_).toDouble

     //求解分母的第一个变量

       val temp1=math.sqrt(user1FilmSource.map(num=>{math.pow(num,2)}).reduce(_+_))

     //求解分母第二个变量

       val temp2=math.sqrt(user2FileSource.map(num=>{math.pow(num,2)}).reduce(_+_))

     //求出分母

       val denominator=temp1*temp2

     //求出分式的值

       member/denominator

   }

   def main(args: Array[String]) {

     //初始化分数

     getSource()

     //设定目标对象

     val name="bbb"

     //进行迭代计算

     users.foreach(user=>{

       println(name+" 相对于"+user+"的相似性分数是："+getCollaborateSource(name,user))

     })

   }

 }

点击可复制代码

 package com.bigdata.demo

 import org.apache.spark.{SparkContext, SparkConf}

 /**

   * Created by SimonsZhao on 3/29/2017.

   */

 object CollaborativeFilteringSpark {

   //1.设置环境变量

   val conf=new SparkConf().setMaster("local").setAppName("CollaborativeFilteringSpark")

   //2.实例化环境

   val sc=new SparkContext(conf)

   //3.设置用户

   val users=sc.parallelize(Array("aaa","bbb","ccc","ddd","eee"))

   //4.设置电影名

   sc.parallelize(Array("smzdm","ylxb","znb","nhsc","fcwr"))

   //5.使用一个source嵌套map作为姓名电影名和分值的存储

   var source=Map[String,Map[String,Int]]()

   //6.设置一个用以存放电影分的map

   val filmSource =Map[String,Int]()

   //7.设置电影评分

   def getSource():Map[String,Map[String,Int]]={

     val user1FilmSource=Map("smzdm"->2,"ylxb"->3,"znb"->1,"nhsc"->0,"fcwr"->1)

     val user2FilmSource=Map("smzdm"->1,"ylxb"->2,"znb"->2,"nhsc"->1,"fcwr"->4)

     val user3FilmSource=Map("smzdm"->2,"ylxb"->1,"znb"->0,"nhsc"->1,"fcwr"->4)

     val user4FilmSource=Map("smzdm"->3,"ylxb"->2,"znb"->0,"nhsc"->5,"fcwr"->3)

     val user5FilmSource=Map("smzdm"->5,"ylxb"->3,"znb"->1,"nhsc"->1,"fcwr"->2)

     //存储人的名字

     source += ("aaa" -> user1FilmSource)

     //存储人的名字

     source += ("bbb" -> user2FilmSource)

     //存储人的名字

     source += ("ccc" -> user3FilmSource)

     //存储人的名字

     source += ("ddd" -> user4FilmSource)

     //存储人的名字

     source += ("eee" -> user5FilmSource)

     //返回嵌套的map

     source

   }

   //采用余弦相似度两两计算分值

   def getCollaborateSource(user1:String,user2:String):Double={

     //获得第一个用户的评分

       val user1FilmSource =source.get(user1).get.values.toVector

     //获得第二个用户的评分

       val user2FileSource=source.get(user2).get.values.toVector

     //对公示分子部分进行计算

       val member=user1FilmSource.zip(user2FileSource).map(d => d._1 *d._2).reduce(_+_).toDouble

     //求解分母的第一个变量

       val temp1=math.sqrt(user1FilmSource.map(num=>{math.pow(num,2)}).reduce(_+_))

     //求解分母第二个变量

       val temp2=math.sqrt(user2FileSource.map(num=>{math.pow(num,2)}).reduce(_+_))

     //求出分母

       val denominator=temp1*temp2

     //求出分式的值

       member/denominator

   }

   def main(args: Array[String]) {

     //初始化分数

     getSource()

     //设定目标对象

     val name="bbb"

     //进行迭代计算

     users.foreach(user=>{

       println(name+" 相对于"+user+"的相似性分数是："+getCollaborateSource(name,user))

     })

   }

 }

点击+可复制代码

（3）结果分析

随机推荐

MyBatis 与 Spring 是如何结合在一起工作的——mybatis-spring（version：1.2.2）
在MyBatis-Spring的项目中,我们一般会为MyBatis配置两个配置文件 beans-mybatis.xml 和 mybatis-config.xml.其中 beans-mybatis.xm ...
Ubuntu 14.04服务器安装及软件配置
1.安装操作系统,配置root账号,通过sudo设置root的密码如果使用ubuntu server 14.04,开启root需额外配置 1.开启root远程登录权限 sudo vi /etc/ss ...
eclipse中设置文件的编码格式为utf-8
1.可以在 eclipse 中配置 workspace 项下 text file encoding 属性的值来决定此工作区间下所有的 eclipse 项目的文档的编码属性. Window-->P ...
Lottie 动画库
强大的动画库,且同时支持 android.ios.react native 和 web http://airbnb.io/lottie/
my97date 时间范围限制
需求:根据开始时间,动态限制结束时间实现: <!DOCTYPE html> <html lang="en"> <head> <meta ...
SpringBoot（一）-- 知识点介绍
一.简介 Spring Boot是为了简化Spring应用的创建.运行.调试.部署等而出现的,使用它可以做到专注于Spring应用的开发,而无需过多关注XML的配置.简单来说,它提供了一堆依赖打包,并 ...
C#调用DLL报“试图加载格式不正确的程序”
项目右键属性->项目设计器->生成->平台->把'默认设置(任何 CPU)'改为x86或者x64
Android5.x新特性之 Toolbar和Theme的使用
Toolbar 你还在为Android 的ActionBar的文字不能随意设置位置而烦恼么?你还在为ActionBar不能自定义添加自己的布局而烦恼么?现在告诉你一个好消息,当你看到这篇文章时,就不必 ...
flask文件上传
#coding=utf-8 import os from flask import Flask from flask import request from flask import redirect ...
vc11(vs2012)下编译php源码
需要原料: vs2012.php源码 1.本机的mingw没搞定,参考网上文章尝试vs2012编译,借助vs2012自带的命令行工具: 需要去bison官网下载bison.exe放在“c:/windo ...

推荐系统之余弦相似度的Spark实现

推荐系统之余弦相似度的Spark实现

（1）原理分析

（2）源代码

（3）结果分析

推荐系统之余弦相似度的Spark实现的更多相关文章

随机推荐

热门专题