原创文章,转载请注明出处: http://blog.csdn.net/chengcheng1394/article/details/78820529

请安装TensorFlow1.0,Python3.5 
项目地址: 
https://github.com/chengstone/movie_recommender

https://github.com/songgc/TF-recomm

前言

本项目使用文本卷积神经网络,并使用MovieLens数据集完成电影推荐的任务。 
推荐系统在日常的网络应用中无处不在,比如网上购物、网上买书、新闻app、社交网络、音乐网站、电影网站等等等等,有人的地方就有推荐。根据个人的喜好,相同喜好人群的习惯等信息进行个性化的内容推荐。比如打开新闻类的app,因为有了个性化的内容,每个人看到的新闻首页都是不一样的。 
这当然是很有用的,在信息爆炸的今天,获取信息的途径和方式多种多样,人们花费时间最多的不再是去哪获取信息,而是要在众多的信息中寻找自己感兴趣的,这就是信息超载问题。为了解决这个问题,推荐系统应运而生。 
协同过滤是推荐系统应用较广泛的技术,该方法搜集用户的历史记录、个人喜好等信息,计算与其他用户的相似度,利用相似用户的评价来预测目标用户对特定项目的喜好程度。优点是会给用户推荐未浏览过的项目,缺点呢,对于新用户来说,没有任何与商品的交互记录和个人喜好等信息,存在冷启动问题,导致模型无法找到相似的用户或商品。 
为了解决冷启动的问题,通常的做法是对于刚注册的用户,要求用户先选择自己感兴趣的话题、群组、商品、性格、喜欢的音乐类型等信息,比如豆瓣FM: 

先来看看数据

本项目使用的是MovieLens 1M 数据集,包含6000个用户在近4000部电影上的1亿条评论。 
数据集分为三个文件:用户数据users.dat,电影数据movies.dat和评分数据ratings.dat。

用户数据

分别有用户ID、性别、年龄、职业ID和邮编等字段。

数据中的格式:UserID::Gender::Age::Occupation::Zip-code

  • Gender is denoted by a “M” for male and “F” for female
  • Age is chosen from the following ranges:

    • 1: “Under 18”
    • 18: “18-24”
    • 25: “25-34”
    • 35: “35-44”
    • 45: “45-49”
    • 50: “50-55”
    • 56: “56+”
  • Occupation is chosen from the following choices:

    • 0: “other” or not specified
    • 1: “academic/educator”
    • 2: “artist”
    • 3: “clerical/admin”
    • 4: “college/grad student”
    • 5: “customer service”
    • 6: “doctor/health care”
    • 7: “executive/managerial”
    • 8: “farmer”
    • 9: “homemaker”
    • 10: “K-12 student”
    • 11: “lawyer”
    • 12: “programmer”
    • 13: “retired”
    • 14: “sales/marketing”
    • 15: “scientist”
    • 16: “self-employed”
    • 17: “technician/engineer”
    • 18: “tradesman/craftsman”
    • 19: “unemployed”
    • 20: “writer” 

      其中UserID、Gender、Age和Occupation都是类别字段,其中邮编字段是我们不使用的。

电影数据

分别有电影ID、电影名和电影风格等字段。

数据中的格式:MovieID::Title::Genres

  • Titles are identical to titles provided by the IMDB (including 
    year of release)
  • Genres are pipe-separated and are selected from the following genres:

    • Action
    • Adventure
    • Animation
    • Children’s
    • Comedy
    • Crime
    • Documentary
    • Drama
    • Fantasy
    • Film-Noir
    • Horror
    • Musical
    • Mystery
    • Romance
    • Sci-Fi
    • Thriller
    • War
    • Western 

      MovieID是类别字段,Title是文本,Genres也是类别字段

评分数据

分别有用户ID、电影ID、评分和时间戳等字段。

数据中的格式:UserID::MovieID::Rating::Timestamp

  • UserIDs range between 1 and 6040
  • MovieIDs range between 1 and 3952
  • Ratings are made on a 5-star scale (whole-star ratings only)
  • Timestamp is represented in seconds since the epoch as returned by time(2)
  • Each user has at least 20 ratings 
     
    评分字段Rating就是我们要学习的targets,时间戳字段我们不使用。

说说数据预处理

  • UserID、Occupation和MovieID不用变。
  • Gender字段:需要将‘F’和‘M’转换成0和1。
  • Age字段:要转成7个连续数字0~6。
  • Genres字段:是分类字段,要转成数字。首先将Genres中的类别转成字符串到数字的字典,然后再将每个电影的Genres字段转成数字列表,因为有些电影是多个Genres的组合。
  • Title字段:处理方式跟Genres字段一样,首先创建文本到数字的字典,然后将Title中的描述转成数字的列表。另外Title中的年份也需要去掉。
  • Genres和Title字段需要将长度统一,这样在神经网络中方便处理。空白部分用‘< PAD >’对应的数字填充。

数据预处理的代码可以在项目中找到:load_data函数

模型设计


通过研究数据集中的字段类型,我们发现有一些是类别字段,通常的处理是将这些字段转成one hot编码,但是像UserID、MovieID这样的字段就会变成非常的稀疏,输入的维度急剧膨胀,这是我们不愿意见到的,毕竟我这小笔记本不像大厂动辄能处理数以亿计维度的输入:) 
所以在预处理数据时将这些字段转成了数字,我们用这个数字当做嵌入矩阵的索引,在网络的第一层使用了嵌入层,维度是(N,32)和(N,16)。 
电影类型的处理要多一步,有时一个电影有多个电影类型,这样从嵌入矩阵索引出来是一个(n,32)的矩阵,因为有多个类型嘛,我们要将这个矩阵求和,变成(1,32)的向量。 
电影名的处理比较特殊,没有使用循环神经网络,而是用了文本卷积网络,下文会进行说明。 
从嵌入层索引出特征以后,将各特征传入全连接层,将输出再次传入全连接层,最终分别得到(1,200)的用户特征和电影特征两个特征向量。 
我们的目的就是要训练出用户特征和电影特征,在实现推荐功能时使用。得到这两个特征以后,就可以选择任意的方式来拟合评分了。我使用了两种方式,一个是上图中画出的将两个特征做向量乘法,将结果与真实评分做回归,采用MSE优化损失。因为本质上这是一个回归问题,另一种方式是,将两个特征作为输入,再次传入全连接层,输出一个值,将输出值回归到真实评分,采用MSE优化损失。 
实际上第二个方式的MSE loss在0.8附近,第一个方式在1附近,5次迭代的结果。

文本卷积网络

网络看起来像下面这样 

图片来自Kim Yoon的论文:Convolutional Neural Networks for Sentence Classification

将卷积神经网络用于文本的文章建议你阅读Understanding Convolutional Neural Networks for NLP 
网络的第一层是词嵌入层,由每一个单词的嵌入向量组成的嵌入矩阵。下一层使用多个不同尺寸(窗口大小)的卷积核在嵌入矩阵上做卷积,窗口大小指的是每次卷积覆盖几个单词。这里跟对图像做卷积不太一样,图像的卷积通常用2x2、3x3、5x5之类的尺寸,而文本卷积要覆盖整个单词的嵌入向量,所以尺寸是(单词数,向量维度),比如每次滑动3个,4个或者5个单词。第三层网络是max pooling得到一个长向量,最后使用dropout做正则化,最终得到了电影Title的特征。

核心代码讲解

完整代码请见项目

  1. #嵌入矩阵的维度
  2. embed_dim = 32
  3. #用户ID个数
  4. uid_max = max(features.take(0,1)) + 1 # 6040
  5. #性别个数
  6. gender_max = max(features.take(2,1)) + 1 # 1 + 1 = 2
  7. #年龄类别个数
  8. age_max = max(features.take(3,1)) + 1 # 6 + 1 = 7
  9. #职业个数
  10. job_max = max(features.take(4,1)) + 1# 20 + 1 = 21
  11. #电影ID个数
  12. movie_id_max = max(features.take(1,1)) + 1 # 3952
  13. #电影类型个数
  14. movie_categories_max = max(genres2int.values()) + 1 # 18 + 1 = 19
  15. #电影名单词个数
  16. movie_title_max = len(title_set) # 5216
  17. #对电影类型嵌入向量做加和操作的标志,考虑过使用mean做平均,但是没实现mean
  18. combiner = "sum"
  19. #电影名长度
  20. sentences_size = title_count # = 15
  21. #文本卷积滑动窗口,分别滑动2, 3, 4, 5个单词
  22. window_sizes = {2, 3, 4, 5}
  23. #文本卷积核数量
  24. filter_num = 8
  25. #电影ID转下标的字典,数据集中电影ID跟下标不一致,比如第5行的数据电影ID不一定是5
  26. movieid2idx = {val[0]:i for i, val in enumerate(movies.values)}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30

超参

  1. # Number of Epochs
  2. num_epochs = 5
  3. # Batch Size
  4. batch_size = 256
  5. dropout_keep = 0.5
  6. # Learning Rate
  7. learning_rate = 0.0001
  8. # Show stats for every n number of batches
  9. show_every_n_batches = 20
  10. save_dir = './save'
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12

输入

定义输入的占位符

  1. def get_inputs():
  2. uid = tf.placeholder(tf.int32, [None, 1], name="uid")
  3. user_gender = tf.placeholder(tf.int32, [None, 1], name="user_gender")
  4. user_age = tf.placeholder(tf.int32, [None, 1], name="user_age")
  5. user_job = tf.placeholder(tf.int32, [None, 1], name="user_job")
  6. movie_id = tf.placeholder(tf.int32, [None, 1], name="movie_id")
  7. movie_categories = tf.placeholder(tf.int32, [None, 18], name="movie_categories")
  8. movie_titles = tf.placeholder(tf.int32, [None, 15], name="movie_titles")
  9. targets = tf.placeholder(tf.int32, [None, 1], name="targets")
  10. LearningRate = tf.placeholder(tf.float32, name = "LearningRate")
  11. dropout_keep_prob = tf.placeholder(tf.float32, name = "dropout_keep_prob")
  12. return uid, user_gender, user_age, user_job, movie_id, movie_categories, movie_titles, targets, LearningRate, dropout_keep_prob
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13

构建神经网络

定义User的嵌入矩阵

  1. def get_user_embedding(uid, user_gender, user_age, user_job):
  2. with tf.name_scope("user_embedding"):
  3. uid_embed_matrix = tf.Variable(tf.random_uniform([uid_max, embed_dim], -1, 1), name = "uid_embed_matrix")
  4. uid_embed_layer = tf.nn.embedding_lookup(uid_embed_matrix, uid, name = "uid_embed_layer")
  5. gender_embed_matrix = tf.Variable(tf.random_uniform([gender_max, embed_dim // 2], -1, 1), name= "gender_embed_matrix")
  6. gender_embed_layer = tf.nn.embedding_lookup(gender_embed_matrix, user_gender, name = "gender_embed_layer")
  7. age_embed_matrix = tf.Variable(tf.random_uniform([age_max, embed_dim // 2], -1, 1), name="age_embed_matrix")
  8. age_embed_layer = tf.nn.embedding_lookup(age_embed_matrix, user_age, name="age_embed_layer")
  9. job_embed_matrix = tf.Variable(tf.random_uniform([job_max, embed_dim // 2], -1, 1), name = "job_embed_matrix")
  10. job_embed_layer = tf.nn.embedding_lookup(job_embed_matrix, user_job, name = "job_embed_layer")
  11. return uid_embed_layer, gender_embed_layer, age_embed_layer, job_embed_layer
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14

将User的嵌入矩阵一起全连接生成User的特征

  1. def get_user_feature_layer(uid_embed_layer, gender_embed_layer, age_embed_layer, job_embed_layer):
  2. with tf.name_scope("user_fc"):
  3. #第一层全连接
  4. uid_fc_layer = tf.layers.dense(uid_embed_layer, embed_dim, name = "uid_fc_layer", activation=tf.nn.relu)
  5. gender_fc_layer = tf.layers.dense(gender_embed_layer, embed_dim, name = "gender_fc_layer", activation=tf.nn.relu)
  6. age_fc_layer = tf.layers.dense(age_embed_layer, embed_dim, name ="age_fc_layer", activation=tf.nn.relu)
  7. job_fc_layer = tf.layers.dense(job_embed_layer, embed_dim, name = "job_fc_layer", activation=tf.nn.relu)
  8. #第二层全连接
  9. user_combine_layer = tf.concat([uid_fc_layer, gender_fc_layer, age_fc_layer, job_fc_layer], 2) #(?, 1, 128)
  10. user_combine_layer = tf.contrib.layers.fully_connected(user_combine_layer, 200, tf.tanh) #(?, 1, 200)
  11. user_combine_layer_flat = tf.reshape(user_combine_layer, [-1, 200])
  12. return user_combine_layer, user_combine_layer_flat
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14

定义Movie ID的嵌入矩阵

  1. def get_movie_id_embed_layer(movie_id):
  2. with tf.name_scope("movie_embedding"):
  3. movie_id_embed_matrix = tf.Variable(tf.random_uniform([movie_id_max, embed_dim], -1, 1), name = "movie_id_embed_matrix")
  4. movie_id_embed_layer = tf.nn.embedding_lookup(movie_id_embed_matrix, movie_id, name = "movie_id_embed_layer")
  5. return movie_id_embed_layer
  • 1
  • 2
  • 3
  • 4
  • 5

对电影类型的多个嵌入向量做加和

  1. def get_movie_categories_layers(movie_categories):
  2. with tf.name_scope("movie_categories_layers"):
  3. movie_categories_embed_matrix = tf.Variable(tf.random_uniform([movie_categories_max, embed_dim], -1, 1), name = "movie_categories_embed_matrix")
  4. movie_categories_embed_layer = tf.nn.embedding_lookup(movie_categories_embed_matrix, movie_categories, name = "movie_categories_embed_layer")
  5. if combiner == "sum":
  6. movie_categories_embed_layer = tf.reduce_sum(movie_categories_embed_layer, axis=1, keep_dims=True)
  7. # elif combiner == "mean":
  8. return movie_categories_embed_layer
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9

Movie Title的文本卷积网络实现

  1. def get_movie_cnn_layer(movie_titles):
  2. #从嵌入矩阵中得到电影名对应的各个单词的嵌入向量
  3. with tf.name_scope("movie_embedding"):
  4. movie_title_embed_matrix = tf.Variable(tf.random_uniform([movie_title_max, embed_dim], -1, 1), name = "movie_title_embed_matrix")
  5. movie_title_embed_layer = tf.nn.embedding_lookup(movie_title_embed_matrix, movie_titles, name = "movie_title_embed_layer")
  6. movie_title_embed_layer_expand = tf.expand_dims(movie_title_embed_layer, -1)
  7. #对文本嵌入层使用不同尺寸的卷积核做卷积和最大池化
  8. pool_layer_lst = []
  9. for window_size in window_sizes:
  10. with tf.name_scope("movie_txt_conv_maxpool_{}".format(window_size)):
  11. filter_weights = tf.Variable(tf.truncated_normal([window_size, embed_dim, 1, filter_num],stddev=0.1),name = "filter_weights")
  12. filter_bias = tf.Variable(tf.constant(0.1, shape=[filter_num]), name="filter_bias")
  13. conv_layer = tf.nn.conv2d(movie_title_embed_layer_expand, filter_weights, [1,1,1,1], padding="VALID", name="conv_layer")
  14. relu_layer = tf.nn.relu(tf.nn.bias_add(conv_layer,filter_bias), name ="relu_layer")
  15. maxpool_layer = tf.nn.max_pool(relu_layer, [1,sentences_size - window_size + 1 ,1,1], [1,1,1,1], padding="VALID", name="maxpool_layer")
  16. pool_layer_lst.append(maxpool_layer)
  17. #Dropout层
  18. with tf.name_scope("pool_dropout"):
  19. pool_layer = tf.concat(pool_layer_lst, 3, name ="pool_layer")
  20. max_num = len(window_sizes) * filter_num
  21. pool_layer_flat = tf.reshape(pool_layer , [-1, 1, max_num], name = "pool_layer_flat")
  22. dropout_layer = tf.nn.dropout(pool_layer_flat, dropout_keep_prob, name = "dropout_layer")
  23. return pool_layer_flat, dropout_layer
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28

将Movie的各个层一起做全连接

  1. def get_movie_feature_layer(movie_id_embed_layer, movie_categories_embed_layer, dropout_layer):
  2. with tf.name_scope("movie_fc"):
  3. #第一层全连接
  4. movie_id_fc_layer = tf.layers.dense(movie_id_embed_layer, embed_dim, name = "movie_id_fc_layer", activation=tf.nn.relu)
  5. movie_categories_fc_layer = tf.layers.dense(movie_categories_embed_layer, embed_dim, name = "movie_categories_fc_layer", activation=tf.nn.relu)
  6. #第二层全连接
  7. movie_combine_layer = tf.concat([movie_id_fc_layer, movie_categories_fc_layer, dropout_layer], 2) #(?, 1, 96)
  8. movie_combine_layer = tf.contrib.layers.fully_connected(movie_combine_layer, 200, tf.tanh) #(?, 1, 200)
  9. movie_combine_layer_flat = tf.reshape(movie_combine_layer, [-1, 200])
  10. return movie_combine_layer, movie_combine_layer_flat
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12

构建计算图

  1. tf.reset_default_graph()
  2. train_graph = tf.Graph()
  3. with train_graph.as_default():
  4. #获取输入占位符
  5. uid, user_gender, user_age, user_job, movie_id, movie_categories, movie_titles, targets, lr, dropout_keep_prob = get_inputs()
  6. #获取User的4个嵌入向量
  7. uid_embed_layer, gender_embed_layer, age_embed_layer, job_embed_layer = get_user_embedding(uid, user_gender, user_age, user_job)
  8. #得到用户特征
  9. user_combine_layer, user_combine_layer_flat = get_user_feature_layer(uid_embed_layer, gender_embed_layer, age_embed_layer, job_embed_layer)
  10. #获取电影ID的嵌入向量
  11. movie_id_embed_layer = get_movie_id_embed_layer(movie_id)
  12. #获取电影类型的嵌入向量
  13. movie_categories_embed_layer = get_movie_categories_layers(movie_categories)
  14. #获取电影名的特征向量
  15. pool_layer_flat, dropout_layer = get_movie_cnn_layer(movie_titles)
  16. #得到电影特征
  17. movie_combine_layer, movie_combine_layer_flat = get_movie_feature_layer(movie_id_embed_layer,
  18. movie_categories_embed_layer,
  19. dropout_layer)
  20. #计算出评分,要注意两个不同的方案,inference的名字(name值)是不一样的,后面做推荐时要根据name取得tensor
  21. with tf.name_scope("inference"):
  22. #将用户特征和电影特征作为输入,经过全连接,输出一个值的方案
  23. # inference_layer = tf.concat([user_combine_layer_flat, movie_combine_layer_flat], 1) #(?, 200)
  24. # inference = tf.layers.dense(inference_layer, 1,
  25. # kernel_initializer=tf.truncated_normal_initializer(stddev=0.01),
  26. # kernel_regularizer=tf.nn.l2_loss, name="inference")
  27. #简单的将用户特征和电影特征做矩阵乘法得到一个预测评分
  28. inference = tf.matmul(user_combine_layer_flat, tf.transpose(movie_combine_layer_flat))
  29. with tf.name_scope("loss"):
  30. # MSE损失,将计算值回归到评分
  31. cost = tf.losses.mean_squared_error(targets, inference )
  32. loss = tf.reduce_mean(cost)
  33. # 优化损失
  34. # train_op = tf.train.AdamOptimizer(lr).minimize(loss) #cost
  35. global_step = tf.Variable(0, name="global_step", trainable=False)
  36. optimizer = tf.train.AdamOptimizer(lr)
  37. gradients = optimizer.compute_gradients(loss) #cost
  38. train_op = optimizer.apply_gradients(gradients, global_step=global_step)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40

训练网络

  1. %matplotlib inline
  2. %config InlineBackend.figure_format = 'retina'
  3. import matplotlib.pyplot as plt
  4. import time
  5. import datetime
  6. losses = {'train':[], 'test':[]}
  7. with tf.Session(graph=train_graph) as sess:
  8. #搜集数据给tensorBoard用
  9. # Keep track of gradient values and sparsity
  10. grad_summaries = []
  11. for g, v in gradients:
  12. if g is not None:
  13. grad_hist_summary = tf.summary.histogram("{}/grad/hist".format(v.name.replace(':', '_')), g)
  14. sparsity_summary = tf.summary.scalar("{}/grad/sparsity".format(v.name.replace(':', '_')), tf.nn.zero_fraction(g))
  15. grad_summaries.append(grad_hist_summary)
  16. grad_summaries.append(sparsity_summary)
  17. grad_summaries_merged = tf.summary.merge(grad_summaries)
  18. # Output directory for models and summaries
  19. timestamp = str(int(time.time()))
  20. out_dir = os.path.abspath(os.path.join(os.path.curdir, "runs", timestamp))
  21. print("Writing to {}\n".format(out_dir))
  22. # Summaries for loss and accuracy
  23. loss_summary = tf.summary.scalar("loss", loss)
  24. # Train Summaries
  25. train_summary_op = tf.summary.merge([loss_summary, grad_summaries_merged])
  26. train_summary_dir = os.path.join(out_dir, "summaries", "train")
  27. train_summary_writer = tf.summary.FileWriter(train_summary_dir, sess.graph)
  28. # Inference summaries
  29. inference_summary_op = tf.summary.merge([loss_summary])
  30. inference_summary_dir = os.path.join(out_dir, "summaries", "inference")
  31. inference_summary_writer = tf.summary.FileWriter(inference_summary_dir, sess.graph)
  32. sess.run(tf.global_variables_initializer())
  33. saver = tf.train.Saver()
  34. for epoch_i in range(num_epochs):
  35. #将数据集分成训练集和测试集,随机种子不固定
  36. train_X,test_X, train_y, test_y = train_test_split(features,
  37. targets_values,
  38. test_size = 0.2,
  39. random_state = 0)
  40. train_batches = get_batches(train_X, train_y, batch_size)
  41. test_batches = get_batches(test_X, test_y, batch_size)
  42. #训练的迭代,保存训练损失
  43. for batch_i in range(len(train_X) // batch_size):
  44. x, y = next(train_batches)
  45. categories = np.zeros([batch_size, 18])
  46. for i in range(batch_size):
  47. categories[i] = x.take(6,1)[i]
  48. titles = np.zeros([batch_size, sentences_size])
  49. for i in range(batch_size):
  50. titles[i] = x.take(5,1)[i]
  51. feed = {
  52. uid: np.reshape(x.take(0,1), [batch_size, 1]),
  53. user_gender: np.reshape(x.take(2,1), [batch_size, 1]),
  54. user_age: np.reshape(x.take(3,1), [batch_size, 1]),
  55. user_job: np.reshape(x.take(4,1), [batch_size, 1]),
  56. movie_id: np.reshape(x.take(1,1), [batch_size, 1]),
  57. movie_categories: categories, #x.take(6,1)
  58. movie_titles: titles, #x.take(5,1)
  59. targets: np.reshape(y, [batch_size, 1]),
  60. dropout_keep_prob: dropout_keep, #dropout_keep
  61. lr: learning_rate}
  62. step, train_loss, summaries, _ = sess.run([global_step, loss, train_summary_op, train_op], feed) #cost
  63. losses['train'].append(train_loss)
  64. train_summary_writer.add_summary(summaries, step) #
  65. # Show every <show_every_n_batches> batches
  66. if (epoch_i * (len(train_X) // batch_size) + batch_i) % show_every_n_batches == 0:
  67. time_str = datetime.datetime.now().isoformat()
  68. print('{}: Epoch {:>3} Batch {:>4}/{} train_loss = {:.3f}'.format(
  69. time_str,
  70. epoch_i,
  71. batch_i,
  72. (len(train_X) // batch_size),
  73. train_loss))
  74. #使用测试数据的迭代
  75. for batch_i in range(len(test_X) // batch_size):
  76. x, y = next(test_batches)
  77. categories = np.zeros([batch_size, 18])
  78. for i in range(batch_size):
  79. categories[i] = x.take(6,1)[i]
  80. titles = np.zeros([batch_size, sentences_size])
  81. for i in range(batch_size):
  82. titles[i] = x.take(5,1)[i]
  83. feed = {
  84. uid: np.reshape(x.take(0,1), [batch_size, 1]),
  85. user_gender: np.reshape(x.take(2,1), [batch_size, 1]),
  86. user_age: np.reshape(x.take(3,1), [batch_size, 1]),
  87. user_job: np.reshape(x.take(4,1), [batch_size, 1]),
  88. movie_id: np.reshape(x.take(1,1), [batch_size, 1]),
  89. movie_categories: categories, #x.take(6,1)
  90. movie_titles: titles, #x.take(5,1)
  91. targets: np.reshape(y, [batch_size, 1]),
  92. dropout_keep_prob: 1,
  93. lr: learning_rate}
  94. step, test_loss, summaries = sess.run([global_step, loss, inference_summary_op], feed) #cost
  95. #保存测试损失
  96. losses['test'].append(test_loss)
  97. inference_summary_writer.add_summary(summaries, step) #
  98. time_str = datetime.datetime.now().isoformat()
  99. if (epoch_i * (len(test_X) // batch_size) + batch_i) % show_every_n_batches == 0:
  100. print('{}: Epoch {:>3} Batch {:>4}/{} test_loss = {:.3f}'.format(
  101. time_str,
  102. epoch_i,
  103. batch_i,
  104. (len(test_X) // batch_size),
  105. test_loss))
  106. # Save Model
  107. saver.save(sess, save_dir) #, global_step=epoch_i
  108. print('Model Trained and Saved')
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51
  • 52
  • 53
  • 54
  • 55
  • 56
  • 57
  • 58
  • 59
  • 60
  • 61
  • 62
  • 63
  • 64
  • 65
  • 66
  • 67
  • 68
  • 69
  • 70
  • 71
  • 72
  • 73
  • 74
  • 75
  • 76
  • 77
  • 78
  • 79
  • 80
  • 81
  • 82
  • 83
  • 84
  • 85
  • 86
  • 87
  • 88
  • 89
  • 90
  • 91
  • 92
  • 93
  • 94
  • 95
  • 96
  • 97
  • 98
  • 99
  • 100
  • 101
  • 102
  • 103
  • 104
  • 105
  • 106
  • 107
  • 108
  • 109
  • 110
  • 111
  • 112
  • 113
  • 114
  • 115
  • 116
  • 117
  • 118
  • 119
  • 120
  • 121
  • 122
  • 123
  • 124
  • 125
  • 126
  • 127
  • 128
  • 129
  • 130
  • 131
  • 132

在 TensorBoard 中查看可视化结果

获取 Tensors

  1. def get_tensors(loaded_graph):
  2. uid = loaded_graph.get_tensor_by_name("uid:0")
  3. user_gender = loaded_graph.get_tensor_by_name("user_gender:0")
  4. user_age = loaded_graph.get_tensor_by_name("user_age:0")
  5. user_job = loaded_graph.get_tensor_by_name("user_job:0")
  6. movie_id = loaded_graph.get_tensor_by_name("movie_id:0")
  7. movie_categories = loaded_graph.get_tensor_by_name("movie_categories:0")
  8. movie_titles = loaded_graph.get_tensor_by_name("movie_titles:0")
  9. targets = loaded_graph.get_tensor_by_name("targets:0")
  10. dropout_keep_prob = loaded_graph.get_tensor_by_name("dropout_keep_prob:0")
  11. lr = loaded_graph.get_tensor_by_name("LearningRate:0")
  12. #两种不同计算预测评分的方案使用不同的name获取tensor inference
  13. # inference = loaded_graph.get_tensor_by_name("inference/inference/BiasAdd:0")
  14. inference = loaded_graph.get_tensor_by_name("inference/MatMul:0")#
  15. movie_combine_layer_flat = loaded_graph.get_tensor_by_name("movie_fc/Reshape:0")
  16. user_combine_layer_flat = loaded_graph.get_tensor_by_name("user_fc/Reshape:0")
  17. return uid, user_gender, user_age, user_job, movie_id, movie_categories, movie_titles, targets, lr, dropout_keep_prob, inference, movie_combine_layer_flat, user_combine_layer_flat
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18

指定用户和电影进行评分

这部分就是对网络做正向传播,计算得到预测的评分

  1. def rating_movie(user_id_val, movie_id_val):
  2. loaded_graph = tf.Graph() #
  3. with tf.Session(graph=loaded_graph) as sess: #
  4. # Load saved model
  5. loader = tf.train.import_meta_graph(load_dir + '.meta')
  6. loader.restore(sess, load_dir)
  7. # Get Tensors from loaded model
  8. uid, user_gender, user_age, user_job, movie_id, movie_categories, movie_titles, targets, lr, dropout_keep_prob, inference,_, __ = get_tensors(loaded_graph) #loaded_graph
  9. categories = np.zeros([1, 18])
  10. categories[0] = movies.values[movieid2idx[movie_id_val]][2]
  11. titles = np.zeros([1, sentences_size])
  12. titles[0] = movies.values[movieid2idx[movie_id_val]][1]
  13. feed = {
  14. uid: np.reshape(users.values[user_id_val-1][0], [1, 1]),
  15. user_gender: np.reshape(users.values[user_id_val-1][1], [1, 1]),
  16. user_age: np.reshape(users.values[user_id_val-1][2], [1, 1]),
  17. user_job: np.reshape(users.values[user_id_val-1][3], [1, 1]),
  18. movie_id: np.reshape(movies.values[movieid2idx[movie_id_val]][0], [1, 1]),
  19. movie_categories: categories, #x.take(6,1)
  20. movie_titles: titles, #x.take(5,1)
  21. dropout_keep_prob: 1}
  22. # Get Prediction
  23. inference_val = sess.run([inference], feed)
  24. return (inference_val)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30

生成Movie特征矩阵

将训练好的电影特征组合成电影特征矩阵并保存到本地

  1. loaded_graph = tf.Graph() #
  2. movie_matrics = []
  3. with tf.Session(graph=loaded_graph) as sess: #
  4. # Load saved model
  5. loader = tf.train.import_meta_graph(load_dir + '.meta')
  6. loader.restore(sess, load_dir)
  7. # Get Tensors from loaded model
  8. uid, user_gender, user_age, user_job, movie_id, movie_categories, movie_titles, targets, lr, dropout_keep_prob, _, movie_combine_layer_flat, __ = get_tensors(loaded_graph) #loaded_graph
  9. for item in movies.values:
  10. categories = np.zeros([1, 18])
  11. categories[0] = item.take(2)
  12. titles = np.zeros([1, sentences_size])
  13. titles[0] = item.take(1)
  14. feed = {
  15. movie_id: np.reshape(item.take(0), [1, 1]),
  16. movie_categories: categories, #x.take(6,1)
  17. movie_titles: titles, #x.take(5,1)
  18. dropout_keep_prob: 1}
  19. movie_combine_layer_flat_val = sess.run([movie_combine_layer_flat], feed)
  20. movie_matrics.append(movie_combine_layer_flat_val)
  21. pickle.dump((np.array(movie_matrics).reshape(-1, 200)), open('movie_matrics.p', 'wb'))
  22. movie_matrics = pickle.load(open('movie_matrics.p', mode='rb'))
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28

生成User特征矩阵

将训练好的用户特征组合成用户特征矩阵并保存到本地

  1. loaded_graph = tf.Graph() #
  2. users_matrics = []
  3. with tf.Session(graph=loaded_graph) as sess: #
  4. # Load saved model
  5. loader = tf.train.import_meta_graph(load_dir + '.meta')
  6. loader.restore(sess, load_dir)
  7. # Get Tensors from loaded model
  8. uid, user_gender, user_age, user_job, movie_id, movie_categories, movie_titles, targets, lr, dropout_keep_prob, _, __,user_combine_layer_flat = get_tensors(loaded_graph) #loaded_graph
  9. for item in users.values:
  10. feed = {
  11. uid: np.reshape(item.take(0), [1, 1]),
  12. user_gender: np.reshape(item.take(1), [1, 1]),
  13. user_age: np.reshape(item.take(2), [1, 1]),
  14. user_job: np.reshape(item.take(3), [1, 1]),
  15. dropout_keep_prob: 1}
  16. user_combine_layer_flat_val = sess.run([user_combine_layer_flat], feed)
  17. users_matrics.append(user_combine_layer_flat_val)
  18. pickle.dump((np.array(users_matrics).reshape(-1, 200)), open('users_matrics.p', 'wb'))
  19. users_matrics = pickle.load(open('users_matrics.p', mode='rb'))
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24

开始推荐电影

使用生产的用户特征矩阵和电影特征矩阵做电影推荐

推荐同类型的电影

思路是计算当前看的电影特征向量与整个电影特征矩阵的余弦相似度,取相似度最大的top_k个,这里加了些随机选择在里面,保证每次的推荐稍稍有些不同。

  1. def recommend_same_type_movie(movie_id_val, top_k = 20):
  2. loaded_graph = tf.Graph() #
  3. with tf.Session(graph=loaded_graph) as sess: #
  4. # Load saved model
  5. loader = tf.train.import_meta_graph(load_dir + '.meta')
  6. loader.restore(sess, load_dir)
  7. norm_movie_matrics = tf.sqrt(tf.reduce_sum(tf.square(movie_matrics), 1, keep_dims=True))
  8. normalized_movie_matrics = movie_matrics / norm_movie_matrics
  9. #推荐同类型的电影
  10. probs_embeddings = (movie_matrics[movieid2idx[movie_id_val]]).reshape([1, 200])
  11. probs_similarity = tf.matmul(probs_embeddings, tf.transpose(normalized_movie_matrics))
  12. sim = (probs_similarity.eval())
  13. # results = (-sim[0]).argsort()[0:top_k]
  14. # print(results)
  15. print("您看的电影是:{}".format(movies_orig[movieid2idx[movie_id_val]]))
  16. print("以下是给您的推荐:")
  17. p = np.squeeze(sim)
  18. p[np.argsort(p)[:-top_k]] = 0
  19. p = p / np.sum(p)
  20. results = set()
  21. while len(results) != 5:
  22. c = np.random.choice(3883, 1, p=p)[0]
  23. results.add(c)
  24. for val in (results):
  25. print(val)
  26. print(movies_orig[val])
  27. return results
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32

推荐您喜欢的电影

思路是使用用户特征向量与电影特征矩阵计算所有电影的评分,取评分最高的top_k个,同样加了些随机选择部分。

  1. def recommend_your_favorite_movie(user_id_val, top_k = 10):
  2. loaded_graph = tf.Graph() #
  3. with tf.Session(graph=loaded_graph) as sess: #
  4. # Load saved model
  5. loader = tf.train.import_meta_graph(load_dir + '.meta')
  6. loader.restore(sess, load_dir)
  7. #推荐您喜欢的电影
  8. probs_embeddings = (users_matrics[user_id_val-1]).reshape([1, 200])
  9. probs_similarity = tf.matmul(probs_embeddings, tf.transpose(movie_matrics))
  10. sim = (probs_similarity.eval())
  11. # print(sim.shape)
  12. # results = (-sim[0]).argsort()[0:top_k]
  13. # print(results)
  14. # sim_norm = probs_norm_similarity.eval()
  15. # print((-sim_norm[0]).argsort()[0:top_k])
  16. print("以下是给您的推荐:")
  17. p = np.squeeze(sim)
  18. p[np.argsort(p)[:-top_k]] = 0
  19. p = p / np.sum(p)
  20. results = set()
  21. while len(results) != 5:
  22. c = np.random.choice(3883, 1, p=p)[0]
  23. results.add(c)
  24. for val in (results):
  25. print(val)
  26. print(movies_orig[val])
  27. return results
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33

看过这个电影的人还看了(喜欢)哪些电影

  • 首先选出喜欢某个电影的top_k个人,得到这几个人的用户特征向量。
  • 然后计算这几个人对所有电影的评分
  • 选择每个人评分最高的电影作为推荐
  • 同样加入了随机选择
  1. import random
  2. def recommend_other_favorite_movie(movie_id_val, top_k = 20):
  3. loaded_graph = tf.Graph() #
  4. with tf.Session(graph=loaded_graph) as sess: #
  5. # Load saved model
  6. loader = tf.train.import_meta_graph(load_dir + '.meta')
  7. loader.restore(sess, load_dir)
  8. probs_movie_embeddings = (movie_matrics[movieid2idx[movie_id_val]]).reshape([1, 200])
  9. probs_user_favorite_similarity = tf.matmul(probs_movie_embeddings, tf.transpose(users_matrics))
  10. favorite_user_id = np.argsort(probs_user_favorite_similarity.eval())[0][-top_k:]
  11. # print(normalized_users_matrics.eval().shape)
  12. # print(probs_user_favorite_similarity.eval()[0][favorite_user_id])
  13. # print(favorite_user_id.shape)
  14. print("您看的电影是:{}".format(movies_orig[movieid2idx[movie_id_val]]))
  15. print("喜欢看这个电影的人是:{}".format(users_orig[favorite_user_id-1]))
  16. probs_users_embeddings = (users_matrics[favorite_user_id-1]).reshape([-1, 200])
  17. probs_similarity = tf.matmul(probs_users_embeddings, tf.transpose(movie_matrics))
  18. sim = (probs_similarity.eval())
  19. # results = (-sim[0]).argsort()[0:top_k]
  20. # print(results)
  21. # print(sim.shape)
  22. # print(np.argmax(sim, 1))
  23. p = np.argmax(sim, 1)
  24. print("喜欢看这个电影的人还喜欢看:")
  25. results = set()
  26. while len(results) != 5:
  27. c = p[random.randrange(top_k)]
  28. results.add(c)
  29. for val in (results):
  30. print(val)
  31. print(movies_orig[val])
  32. return results
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39

结论

以上就是实现的常用的推荐功能,将网络模型作为回归问题进行训练,得到训练好的用户特征矩阵和电影特征矩阵进行推荐。

扩展阅读

如果你对个性化推荐感兴趣,以下资料建议你看看: 
Understanding Convolutional Neural Networks for NLP

今天的分享就到这里,请多指教!

版权声明:本文出自程世东的博客,原创文章,转载请注明出处。 http://blog.csdn.net/chengcheng1394/article/details/78820529

TensorFlow实战——个性化推荐的更多相关文章

  1. 为什么要用深度学习来做个性化推荐 CTR 预估

    欢迎大家前往腾讯云技术社区,获取更多腾讯海量技术实践干货哦~ 作者:苏博览 深度学习应该这一两年计算机圈子里最热的一个词了.基于深度学习,工程师们在图像,语音,NLP等领域都取得了令人振奋的进展.而深 ...

  2. 深度学习Tensorflow相关书籍推荐和PDF下载

    深度学习Tensorflow相关书籍推荐和PDF下载 baihualinxin关注 32018.03.28 10:46:16字数 481阅读 22,673 1.机器学习入门经典<统计学习方法&g ...

  3. TensorFlow实战第二课(添加神经层)

    莫烦tensorflow实战教学 1.添加神经层 #add_layer() import tensorflow as tf def add_layer(inputs,in_size,out_size, ...

  4. Tensorflow实战(二):Discuz验证码识别

    一.前言 验证码是根据随机字符生成一幅图片,然后在图片中加入干扰象素,用户必须手动填入,防止有人利用机器人自动批量注册.灌水.发垃圾广告等等 . 验证码的作用是验证用户是真人还是机器人. 本文将使用深 ...

  5. CSDDN特约专稿:个性化推荐技术漫谈

    本文引自http://i.cnblogs.com/EditPosts.aspx?opt=1 如果说过去的十年是搜索技术大行其道的十年,那么个性化推荐技术将成为未来十年中最重要的革新之一.目前几乎所有大 ...

  6. 从0开始做垂直O2O个性化推荐-以58到家美甲为例

    从0开始做垂直O2O个性化推荐 上次以58转转为例,介绍了如何从0开始如何做互联网推荐产品(回复"推荐"阅读),58转转的宝贝为闲置物品,品类多种多样,要做统一的宝贝画像比较难,而 ...

  7. Python个人项目--豆瓣图书个性化推荐

    项目名称: 豆瓣图书个性化推荐 需求简述:从给定的豆瓣用户名中,获取该用户所有豆瓣好友列表,从豆瓣好友中找出他们读过的且评分5星的图书,如果同一本书被不同的好友评5星,评分人数越多推荐度越高. 输入: ...

  8. 个性化推荐调优:重写spark推荐api

    最近用spark的mlib模块中的协同过滤库做个性化推荐.spark里面用的是als算法,本质上是矩阵分解svd降维,把一个M*N的用户商品评分矩阵分解为M*K的userFeature(用户特征矩阵) ...

  9. TensorFlow实战之Softmax Regression识别手写数字

         关于本文说明,本人原博客地址位于http://blog.csdn.net/qq_37608890,本文来自笔者于2018年02月21日 23:10:04所撰写内容(http://blog.c ...

随机推荐

  1. QoS 服务质量

    一.QoS QoS: Quality of Service(服务质量) 是指网络通信过程中,允许用户业务在丢包率.延迟.抖动和带宽等方面获得可预期的服务水平.更简单地说:QoS就是针对各种不同需求,提 ...

  2. google最新的书签导入导出

    1.google浏览器地址栏最右边,自定义及控制--->书签----->书签管理器 2. 右上角,有整理图标, 3.点击按钮即可导入导出书签

  3. [UE4]Break展开复杂数据结构

  4. tensorflow读取数据的方式

    转载:https://blog.csdn.net/u014038273/article/details/77989221 TensorFlow程序读取数据一共有四种方法(一般针对图像): 供给数据(F ...

  5. MapReduce源码刨析

    MapReduce编程刨析: Map map函数是对一些独立元素组成的概念列表(如单词计数中每行数据形成的列表)的每一个元素进行指定的操作(如把每行数据拆分成不同单词,并把每个单词计数为1),用户可以 ...

  6. JS面试典型常见问题与解答

    Q1:下面代码段的输出是什么? 为什么? (Scope) (function() { var a = b = 5; })(); console.log(b); A1: 输出是5. 在上面的立即调用函数 ...

  7. asp.net网站中增删文件夹会导致Session或cache等等丢失

    因为这会导致网站资源本身重新加载. 如果要改变文件和文件夹,一般应该是对 app_data 下进行操作.

  8. Hdu 4622 Reincarnation(后缀自动机)

    /* 字符串长度较小, 可以离线或者直接与处理所有区间的答案 动态加入点的时候, 因为对于其他点的parent构造要么没有影响, 要么就是在两个节点之间塞入一个点, 对于minmax的贡献没有改变 所 ...

  9. Python中的线程和进程

    引入进程和线程的概念及区别 threading模块提供的类:   Thread, Lock, Rlock, Condition, [Bounded]Semaphore, Event, Timer, l ...

  10. 压缩校验合并js之grunt搭建

    1.在说grunt先认识几个grunt配置中的几个单词,concat(合并文件),uglify(压缩文件),jshint(检测代码规范),watch(实时监听修改的文件) 2.grunt是基于node ...