飞桨PaddlePaddle开源深度学习平台

简介/价格/文档

零基础实践深度学习第七章：推荐系统（上） - 推荐系统介绍

文档简介：

当我们苦于听到一段熟悉的旋律而不得其名，看到一段电影片段而不知其出处，心中不免颇有遗憾。在另外一些场景，我们偶然间在某些音乐平台、视频平台的推荐页面找到了心仪的音乐、电影，内心却是极其激动的。这些背后往往离不开推荐系统的影子。那究竟什么是推荐系统呢？在此之前，我们先了解一下推荐系统产生的背景。

*此产品及展示信息均由百度智能云官方提供。免费试用咨询热线：400-826-7010，为您提供专业的售前咨询，让您快速了解云产品，助您轻松上云！微信咨询

免费试用、价格特惠

文档详情

当我们苦于听到一段熟悉的旋律而不得其名，看到一段电影片段而不知其出处，心中不免颇有遗憾。在另外一些场景，我们偶然间在某些音乐平台、视频平台的推荐页面找到了心仪的音乐、电影，内心却是极其激动的。这些背后往往离不开推荐系统的影子。

那究竟什么是推荐系统呢？

在此之前，我们先了解一下推荐系统产生的背景。

思考有哪些信息可以用于推荐

观察只保留两个核心问题的推荐任务示例，思考有哪些信息可以用于推荐？图中蕴含的数据可以分为三种：

每个用户的不同特征，如性别、年龄；
物品的各种描述属性，如品牌、品类；
用户对部分物品的兴趣表达，即用户与物品的关联数据，如历史上的评分、评价、点击行为和购买行为。

结合这三种信息可以形成类似“女性A 喜欢 LV包”这样的表达。

图6：推荐任务的思考

基于3的关联信息，人们设计了“协同过滤的推荐算法”。基于2的内容信息，设计出“基于内容的推荐算法”。现在的推荐系统普遍同时利用这三种信息，下面我们就来看看这些方法的原理。

常用的推荐系统算法

常用的推荐系统算法实现方案有三种：

协同过滤推荐（Collaborative Filtering Recommendation）：该算法的核心是分析用户的兴趣和行为，利用共同行为习惯的群体有相似喜好的原则，推荐用户感兴趣的信息。兴趣有高有低，算法会根据用户对信息的反馈（如评分）进行排序，这种方式在学术上称为协同过滤。协同过滤算法是经典的推荐算法，经典意味着简单、好用。协同过滤算法又可以简单分为两种：

a)基于用户的协同过滤：根据用户的历史喜好分析出相似兴趣的人，然后给用户推荐其他人喜欢的物品。假如小李，小张对物品A、B都给了十分好评，那么可以认为小李、小张具有相似的兴趣爱好，如果小李给物品C十分好评，那么可以把C推荐给小张，可简单理解为“人以类聚”。

b)基于物品的协同过滤：根据用户的历史喜好分析出相似物品，然后给用户推荐同类物品。比如小李对物品A、B、C给了十分好评，小王对物品A、C给了十分好评，从这些用户的喜好中分析出喜欢A的人都喜欢C，物品A、C是相似的，如果小张给了A好评，那么可以把C也推荐给小张，可简单理解为“物以群分”。
基于内容过滤推荐（Content-based Filtering Recommendation）：基于内容的过滤是信息检索领域的重要研究内容，是更为简单直接的算法，该算法的核心是衡量出两个物品的相似度。首先对物品或内容的特征作出描述，发现其相关性，然后基于用户以往的喜好记录，推荐给用户相似的物品。比如，小张对物品A感兴趣，而物品A和物品C是同类物品（从物品的内容描述上判断），可以把物品C也推荐给小张。
组合推荐（Hybrid Recommendation）：以上算法各有优缺点，比如基于内容的过滤推荐是基于物品建模，在系统启动初期往往有较好的推荐效果，但是没有考虑用户群体的关联属性；协同过滤推荐考虑了用户群体喜好信息，可以推荐内容上不相似的新物品，发现用户潜在的兴趣偏好，但是这依赖于足够多且准确的用户历史信息。所以，实际应用中往往不只采用某一种推荐方法，而是通过一定的组合方法将多个算法混合在一起，以实现更好的推荐效果，比如加权混合、分层混合等。具体选择哪种方式和应用场景有很大关系。

图7：常见的推荐系统算法

使用飞桨探索电影推荐

本章我们探讨基于深度学习模型实现电影推荐系统，使用用户特征、电影特征和用户对电影的评分数据作为推荐输入信息。

在开始动手实践之前，我们先来分析一下数据集和模型设计方案。

数据集介绍

个性化推荐算法的数据大多是文本和图像。比如网易云音乐推荐中，数据是音乐的名字、歌手、音乐类型等文本数据；抖音视频推荐中，数据是视频或图像数据；也有可能同时使用图像和文本数据，比如YouTube的视频推荐算法中，会同时考虑用户信息和视频类别、视频内容信息。

本次实践我们采用ml-1m电影推荐数据集，它是GroupLens Research从MovieLens网站上收集并提供的电影评分数据集。包含了6000多位用户对近3900个电影的共100万条评分数据，评分均为1～5的整数，其中每个电影的评分数据至少有20条。该数据集包含三个数据文件，分别是：

users.dat：存储用户属性信息的文本格式文件。
movies.dat：存储电影属性信息的文本格式文件。
ratings.dat：存储电影评分信息的文本格式文件。

另外，为了验证电影推荐的影响因素，我们还从网上获取到了部分电影的海报图像。现实生活中，相似风格的电影在海报设计上也有一定的相似性，比如暗黑系列和喜剧系列的电影海报风格是迥异的。所以在进行推荐时，可以验证一下加入海报后，对推荐结果的影响。电影海报图像在posters文件夹下，海报图像的名字以"mov_id" + 电影ID + ".png"的方式命名。由于这里的电影海报图像有缺失，我们整理了一个新的评分数据文件，新的文件中包含的电影均是有海报数据的，因此，本次实践使用的数据集在ml-1m基础上增加了两份数据：

posters：包含电影海报图像。
new_rating.txt：存储包含海报图像的新评分数据文件。

用户信息、电影信息和评分信息包含的内容如下表所示。

用户信息	UserID	Gender	Age	Occupation
样例	1	F【M/F】	1	10

电影信息	MovieID	Title	Genres	PosterID
样例	1	Toy Story	Animation\| Children’s\|Comedy	1

评分信息	UserID	MovieID	Rating
样例	1	1193	5【1~5】

其中部分数据并不具有真实的含义，而是编号。年龄编号和部分职业编号的含义如下表所示。

年龄编号	职业编号
1: “Under 18” 18: “18-24” 25: “25-34” 35: “35-44” 45: “45-49” 50: “50-55” 56: “56+”	0: “other” or not specified 1: “academic/educator” 2: “artist” 3: “clerical/admin” 4: “college/grad student” 5: “customer service” 6: “doctor/health care” 7: “executive/managerial”

海报对应着尺寸大约为180*270的图片，每张图片尺寸稍有差别。

图8：1号海报的图片

从样例的特征数据中，我们可以分析出特征一共有四类：

ID类特征：UserID、MovieID、Gender、Age、Occupation，内容为ID值，前两个ID映射到具体用户和电影，后三个ID会映射到具体分档。
列表类特征：Genres，每个电影有多个类别标签。如果将电影类别编号，使用数字ID替换原始类别，特征内容是对应几个ID值的列表。
图像类特征：Poster，内容是一张180×270的图片。
文本类特征：Title，内容是一段英文文本。

因为特征数据有四种不同类型，所以构建模型网络的输入层预计也会有四种子结构。

如何实现推荐

如何根据上述数据实现推荐系统呢？首先思考下，实现推荐系统究竟需要什么？

如果能将用户A的原始特征转变成一种代表用户A喜好的特征向量，将电影1的原始特征转变成一种代表电影1特性的特征向量。那么，我们计算两个向量的相似度，就可以代表用户A对电影1的喜欢程度。据此，推荐系统可以如此构建：

假如给用户A推荐，计算电影库中“每一个电影的特征向量”与“用户A的特征向量”的余弦相似度，根据相似度排序电影库，取 Top k的电影推荐给A。

图9：推荐系统设计

这样设计的核心是两个特征向量的有效性，它们会决定推荐的效果。

如何获得有效特征

如何获取两种有效代表用户和电影的特征向量？首先，需要明确什么是“有效”？

对于用户评分较高的电影，电影的特征向量和用户的特征向量应该高度相似，反之则相异。

我们已经获得大量评分样本，因此可以构建一个训练模型如下图所示，根据用户对电影的评分样本，学习出用户特征向量和电影特征向量的计算方案（灰色箭头）。

图10：训练模型

第一层结构：特征变换，原始特征集合变换为两个特征向量。
第二层结构：计算向量相似度。为确保结果与电影评分可比较，两个特征向量的相似度从【0~1】缩放5倍到【0~5】。
第三层结构：计算Loss，计算缩放后的相似度与用户对电影的真实评分的“均方误差”。

以在训练样本上的Loss最小化为目标，即可学习出模型的网络参数，这些网络参数本质上就是从原始特征集合到特征向量的计算方法，如灰色箭头所示。根据训练好的网络，我们可以计算任意用户和电影向量的相似度，进一步完成推荐。

从原始特征到特征向量之间的网络如何设计？

基于上面的分析，推荐模型的网络结构初步设想如下。

图11：推荐模型的网络结构设想

将每个原始特征转变成Embedding表示，再合并成一个用户特征向量和一个电影特征向量。计算两个特征向量的相似度后，再与训练样本（已知的用户对电影的评分）做损失计算。

但不同类型的原始特征应该如何变换？有哪些网络设计细节需要考虑？我们将在后续几节结合代码实现逐一探讨，包括四个小节：

数据处理，将MovieLens的数据处理成神经网络理解的形式。
模型设计，设计神经网络模型，将离散的文字数据映射为向量。
配置训练参数并完成训练，提取并保存训练后的数据特征。
利用保存的特征构建相似度矩阵完成推荐。

作业10-1

基于CV和NLP章节所学知识，给出一个推荐模型的网络设计方案，并将网络结构画图或代码表示提交。

相似文档

零基础实践深度学习第七章：推荐系统（上） - 数据处理与读取
数据集回顾：在进行数据处理前，我们先回顾下本章使用的ml-1m电影推荐数据集。 ml-1m是GroupLens Research从MovieLens网站上收集并提供的电影评分数据集。包含了6000多位用户对近3900个电影的共100万条评分数据，评分均为1～5的整数，其中每个电影的评分数据至少有20条。
零基础实践深度学习第七章：推荐系统（下） - 电影推荐模型设计
模型设计的代码需要用到上一节数据处理的Python类，定义如下： import random import numpy as np from PIL import Image class MovieLen(object): def __init__(self, use_poster):
零基础实践深度学习第七章：推荐系统（下） - 模型训练与特征保存
启动训练前，复用前面章节的数据处理和神经网络模型代码，已阅读可直接跳过。 import random import numpy as np from PIL import Image import paddle from paddle.nn import Linear, Embedding, Conv2D import paddle.nn.functional as F import math
零基础实践深度学习第七章：推荐系统（下） - 电影推荐
训练并保存好模型，我们可以开始实践电影推荐了，推荐方式可以有多种，比如：根据一个电影推荐其相似的电影。根据用户的喜好，推荐其可能喜欢的电影。给指定用户推荐与其喜好相似的用户喜欢的电影。这里我们实现第二种推荐方式，另外两种留作实践作业。
第八章：为什么要精通深度学习的高级内容？
为什么要精通深度学习的高级内容？在前面章节中，我们首先学习了神经网络模型的基本知识和使用飞桨编写深度学习模型的方法，再学习了计算机视觉、自然语言处理和推荐系统的模型实现方法。至此，读者完全可胜任各个领域的建模任务。

文档中心

推荐系统的产生背景

推荐系统的经济学本质

推荐系统的基本概念

思考有哪些信息可以用于推荐

常用的推荐系统算法

使用飞桨探索电影推荐

数据集介绍

如何实现推荐

如何获得有效特征

从原始特征到特征向量之间的网络如何设计？

作业10-1

文档中心

全民上云·上云补贴申领

免费试用（限企业）

推荐系统的产生背景

推荐系统的经济学本质

推荐系统的基本概念

思考有哪些信息可以用于推荐

常用的推荐系统算法

使用飞桨探索电影推荐

数据集介绍

如何实现推荐

如何获得有效特征

从原始特征到特征向量之间的网络如何设计？

作业10-1