推荐模型七篇

2024-05-13

推荐模型 篇1

随着网络技术的发展以及机器学习、数据挖掘等知识发现技术的出现, 推荐系统应运而生, 它根据用户的兴趣爱好, 推荐符合用户兴趣爱好的对象。推荐系统模拟商店销售人员向用户提供商品推荐, 帮助用户快速找到所需商品, 顺利完成购买过程, 可以有效保留用户, 提高电子商务系统的销售能力, 重建客户关系。目前电子商务推荐系统主要有两种方法, 一是基于内容过滤的推荐方法, 二是基于协同过滤的推荐方法。

基于内容过滤的推荐方法, 为每个用户建立兴趣模型 (profile) , 根据用户以往的购买历史和访问数据, 提取用户的兴趣特征集合, 形成用户的兴趣模型。基于内容过滤的系统如:Personal WebWatcher[1], CiteSeer[2], WebMate[3], WebPersonalizer[4]等。基于内容过滤的系统其优点是简单、有效, 缺点是难以区分资源内容的品质和风格, 而且不能为用户发现新的感兴趣的资源。

基于协同过滤的推荐方法, 其出发点在于任何人的兴趣不是孤立的, 应处于某个群体所关心的兴趣当中, 因此可以根据相同或相近兴趣的用户对相应信息作出的评价进行推荐。基于协同过滤的系统如: WebWatcher[5], GroupLens[6], SiteSeer[7]等。基于协同过滤系统的优点是能为用户发现新的感兴趣的信息, 缺点是存在稀疏性问题和可扩展性问题。

本文提出一种基于用户兴趣的混合模式推荐方法, 该方法首先根据用户的购买数据和浏览行为, 形成用户的兴趣模型, 并按商品与用户兴趣模型的相似度进行推荐;然后, 根据相似兴趣的用户其特征向量也相似的原则将用户进行分类, 按照用户特征相似度进行推荐;再根据用户评价的相似度, 将评价一致或者相似的用户分为一类, 利用用户间的评价进行推荐;最后对推荐的贡献进行加权求和, 形成最终的推荐。该推荐方法综合考虑来自两个类别的影响, 能动态调整用户类别以及相应地修改各类参数, 以提高推荐系统的准确性。

2 用户兴趣模型的表示机制

要实现个性化的推荐服务, 首先必须搜集用户的个人信息, 建立用户兴趣特征模型。用户兴趣模型建立的主要依据是用户感兴趣的文本以及用户对于文本的关注程度, 用户对文本内容兴趣的程度不同, 其对用户兴趣模型的贡献也不同, 用户兴趣模型是感兴趣的文本以及兴趣强度的函数[8,9], 即:

Μodel-Use=f (<D1, g1>, <D2, g2>, , <Ds, gs>)

其中Di表示示例文本集, gi是对Di的兴趣强度, s是文本数, i=1, 2, 3, …, s.

用户兴趣模型的基础是示例文本的特征表示, 用户对于文本的关注可大致归结为对概念的关注, 兴趣强度越大, 说明该文本所体现的概念对于用户的兴趣相关程度越大。用户对于文本的关注强度可以根据显式方式获得, 即通过用户明确的反馈获得, 也可以通过隐式方式获得, 即收集用户的访问模式来确定。兴趣强度设定为如下函数:

gi=g (Di, Bi, U)

其中0≤gi≤1, U表示用户;Di表示访问的HTML页面或者文本;i表示文本编号;Bi表示访问模式的类型, i=1, 2, …, s; gi表示用户关注强度。

Bi∈{Bookmark, Save, BrowseTime, BrowsePage, Feedback, …}, Bookmark表示将页面加入书签的动作;Save表示保存页面; BrowseTime表示浏览的时间因素; BrowsePage浏览指定页面的动作, 如滚动或点击; Feedback表示对于给定的要求, 用户给予的反馈。

设用户的示例文本的特征向量为Di= (ti1, ti2, …, tik) , 这里是潜在语义空间的k维向量;用户U对于示例文本Di的兴趣强度为gi=g (Di, Bi, U) , n是示例文本数目, 则用户兴趣模型为:

User-Vector=i=1ngiDi= (i=1ngit1i, i=1ngit2i, , i=1ngitki) = (u1, u2, , uk)

3 混合模式推荐模块的构建与修改

3.1 混合模式推荐算法的流程

整个推荐分为两个模块, 即内容过滤推荐模块和协同过滤推荐模块, 其基本流程是:首先将用户当前访问序列、用户购物历史数据和Web日志等内容进行预处理, 提取出用户兴趣的主题向量和特征向量, 经过数据处理建立基于内容过滤的推荐模块;再根据用户兴趣特征、用户评分数据和当前访问序列等数据, 建立基于协同过滤的推荐模块, 提取用户的最近邻和当前访问序列的最近邻;然后综合两个推荐模块进行加权求和运算, 对产品信息库中的产品, 与混合推荐模型进行相似度计算 (即推荐处理) , 生成top-N推荐访问序列, 通过Web服务器将序列推荐给用户, 并获得用户对推荐序列的反馈信息, 自适应的调整推荐模型和阈值, 以获得最佳的推荐质量。

基于用户兴趣的混合模式推荐算法的基本流程如图1所示。

3.2 基于内容过滤推荐模块的建立

(1) 数据处理流程

首先将用户U当前访问序列转变为兴趣主题向量, 连同从用户历史购物数据和Web日志中抽取的特征向量进行加权和运算, 得到初始推荐模型, 再计算初始向量和当前访问序列之间的相似度, 最后为每一个兴趣主题设置最优的初始相似度阈值。

数据处理的流程如图2所示。

(2) 基于内容过滤的推荐模型

初始推荐模型向量是由兴趣主题向量、从用户购物历史数据中抽取的特征向量以及从Web日志中抽取的特征向量进行加权和运算得到的, 设权重分别为a, bc, 则有:

Ρf0 (Q) =aΡ0 (Q) +bΡ1 (Q) +cΡ2 (Q)

式中Q表示兴趣主题, Pf0 (Q) 表示用户兴趣主题Q的初始推荐模型向量, P0、P1和P2分别是它的3个分向量。P0 (Q) 是主题向量, P0 (Q) = (P01, P02, …, P0w) , P0i表示第i个词wi的权重;P1 (Q) 是从用户购物历史数据中抽出的特征向量, P1 (Q) = (P11, P12, …, P1w) , P1i表示wi的权重;P2 (Q) 是从Web日志中抽出的特征向量, P2 (Q) = (P21, P22, …, P2w) , P2i表示wi的权重。

3.3 基于用户协同过滤推荐模块的建立

选取登录次数较多和浏览文本较多的用户参与用户聚类, 便于从总体上考虑产品信息内容与用户兴趣之间的关系, 兼顾产品信息的范围。用户聚类模块可以根据聚类的内容不同而分为用户的内容类和用户的合作类。

(1) 用户的内容类

用户的内容类依据用户兴趣之间的相似度进行确定, 本文选择用夹角余弦的方法, 用户的兴趣相似度为simC (U, V) =cos (U, V) , UV表示用户, U= (u1, u2, …, uk) , V= (v1, v2, …, vk) 。

根据用户特征向量之间的相似度, 将其进行聚类, 使兴趣相近的用户归入一类, 便于处理, 同时对于新产品信息文档, 通过判断其类别归属, 获得应该推荐的用户清单。假定所要求的分类数为K, 用户数为P, 两个用户之间的相似度采用夹角余弦公式, 两个类之间的相似度为两类之间最不相似的用户特征向量相似度:

simC (Cr, Ct) =minUCr, VCtsimC (U, V)

分类中采用完全联接的基本思想在于使同一类中用户兴趣的相似度较大, 而不同类之间的用户兴趣的相似度较小。

具体分类算法如下:

①设分类数为L, 初始时刻L=P, 即P个用户各成一类, Ci={Ui}。

②若LN则结束退出。

③寻找两类之间相似度最小的两类Ci, Cj.

④合并Ci, Cj, 删除Cj, 计算新类与其它类的相似度, 转L=L-1。

当达到预先给定的类别数N时, 分类停止。由此获得N个用户类{C1, C2, …, Cn}, 由于是基于用户兴趣内容进行的分类, 故称为用户的内容类 (content class) 。

(2) 用户的合作类

基于内容所作的分类即通过内容的相似度进行分类, 其好处是能够发现和用户已有兴趣相似的信息, 但如何发现新的感兴趣的信息, 还要通过合作方式获得, 即通过用户间的评价相似度来确定对于信息的感兴趣程度。基于合作方式的用户类别作为用户内容类的某种程度上的兼类, 称之为合作类 (collaborative class) , 仿照内容类的划分方法, 进行合作类的划分。

定义用户之间的评价相似度为:

simD (U, V) =DUVmin (g (D, B, U) , g (D, B, V) ) UV

式中U, V分别表示用户评价的文本集合, ‖U‖和‖V‖分别表示其评价的文本数量, g (D, B, U) 和g (D, B, V) 分别表示用户UV的兴趣强度函数, D表示访问的HTML页面或者文本, B表示访问模式的类型。

通过相似性的度量得到目标用户的最近邻后, 下一步则需要产生相应的推荐。设用户U的最近邻集合用NNu表示, 则用户U对项目i的预测评分Pu, i可以通过用户U对最近邻集合NNu中项目的评分得到, 计算方法如下:

Ρu, i=R¯u+nΝΝusim (U, Ν) (Rn, i-R¯n) nΝΝu (|sim (U, Ν) |)

式中sim (U, N) 表示用户U与用户N之间的相似性, Rn, i表示用户N对项目i的评分, R¯uR¯n分别表示用户U和用户N对项目的平均评分。

通过上述方法预测用户对所有未评分项目的评分, 然后选择预测评分最高的前若干个项目作为推荐结果。

3.4 混合模式推荐模型的建立

对于产品信息库中对产品进行描述的信息文本D, 获取其在语义空间的特征表示, 首先计算D与用户U兴趣的相似度, 即文本特征向量与用户特征向量的相似度simU (U, D) ; 然后计算与用户的内容类的相似度, 即计算内容类的类别特征向量与文本特征向量的相似程度simCE (U, D) ;其次计算与用户合作类的相似度simDE (U, D) , 最后综合计算文本D与用户U的相似度。

这里类别特征向量为:

L= (i=1Ld1iL, i=1Ld2iL, , i=1LdkiL) = (l1, l2, , lk)

L为类别, ‖L‖为类别的用户数, dij为第i个用户的第j个特征分量。

simU (U, D) =simU (pf, D) =cos (pf, D) , 表示根据用户兴趣模型pf与文本D的相似度。

simCE (U, D) =cos (C, D) , 表示用户所在的内容类别C与文本D的相似度。

simDE (U, D) =1Li=1Lg (D, Bi, Ui) , 表示用户所在的合作类对文本D的兴趣强度。

最终的综合相似度sim (U, D) 为下面公式所示:

sim (U, D) =αsimU (U, D) +βsimCE (U, D) +γsimDE (U, D)

式中αβγ为可调节的权重参数, 表明在匹配过程中, 用户兴趣模型相似度、用户的内容类类别兴趣相似度、用户的合作类兴趣强度对推荐系统的贡献程度, α+β+γ=1 (0≤α≤1, 0≤β≤1, 0≤γ≤1) 。若β=0, γ=0, 则为基于内容过滤的推荐模型;若α=0, 则为协同过滤的推荐模型。

4 实验结果及分析

4.1 实验数据集和评价指标

本文采用MovieLens站点 (http://movielens.umn.edu/) 提供的数据集来测试混合模式推荐算法。从用户评分数据库中选择12000条评分数据作为实验数据集, 实验数据集中共包含245个用户和1106部电影, 其中每个用户至少对20部电影进行了评分, 评分值为从1到5的整数, 数值越高, 表明用户对该电影的偏爱程度越高。

整个实验数据集需要进一步划分为训练集和测试集, 为此引入划分系数x表示训练集占整个数据集的百分比, 我们选择的电影数据集的稀疏等级为:

1-12000245×1106=0.9557

评价推荐系统推荐质量的度量标准主要包括统计精度度量方法和决策支持精度度量方法两类。本文采用平均绝对偏差MAE (Mean Absolute Error) 和文本检索系统中的综合评价指标F-measure作为度量标准。平均绝对偏差MAE通过计算预测的用户评分与实际的用户评分之间的偏差度量预测的准确性, MAE越小, 推荐质量越高;文本检索系统中的综合评价指标F-measure综合考虑了精确率和召回率对推荐系统的影响, F-measure值越大, 对应的推荐效果越好。

4.2 实验结果及分析

首先查看在不同的训练集测试集比例即拷虑在不同数据稀疏程度的情况下, 两种方法的MAE性能比较, 最近邻用户数值设置为30, 实验结果如图3所示;然后查看在一定训练集测试集比例即稀疏程度不变、最近邻集大小不同的情况下, 两种方法的MAE性能比较, 考虑最近邻集大小的不同对算法性能的影响, 实验结果如图4所示。

从图3和图4可以看出, 基于用户兴趣的混合模式推荐方法的平均绝对偏差MAE数值比基于用户协同过滤推荐方法的MAE数值也要小, 混合模式推荐算法的MAE曲线也处于基于用户协同过滤算法的MAE曲线下方, 混合模式推荐方法的推荐效果优于基于用户协同过滤推荐算法的推荐效果。在数据稀疏程度不同的条件下, 随着训练集数据的增多, 两者之间MEA值的差距在逐渐缩小, 说明混合模式推荐效果的优势随着训练集的增多而缩小;在数据稀疏程度相同的条件下, 随着最近邻集数量的增加, 推荐效果将会下降, 说明在较小的最近邻数值范围内就可以得到较为准确的预测值。

为了比较基于用户兴趣的混合模式推荐方法与基于内容过滤的推荐方法的性能, 将2002年的数据作为训练集, 2003年、2004年和2005年的数据作为测试集, 两种方法在F-measure指标的实验结果如图5所示。

从图5可以发现, 不论是基于内容过滤的推荐方法还是基于用户兴趣的混合模式推荐方法, 其综合评价指标F-measure随着时间的推移逐渐提高, 说明两种推荐方法随着系统的运行, 其综合性能都能得到提高, 系统具有一定的机器学习能力;同时, 混合模式推荐方法的F-measure曲线位于基于内容过滤推荐方法对应折线的上方, 说明混合模式推荐方法的推荐效果优于基于内容过滤推荐方法的推荐效果。

5 结束语

基于用户兴趣的混合模式推仅方法综合考虑用户的阅读习惯和兴趣, 同时也利用了用户之间的评价所体现出来的兴趣一致性, 不但能够根据用户的历史资料来推荐相似的信息, 而且能够通过相似兴趣用户的推荐来获取新的信息, 实现兴趣的扩充和转移, 推荐质量得到了显著提高。本文只是针对推荐系统中用户信息和商品信息的处理这一小部分作了分析和探讨, 提出的方法也有一定的局限性, 在实际应用中可能会存在一些问题, 下一步工作可以从信息获取、推荐质量与推荐实时性平衡等方面展开。

参考文献

[1]Mladenic D.Machine learning for better Web brows-ing[A].Rogers S, Iba W.AAAI 2000 spring sym-posium technical reports on adaptive user interfaces[C].Menlo Park, CA:AAAI Press, 2000:82~84.

[2]Bollacker K D, Lawrence S, Giles C L.Discoveringrelevant scientific literature on the Web[J].IEEEIntelligent Systems, 2000, 15 (2) :42~47.

[3]Chen L, Sycara K.WebMate:a personal agent forbrowsing and searching[A].Sycara K P, WooldridgeM.Proceedings of the 2nd international conferenceon autonomous agents[C].New York:ACM Press, 1998:132~139.

[4]Mobasher B, Cooley R, Srivastava J.Automatic per-sonalization based on Web usage mining[J].Commu-nications of the ACM, 2000, 43 (8) :142~151.

[5]Joachims T, Freitag D, Mitchell T.WebWatcher:atour guide for the World Wide Web[A].Georgeff MP, Pollack E M.Proceedings of the internationaljoint conference on artificial intelligence[C].SanFrancisco:Morgan Kaufmann Publishers, 1997:770~777.

[6]Konstan J, et al.GroupLens:applying collaborativefiltering to usenet news[J].Communications of theACM, 1997, 40 (3) :77~87.

[7]Rucker J, et al.Siteseer:personalized navigation forthe web[J].Communications of the ACM, 1997, 40 (3) :73~75.

[8]曹毅, 贺卫红.基于向量空间模型的信息安全过滤系统[J].计算机工程与设计, 2006, 27 (2) :224~227.

推荐模型 篇2

随着在线消费的日益普及和交易额的逐步增大, 各大电子商务企业为了更好的吸引用户和提高网站的交叉销售量, 在其网站中都采用了个性化推荐的功能, 期望通过记录客户的购买信媒体息及物品的关联性向网站用户推荐他们感兴趣的商品, 从而增加了网站浏览者到消费者的转换率。

与此同时随着社交网络的发展, 用户的消费行为也从原来的货比三家变成了如今的通过产品销量及其反馈来进行消费决策, 在价格可接受的范围内, 用户的评分和评价影响了绝大多数用户的在线购买行为。相比于普通用户的评论, 消费者更愿意接受和信任的是其好友的评论及其推荐, 同时社交媒体的发展也为了解好友的购买行为提供了支持。

目前的电子商务推荐系统主要还是以经典的User-Based模型, Item-Based模型和LFM模型为主的推荐。本文将考虑社交网络中好友的因素, 在个性化推荐用户模型的构建中考虑好友的推荐因素, 给出推荐的模型和算法, 并通过数据抓取、分析、处理对模型进行验证、调优, 最后对于电子商务网站的个性化推荐提出改进意见。

二、相关研究

1992年, 美国施乐公司研究所开发了Tapestry系统, Tapestry的设计主要是为了解决施乐公司在Palo Alto的研究中心邮件过滤的问题。1994年, 明尼苏达大学双城分校计算机系的一个实验室推出了Group Lens推荐系统, 该系统向用户推荐文章。其运用了非常著名的协同过滤算法 (Collaborative filtering) 。

在Group Lens之后还有性质相近的Tivo, 影音推荐系统;Movie Lens, 电影推荐系统;Ringo, 音乐推荐系统等等。如今的You Tube等网站也采用的相似的思想。

随后在各类电子商务网站, 个性化推荐系统得到了广泛应用, 包括亚马逊 (Amazon.com) 、淘宝, 当当等购物网站。

协同过滤 (Collaborative Filtering) , 是指利用拥有相似兴趣或拥有共同经验的群体的喜好来向用户推荐其感兴趣的内容。用户通过评分等机制将信息传递给系统, 达到过滤的目的, 从而帮助兴趣相似的用户进行筛选。信息的反馈并不仅限于好的评分, 差的评分也包括在内。协同过滤同时又可分为评分过滤以及群体过滤, 其后者正逐渐成为电子商务当中很重要的一环。群体过滤 (Social Filtering) 即根据顾客的购买历史记录以及具有相似购买行为的顾客群的购买行为去推荐当前顾客所可能感兴趣的内容。除了推荐之外, 近年来也有研究数学运算让系统自动计算喜好的强弱程度从而加强推荐质量, 也许不是百分之百完全推荐正确, 但由于加入了强弱的评分让这个概念的应用更为广泛。

三、基于好友因素的个性化推荐模型的构建

基于Web2.0的社交媒体注重用户的交互作用, 用户会聚集成一个个的群体, 拥有相同爱好或兴趣的用户会聚集成一个兴趣小组, 从而形成以兴趣为聚合的社区。在这样一个社交社区中, 用户的购买决策从关注商品的价格、质量、功能, 转变到了关注商品的销量和用户的评论, 而其中评论和销量的数据中又有大众和好友的区分。

1. 研究对象选取

本文拟建立的是社交媒体中评论和销量对于推荐模型的改进, 对于选取的研究对象需要满足以下条件:

(1) 拥有大量注册用户

(2) Web2.0社区, 用户可以创造内容

(3) 拥有用户购买决策或消费倾向的数据

(4) 拥有API, 可容易获取数据

(5) 拥有评论、销量等基本反馈因素

(6) 拥有好友关系, 或兴趣小组

结合以上要求, 本课题选择豆瓣读书作为研究对象, 豆瓣以书影音起家, 一直致力于帮助都市人群发现生活中有用的事物, 通过桌面和移动产品来服务都市日常生活的各个方面。

豆瓣读书拥有活跃的用户群体以及丰富的好友关系网络, 对于本文的数据获取是一个便利条件。

2. 模型的总体设计

本文结合个性化推荐中产品因素和用户因素, 同时在此基础上我们增加了一个反馈因素的影响。在社交媒体影响下, 影响用户购买行为的因素包括产品影响、自身影响、反馈影响, 这些因素分别包含了以下的内容:产品影响 (产品的特性, 诸如产品的基本信息, 品质、质量等内容) , 自身影响 (包含用户的基本信息, 如出身日期, 出身地, 以及用户的偏好) , 反馈影响 (他对对自身的影响, 包含好友关系, 好友数量, 好友影响力, 他人对业务的评价, 包含用户的评论、评分, 他人对业务的选择, 包含用户的购买行为) 。为此选取的影响因素总体设计如图1所示:

3. 模型构建及假设

根据选取的研究对象以及模型的总体设计, 结合豆瓣的数据特点, 用户的阅读行为与用户自身特性, 书本特性, 普通用户行为以及朋友行为相关, 对模型的因变量以及自变量设计如图2所示:

根据计量经济学的建模方法, 建立一个多元Logit模型如式1所示:

其中U代表用户自身的因素, O代表其他用户的因素, B代表书籍本身的因素, ε为误差量 (噪声) , 模型中设计相关自变量与因变量设计如表1所示。

根据用户多元Logit模型以及自变量的选取, 用户的阅读行为可以表示为式2, 其中α1α2α3α4为自身属性系数, β1β2β3β4β5为反馈属性系数, γ1为书本属性系数。

根据用户行为模型的设计, 提出的如下假设:

(1) 用户存在从众效应, 阅读量大的数据会增大用户对该书籍的阅读。

(2) 拥有大量书评的图书会加大用户的阅读可能性。

(3) 用户更倾向于阅读偏好 (具有相同标签) 的图书。

(4) 高评分的图书更容易吸引用户。

(5) 用户的书评信息对用户的阅读产生积极影响。

(6) 在线反馈对用户的阅读倾向产生积极影响。

4. 数据获取及验证

为研究反馈机制对Web2.0时代的消费者购买决策产生的影响, 需要根据前一节中的模型设计进行数据采集并验证模型, 借助豆瓣开放的API, 编写数据采集程序, 可以获取到验证模型的数据。

根据模型数据需求, 首先获得豆瓣热门图书榜单的图书, 从每本书的评论中随机抽取2位有效用户 (阅读量>10) , 获得40位目标用户的基本信息, 好友关系, 阅读历史信息, 书本信息, 设计数据抓取方案如图3所示。

根据研究需要, 编写程序获得待处理队列, 包括书本ID, 用户ID, 用户好友ID, 并放入待处理队列, 编写程序获得需要的处理的数据并存储。数据处理流程如图4所示。

四、个性化推荐系统的研究结论

1. 模型验证

对于本文中的用户阅读行为研究 (0不读, 1为阅读) , 不能满足正态性和方差齐性, 故不能直接使用线性模型来拟合方程。而Logistic回归正是处理因变量是二分类或多分类变量的一种方法。现已广泛应用于队列研究, 已成为分类因变量的首选多变量分析模型。

根据上一节的模型设计以及数据抓取方案的设计, 为研究反馈机制对Web2.0时代的消费者购买决策产生的影响, 将处理后的数据使用Stata软件进行Logistic回归分析。

对上一节中采集到的数据进行预处理, 统一数据单位, 所有的日期用天来表示, 对于用户阅读偏好Upref进行取对数处理, 得出的运行结果如图5所示。其中P>|z|中的数值, <0.01代表自变量在1%的水平上显著, <0.05代表自变量在百分之5的水平上显著, <0.1代表自变量在百分之10的水平上显著。

2. 模型分析及结果

根据上一节的模型验证以及分析结果, 其中P>|z|中的数值<0.1时代表该自变量对用户行为有显著影响, 从分析结果可以看出以下变量对用户的阅读行为有着显著影响, UPref (用户的阅读偏好) , FRead (用户好友中对书的阅读行为) , Bread (书本的总阅读量) 。

3. 结论

由分析结果可以得出结论, 大部分选择的变量与用户的阅读行为存在着关系, 其中用户阅读偏好, 好友的阅读行为, 书本的阅读总量存在显著影响, 而用户的自身阅读总量, 用户的注册时间对用户的阅读行为影响力有限。

结合前文中提出的假设, 可以得出以下推论:

(1) 用户存在从众效应, 阅读量大的数据会增大用户对该书籍的阅读。

(2) 用户更倾向于阅读偏好 (具有相同标签) 的图书。

(3) 用户好友的阅读行为对好友的阅读倾向有显著影响。

(4) 在线反馈对用户的阅读倾向产生积极影响。

综上所述, 在Web2.0时代, 得益于用户的参与, 在线反馈在个性化推荐系统中占据着很大的比重, 也正成为各大研究的热点, 在线反馈对用户的购买决策产生了显著影响。个性化推荐系统的研究与开发对用户发现有价值的信息以及电子商务网站推荐用户感兴趣的内容都有很重要的意义。

摘要:随着社交媒体的广泛应用, 在电子商务行为中, 消费者很大程度上的购买决策会受到他人因素的影响, 尤其是好友的影响。本文提出了社交媒体网络下, 用户评论和销量对于推荐模型的影响, 建立了基于社交媒体中好友的评论的个性化推荐模型。通过从国内的社交网络中采集相关数据, 对模型的效果进行了验证。

关键词:个性化推荐,社交网络,好友影响,推荐模型

参考文献

[1]Goldberg, D., Nichols, D., Oki, B.M., Terry, D.Using collaborative filtering to weave an information tapestry[J].Communications of the ACM, 1992, (35) :61-70.

[2]P.Resnick.GroupLens:An Open Architecture for Collaborative Filtering of Netnews, ”Proc[J].Computer Supported Cooperative Work, 1994:175-186.

[3]Ali, K., van Stam, W.TiVo:making show recommendations using a distributed collaborative filtering architecture[J].In:Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2004:394-401.

[4]Linden, G.Smith, B.;York, J., Amazon.com recommendations:item-to-item collaborative filtering, Internet Computing, IEEE, Jan/Feb 2003:76-80.

电信套餐个性化推荐模型 篇3

关键词:电信套餐;数据挖掘;协同推荐

引言:近几年,随着国内电信市场逐渐饱和,运营商基础通信服务慢慢呈现供大于求的局面,新用户净增数逐年呈下降趋势,三大运营商之间的竞争也日趋白热化,运营商在价格竞争的同时,设计推出大量的电信套餐来满足日新月异的用户需求。然而大量电信套餐的上市行为并没有缓解各大运营商的竞争压力,反而引发一系列的问题[1]:(1)对于用户来说,电信套餐数量庞大,多种套餐的捆绑内容和额度近似,月租费却又相差很多,很难从大量的套餐中快速选择出符合用户需求的套餐,同时用户和套餐的不适配会对用户造成不必要的经济损失,容易引发用户对电信企业形象的负面评价,最终造成用户流失。(2)从企业角度来看,电信企业难以把握用户的需求和市场热点,对于新套餐的推广仍然采用粗放式的广告投放方式,造成用户审美疲劳,高成本,低回报,实际推广效果不理想,造成企业大量资源浪费。因此,电信系统主动向用户推荐合适套餐的研究十分必要。本文对协同过滤算法及其关键技术做了详细分析,并针对电信行业特点设计了电信套餐的个性化推荐模型,并对模型的主要模块进行了详细介绍。

一、协同推荐算法及其关键技术

(一)协同过滤推荐的概念。协同过滤推荐[2]也被称为社会过滤推荐,在社会群体中以兴趣相似度为度量寻找用户间的相关性,或发现项目间的相关性,基于这些关联性进行推荐活动。实现协同推荐主要有三个步骤:步骤1:收集用户偏好数据。步骤2:计算相似度,找到相似用户群或者物品。步骤3:依据推荐策略,进行推荐计算。协同过滤推荐算法根据相似度比较对象的不同,可分为基于用户的协同推荐和基于物品的协同推荐。

(1)基于用户的协同推荐算法。根据历史数据,计算所有用户对产品的喜好程度,并由此找到目标推荐用户的相似邻居集,依据算法原则“邻居用户喜欢的产品,目标推荐用户也可能喜欢”将邻居用户喜欢的产品汇总并排序形成推荐集推荐给目标用户。(2)基于物品的协同推荐算法。根据历史数据,计算所有用户对产品的喜好程度,并由此找到相似物品集,依据算法原则“正在使用物品的相似物品,用户也可能喜欢”将相似物品汇总并排序形成推荐集推荐给目标用户。

(二)相似度计算。在推荐的场景中,需要进行用户间的相似度计算,或者进行物品间的相似度计算,以下为几种常用的相似度计算方法:

(1)欧几里德距离。欧氏距离是最容易理解的一种距离计算方法,源自欧氏空间中两点间的距离公式。两个n维向量a

(x11,x12,…,x1n)与b(x21,x22,…,x2n)间的欧氏距离。

d(x,y)=■ 公式(1)

(2)Cosine相似度。Cosine 相似度被广泛应用于计算文档数据的相似度。T(x,y)=■=■ 公式(2)

(3)皮尔逊相关系数。皮尔逊相关系数一般用于计算两个定距变量间联系的紧密程度,它的取值在 [-1,+1] 之间。

p(x,y)= ■=■ 公式(3)

注:Sx, Sy是 x 和 y 的样品标准偏差。

(三)相似邻居的计算。根据相似度计算确定邻居主要有两种方式:(1)固定数量邻居法。不管有多少数量的邻居,我们只用距离来确认最近的K个,作为其邻居。该方法容易受K值影响,近似邻居数小于K值时,会选择远距离不太相似的点作为邻居,对推荐集造成影响,降低推荐准确率。(2)基于相似度门槛的邻居。以当前目标点为中心,K值为半径的圆范围,范围内的所有点都是其邻居,该方法不能确认邻居的数量,但是能够保证邻居用户间的相似度不会产生太大差异,确保推荐结果的准确性。

(四)协同过滤算法的优势和不足。(1)协同过滤算法的优势。1)内容难以解析的商品也能够很好的进行推荐,如电影、音乐。2)能够挖掘用户潜在需求,推荐内容新颖。(2)协同过滤算法的不足。1)稀疏性问题:如果用户历史评价信息缺失或者稀少,利用评价信息寻找相似用户的准确性就会大大降低。2)性能问题:随着推荐用户数和推荐商品种类数的增加,系统的性能会越加低效。3)冷启动问题:没有用户使用或者评价的新产品,无法运用协同推荐。

二、基于用户消费行为的电信套餐个性化推荐模型

本文根据电信行业的特点,从用户消费行为数据出发,结合数据挖掘技术和推荐方法构建了如图1所示的电信套餐个性化推荐模型。

图1 电信套餐个性化推荐模型

电信套餐个性化推荐模型共分为7个主要模块:

(1)信息收集模块。信息收集,包括用户基本信息、消费清单账单数据、用户业务订购数据、用户终端使用信息、套餐产品构成信息、套餐资费等信息的收集。(2)用户建模。先根据电信业务领域相关知识构建电信业务领域本体模型,每一个用户模型/套餐模型都是电信业务领域本体的一个实例,业务本体依据用户消费偏好数据自动生成个性化的用户模型,每一个电信套餐也依据套餐设计信息由本体生成个性化的套餐模型。(3)聚类分析模块。电信用户数据具有基数大、数据结构复杂的特点,造成推荐算法计算量巨大,推荐系统负荷过重,影响推荐效率,针对此问题采取K-means聚类对用户数据进行预处理操作,大大减少用户或者物品的最近邻居搜索范围,提高计算速度,从而提高推荐效率。为了达到细分用户的目的,需要进行两次用户聚类。一次聚类是根据用户消费占比数据将用户群划分成数个消费偏好存在差异的类簇;二次聚类是在一次聚类结果集的基础上,选择目标用户所在的类簇为第二次聚类的数据源,根据用户在各业务的消费量值为依据来进行用户的聚类划分。(4)寻找邻居用户集模块。在聚类结果集的基础上,选择合适的相似度计算方法进行用户相似度计算,并以目标推荐用户为中心,以用户间的相似度为距离值,选取最近的K个用户作为目标推荐用户的最近邻居用户集。(5)个性化推荐集生成模块。由邻居用户集确定套餐预测集和增值业务预测集,同时进行TOP-N筛选、电信业务规则过滤和用户-套餐的适配比对过程,最后形成一个满足用户电信需求的套餐或者增值业务推荐集。(6)套餐推荐模块。以分区推荐的方式,将个性化推荐集混合推荐给目标用户,并给系统反馈推荐结果和相关推荐反馈信息。(7)推荐系统更新模块。根据反馈信息评估整个推荐模型和过程,确认模型存在缺陷就将更新信息反馈回电信业务领域本体,更新本体结构和概念等信息,生成新本体,同时重新生成用户模型和套餐模型。

结论:本文主要介绍了协同过滤算法的主要思想、关键技术以及算法存在的问题,同时根据电信行业特点和数据特征,研究者提出了基于用户消费行为的电信套餐个性化推荐模型用以有效解决电信套餐的个性化推荐问题,智能推荐符合用户需求的电信套餐,从而推进电信服务产品智能化的研究进程。

参考文献:

[1] 陶如军. 中国电信:拥抱互联网思维[J]. 国企, 2014, 09:58-61.

《模型》教案(本站推荐) 篇4

教学目标:

1、知道模型及其功能,理解模型制作在产品设计中的作用。

2、理解模型是技术设计中的一个环节和一种重要方法。

3、关注模型方法的广泛应用,感受模型在技术中的价值。

4、培养同学们的创新思维和动手设计能力,及培养热爱祖国、热爱科学的情操。

教学重难点:

1、知道模型及其功能

2、理解模型制作在产品设计的不同阶段有不同的作用

3、根据方案设计简单产品的模型或原型。教学方法:

学生主动思考、讨论、设计,教师配合讲解、演示、提问,师生互动。

教学媒体运用:电脑多媒体平台

教学资源准备:CAI课件、模型、模型设计装置图 教学过程:

【导入新课】 放映一段《大东方号》的视频导入新课。

一、原型及其作用

1、原型

原型(Prototype)可以是产品本身,也可以是在产品生产之前制作的与产品大小相同、使用功能一致的物体。

2、原型的作用

(1)有利于对设计方案的实现效果进行评估。

(2)有利于实现对于大规模生产的生产技术与成本的估算。

案例分析(一): “大东方号”事例

“大东方号”集中了当时造船技术的精华,运用了所有最先进的动力设备,成为当时世界上最大的远航轮船。但是,“大东方号”并没有进行模型制作就投入了生产。结果,由于动力设备与庞大船体的动力需要不匹配,首航便宣告失败。思考:这个事件告诉了我们什么道理?

一、模型及其功能

1、模型

模型(Model)是根据实物、设计图样或构思,按比例、生态或其他特征制成的与实物相似的一种物体。

马上行动:在生活中我们会经常接触一些模型,请同学们结合学习生活实际列举一些模型的例子,并简要说明它的作用。

案例分析

(二):神舟飞船中的“模拟人”

(1)为什么要进行“模拟人”试验?

航天员的生命安全是最重要的。“模拟人”试验的成功,为航天员上天后的环境控制和生命保障以及航天员的医学监督和医学保障,奠定了重要的基础。

(2)“模拟人”有什么特征?

具有人体代谢功能和生理信号。

2、模型的功能

(1)使设计对象具体化。

模型是一种可视、可触、可控制的实体设计语言,为设计的表达和交流提供了一条有效途径,使设计委托者、生产单位和设计人员之间能够直接沟通,全面认识设计方案。

(2)帮助分析设计的可能性。

设计一件较复杂的产品,必须通过模型制作,分析设计的可能性后,才能投入生产。

放映一段《月球车模型》的视频帮助学生加深对模型的功能的理解。思考:“大东方号”事例告诉了我们什么道理?

在产品的设计过程中,有时直接制作原型,不通过模型对设计方案的可能性进行评估分析是不行的。

三、模型在不同阶段的作用

1、草模

草模用于产品造型设计的初期阶段,用立体模型把设计构思简单的表示出来,供设计人员深入探讨时使用。

2、概念模型

概念模型就是在草模的基础上,用概括的手法表示产品的造型风格、布局安排、人机关系等,从整体上表现产品造型的整体概念。

3、结构模型

结构模型是为了研究产品造型与结构的关系,清晰地表达产品的结构尺寸和连接方法,并进行结构强度试验而制作的模型。

4、功能模型

功能模型主要用于研究产品的各种性能以及人机关系,同时也用作分析、检查设计对象各部分组件尺寸与机体的相互配合关系等。

5、展示模型

展示模型是采用真实材料,按照准确的尺寸,做成与实际产品几乎一致的模型。作为产品的样品进行展示,以便提供实体形象,并可以直接向设计委托方征求意见,为审核方案提供实物依据。

四、练习:海豹顶球模型的设计改进

分小组进行讨论,改进海豹顶球模型的设计,使效果更逼真更合理。

五、小结:

一、模型

1、草模

2、概念

3、结构

4、功能

5、展示

二、模型在不同阶段的作用

1、原型及其作用

2、模型:是根据实物、设计图样或构思,按比例、生态或其他特征制成的与实物相似的一种物体。

3、模型的功能:

一种基于信任度的朋友推荐模型 篇5

随着Internet的普及,越来越多的人生活在网上。 网民们不仅在网上购物,娱乐,而且还在网上交友相亲, 希望通过更多的渠道认识新的朋友,从而扩展自己的社交圈。然而交友网站在给人带来方便与快捷的同时也产生了信息冗杂、难以辨别的问题[1]。尤其对于新注册的用户,如何有效快速地对其进行朋友推荐成为了亟待解决的问题。

从交友网站出现一直到今天,无数的学者对其进行了研究,并推出了大量的朋友推荐模型。如文献[2]提出了一种综合信任评价度和兴趣评分相似度进行好友推荐方法;文献[3]对博客进行了分析,提出了依据博主聚类后结果进行好友推荐的方法;文献[4]提出了一个新的社会图上基于局部随机游走的朋友推荐方法,为用户提供个性化朋友推荐;文献[5]提出了一种根据用户签到位置的相似度及好友关系的综合相似度进行潜在用户推荐的模型;文献[6]提出了一种基于用户间社交圈的相似程度为用户进行朋友推荐的在线社交网络朋友推荐算法。本文针对交友网站的特点,结合以上论文的研究成果,提出了一种基于用户信任度的朋友推荐模型。该模型能够实现对交友网站的用户进行更为方便准确的朋友推荐。

1信任关系模型

在信任网中,若用户A信任用户B,则通常在图中用节点A到节点B的一条有向线段来表示[7],如图1所示。 用户A指向用户B的有向线段上的数值表示用户A对用户B的信任程度,简称为信任度,记作T(A,B)。任意2个用户之间存在的某一条链路上的跳数在本文中被称为信任距离。本文中只考虑用户A指其他用户的有向信任关系,不考虑其他用户指向A的有向信任关系。而且所取最长信任距离为3,信任距离太远难免会失去参考意义。

1.1信任模型的建立

当一个新用户在交友网站进行注册时,首先要求该用户从网站已有的老用户中选择若干个可信的用户,并对这些用户的信任度进行打分,分数可取从0~1之间的任意小数,0表示完全不信任,1表示完全信任;接着将这些可信用户以及他们的信任度值存入该用户对应的数据表中,作为该用户拥有直接信任关系的用户。随着该用户在交友网站中的不断交流和互动,可以添加、更改或者删除拥有直接信任关系的用户,并对他们的信任度进行修改。从而实现对该用户信任关系的动态更新。

接下来依据该用户选择的直接信任用户,从数据库中再次读取与这些直接信任用户拥有直接信任关系的用户以及他们的信任度,建立该新用户的第二层间接信任关系;以此类推,建立起最长信任距离为3的最终信任关系图。本文以用户A为例,按照上述过程建立用户A的信任关系模型如图1所示。图中的有向线段指向体现了用户之间的信任关系,有向线段上的数值体现了用户之间的信任度。

1.2信任度计算

在信任网络中,信任度的计算已经成为不可回避的问题。在已有的关于信任网络的文献中,对于信任度的取值和计算各有不同,而主要的计算难度集中在用户间的间接信任度计算上。

1.2.1直接信任度计算

直接信任指在信任关系图中和用户A有直接指向关系的用户。如在图1中和用户A有直接指向关系的用户有B,C,D。在图1中用户A对用户B,C,D的信任度分别是0.7,0.5和0.4,可用T(A,B)=0.7,T(A,C)=0.5,T (A,D)=0.4来表示。

1.2.2常用间接信任度计算

对于间接信任度的计算有许多文献都对其进行了描述。现在假设用户X和用户Y存在间接信任关系,用IN[X,Y]表示从用户X到用户Y的信任链上所有有向线段上信 任度的乘 积 。 文献 [2]提到了一 种通过利 用IN[X,Y]除以该条信任链的跳数计算间接信任度的方法;文献[8]中提到了一种取该条信任链上所有有向线段上信任度的最小值作为间接信任度的方法;文献[9]提到了一种将从用户X到用户Y每条信任链的IN[X,Y]除以该条信任链上的跳数,并从中选取最大值作为间接信任度的方法;文献[10]提到了一种首先将用户X到用户Y的所有信任链上跳数最少的信任链选出,其次将该最短信任链的IN[X,Y]除以该条信任链跳数的所得值作为间接信任度的方法。

但是上述文献中提到的这些计算方法均没有考虑信任传递时的信任衰减问题。例如在图1中,用户A和用户F之间的信任链有3条,分别是A→B→F,A→C→F和A→C→B→F。若按照文献[10]中的计算方法,首先从中挑选出跳数最短的信任链A→B→F和A→C→F,因为有2条相同跳数的信任链,接着计算这2条信任链上间接信任度的平均值,将其作为A,F之间信任程度。由此可得:

然而该方法存在如下2个缺陷:

(1)对于用户A来说,其对于B的直接信任度要高于该用户对于C的直接信任度,因此用户A会更倾向于相信B的意见。该方法并没有体现这一点。

(2)有些情况下,这种方法会计算出一个并不理想的信任度值。例如,用户A和用户G之间的信任链有4条 ,分别是A→D→G,A→B→F→G,A→C→F→G和A→C→B→F→G。若按照文献[10]中的计算方法,首先从中挑选出跳数最短的信任链A→D→G,通过计算会发现这条信任链计算出的间接信任度是最低的。这不太符合现实生活中的情况。

1.2.3改进后的间接信任度计算

本文中在计算间接信任度时考虑到了信任传递时的信任衰减的问题,将2个用户之间某信任链上前一级的信任度作为衰减因子引入到了该条信任链信任度的计算中。例如,假设用户A和用户Z之间存在一条信任链,A→B→C→…X→Y→Z,则改进后的信任链上用户A和用户Z之间的间接信任度的计算公式为:

若2个用户之间存在多条信任链,则取所有信任链的间接信任度的最大值作为两用户之间的最终间接信任度。改进后的公式显著体现了信任链上的用户对于有直接指向关系用户的信赖程度,同时避免了按照常用间接信任度方法时没有考虑信任衰减的问题,以及有可能选出两用户之间最低信任度的情况,而且也保留了信任链上的跳数越多,则信任度有可能会越低的结果。

1.3朋友推荐过程

第1步:依据1.1小节提到的信任关系模型的建立方法,建立用户的信任关系模型;

第2步:依据已有的信任关系图,利用1.2小节提到的计算公式算出用户和信任关系图中的所有用户之间的信任度;

第3步:按照计算出的信任度高低依次对用户进行朋友推荐。

第4步:若用户对拥有直接信任关系的用户及其信任度进行更新,则从第一步开始重新建立用户的信任关系模型,重新计算和信任关系图中的所有用户之间的信任度,按照新的信任度取值重新对用户进行朋友推荐。

2实例及结果分析

在实例分析中,以图1中用户之间的信任关系为例对用户A进行朋友推荐。

首先按照直接信任度的计算方法计算出和用户A有直接信任关系的3个用户B,C,D的信任度分别为: T(A,B)=0.7,T(A,C)=0.5,T(A,D)=0.4。

其次,按照间接信任度的计算方法计算出用户A和用户E,F,G之间的信任度。

用户A和用户E之间的信任链有2条,分别是A→ B→E和A→C→B→E。接下来依次计算每条信任链上的间接信任度,并从中选取最大值。

取其最大值可得T(A,E)=0.441。计算结果明确显示出用户A对于用户B,用户B对于用户C意见的重视程度,数据更符合实际情况。

用户A和用户F之间的信任链有3条,分别是A→ B→F,A→C→F和A→C→B→F。接下来依次计算每条信任链上的间接信任度,并从中选取最大值。

取其最大值可得T(A,F)=0.196。计算结果明确显示出用户A对于用户B的意见的重视程度,数据更符合实际情况。同理,用户A和用户G之间的信任链有4条, 分别是A→D→G,A→B→F→G,A→C→F→G和A→C→B→F→G。接下来依次计算每条信任链上的间接信任度,并从中选取最大值。

取其最大值可得T(A,G)=0.081。计算结果避免了按照常用间接信任度方法有可能选出两用户之间最低信任度的情况,而且也保留了信任链上的跳数越多,则信任度有可能会越低的结果,数据更符合实际情况。

因此对于用户A进行朋友推荐时,按照信任度的高低对用户A进行朋友推荐的顺序依次为:B,C,E,D,F,G。

3结语

推荐模型 篇6

基于协同推荐模型的导师研究生双向选择系统,在短时间内采用协同推荐模型给予用户合理的推荐,根据用户访问项目的历史记录以及项目间的相关信息,构建用户兴趣模型后对繁杂的信息进行过滤,并向用户推荐可能感兴趣的对象。该系统把传统的导师研究生双选过程放在网络上进行,使该过程变得更加智能化、合理化,增强了选择时的公平性。该系统在提高导师与研究生双向选择效率、增强网站新颖度等方面都具有重要意义。

1 基于协同推荐模型的导师研究生推荐

1.1 数据采集

该系统通过API流来采集公共访问记录建立默认访问级别。如果有两个不同用户连接到相同终端并提供了大约所有访问记录的1%,该默认访问级别将发送相同的推荐信息。该系统从用户所选择的信息中获取样本,包括:(1)用户选择的导师或者研究生标识符;(2)用户标识符;(3)创建日期和时间;(4)访问记录和标签[2]。

由于这些样本传递的用户所选择信息的数据流不受约束,因而用户选择的数据是没有标签的纯文本。该系统旨在为用户推荐合适的信息,为了避免系统中由于冗余记录而产生干扰,需要缩小过滤范围来明确“活跃”记录。系统为每个用户建立了简况描述,如果一个用户访问某类信息的记录超过一个特定的临界值,它就被称为一个活跃的记录,在这里分别选择50和5作为“活跃”用户和“活跃”记录的临界值。

1.2 数据表示

该系统在两条信息的雇佣标签之间创建另一层相关性来提高协同过滤推荐质量。这样,每条用户历史记录不仅有一个用户向量,也有一个分配给它的标签向量。

假定用一个三维矩阵来定义信息,记录和标签的三元关系,首先需要定义一个三维矩阵:

一条信息被定义成ik,k∈[1,K],K是信息的数量;一个记录被定义成re,e∈[1,E],E是记录的数量;一个标签被定义成lb,b∈[1,B],B是不同标签的总数。

在基于信息的协同过滤推荐系统中,有一个信息-标签的矩阵用于如何使用用户评级来连接记录和信息的记录[3]。该系统用二进制来建立K×E×B信息-记录-标签矩阵。如果信息ik已经存在于标签lb的记录re中,将利用1填充S(ik,re,lb),否则为0。接下来从最初的3d矩阵创造出如下两个2d矩阵,第一个是K×E信息-记录矩阵IU,每个信息ik代表了提交的行向量,每个记录re代表了提交的纵向量;第二个矩阵是K×B信息-标签矩阵IH,该矩阵将通过集合S来获得:

该矩阵包含信息和标签之间的联系,每个信息ik代表一行将标签分配到含有导师或者研究生信息的记录的向量,每个标签代表一列被呈递过的带有标签的记录的向量。

该系统面临的主要问题是预测一个用户是否偏好一位导师或者研究生。为此需要计算出一个分数^Sk,e∈[0,1],基于该分数产生推荐。

1.3 测量方法

该系统并不只使用信息—标签矩阵来计算项目之间的相似度,还通过从信息—标签矩阵和信息—记录矩阵改善求信息间相似度的方法。例如,假定在矩阵IU中有两个信息向量

。在IH矩阵中也分别有
两个标签向量。单独来看IU矩阵,就像在传统的协同过滤方法中一样,由于它们没有重叠用户,因此将的相关性置为0。基于记录-标签模型测量项目相似度的方法,其在记录和标签方面存在重叠信息,可能会导致信息丢失。因此,在测量基于标签和用户相似度关联性时,应该提高导师或者研究生信息相关分数^Sk,e的精准度。

为了计算两个信息ik和ij的相似度,需要使用相似度测量方法。现有4种相似度测量方法:Euclidean、Cosine、Similarity、Jaccard和Dice coefficient。

仅仅基于标签维度或记录维度去获得信息-信息间的相似度分数会引起信息缺失,一旦信息间的相似度在信息-记录和信息-标签矩阵中通过一个相似度函数被测量,就需要一项技术去联合这两个分数,从而在ik与ij的相似度上生成一个独立的分数。为了实现该目的,该系统使用最大函数的方法测量基于标签和用户向量ik与ij信息间的相似度分数。

该系统使用MAXS(ik,ij)来输出Simu(ik,ij)和Simh(ik,ij)的最大值。方法如下:

结合从信息-记录和信息-标签两个矩阵中生成的相似分数,通过信息-信息的协同过滤方法得到预测分数^Sk,e。通过降序排列用户已经访问过的不同的信息记录次数,并在排序后的次数中插入一个名为Ek,e的列。为了提高预测分数^Sk,e的精确度,可在列表Ek,e中取信息相似度ik的平均或最大值。如果预测分数超过临界值,该系统就将导师或者研究生信息推荐给用户。

算法描述如下:(1)计算用户已经访问过的导师或者研究生信息历史记录前N个类似项目的列,被称作Ek,e。项目之间的相似度用式(5)进行计算;(2)在Ek,e表中,为信息中的ik计算平均或最大相似度,得到^Sk,e;(3)如果^Sk,e超过临界值,该系统就将合适信息推荐给用户。在系统预算中,无论^Sk,e的值为多少,都用0.5作为临界值。

2 实验及分析

该系统旨在为用户推荐合适的信息,实验目的是研究该系统是否能够达到让用户满意的程度。河南师范大学教育与教师发展学院2013级和2014级共1 000多名学生使用该系统选择导师。实验中采用信息检索领域广泛使用的误判率Fallout和系统中推荐成功率Success rate来评价实验效果。查准率和误判率的定义如下:

根据实验结果,得出该系统向用户推荐的误判率如表1所示。

从表中数据可以看出,无论是研究生还是导师,该系统都能达到令绝大多数用户满意的程度。

3 结语

本文研究了基于协同推荐模型的导师研究生双向选择系统,该系统基于邻域的方法为用户推荐合适的导师或者研究生信息,极大提高了导师研究生双向选择效率。实验表明,若结合标签相似度和用户相似度,则可以改善协同过滤系统的精确度,实验展示了该系统对于基于信息的推荐系统的标准差方面可以有更好的表现。提供更多用户访问的历史记录不仅不会导致更加精确的推荐,反而会因为“信息过载”而影响推荐精度[4]。实验结果显示,该推荐系统可有效为用户推荐适合用户或者用户偏好的导师或者研究生信息,更好地满足双方需求。

摘要:在传统模式下,导师和研究生之间很难在短时间内进行快速、合理的双向选择。研究基于协同推荐模型的导师研究生双向选择系统,将双选进程网络化,采用协同推荐模型对用户进行推荐,构建用户兴趣模型,向用户推荐可能感兴趣的对象。实验证明,该系统有助于快速实现导师和研究生之间的双向选择,减轻学校教务部门的工作负担。

关键词:协同推荐,双向选择,兴趣模型

参考文献

[1]李春,朱珍民,高晓芳,等.基于邻居决策的协同过滤推荐算法[J].计算机工程,2010(13):34-36.

[2]郑志高,刘京,王平,等.时间加权不确定近邻协同过滤算法[J].计算机科学,2014(8):7-12.

[3]郭磊,马军,陈竹敏,等.一种结合推荐对象间关联关系的社会化推荐算法[J].计算机学报,2014(1):219-228.

推荐模型 篇7

关键词:多维度,电影推荐,权值动态更新,个性化推荐模型

0 引言

随着信息的快速增长,越来越多的信息充斥在互联网上,搜索引擎虽然能够在一定程度上帮助人们搜寻需要的信息,然而其输出的结果通常具备通用性和普适性,缺乏对搜索结果的个性化和定制化[1],基于此,本文主要就电影领域的个性化推荐展开研究,试图提高电影推荐的准确率。个性化推荐的目的是为了节约用户搜索信息的时间。个性化推荐对用户的行为日志进行分析,挖掘用户感兴趣的领域,以用户兴趣为导向进行定向推荐[2,3]。个性化推荐以兴趣的表示最为重要,推荐算法需要根据用户的兴趣表征进行内容相关度排序。目前,用户兴趣的表征有向量空间模型,树模型和本体模型等。其中,以向量空间模型应用最为广泛。

基于向量空间模型的用户兴趣表征将用户兴趣表示成键值对的形式,形如{K1:V1,K2:V2,⋯,Kn:Vn},其中Ki表示兴趣词,Vi表示该兴趣词对应的权值[4,5]。以本文所要论述的电影领域为例,Ki可以表示演员这个维度的关键词集合,Vi表示该维度对应的权值。关键词权值的计算可以采用关键词出现次数,也可以采用该关键词的出现频率来表示。基于向量空间模型的用户兴趣表征方法只能反映用户对哪个关键词感兴趣,对于电影这种有明确维度标识的对象而言,文献[6]提出的基于领域划分的兴趣表征方法,针对不同的领域建立不同的兴趣模型,然而,向量空间模型只能反映用户对某个关键词感兴趣而不能反映对某个特征维度感兴趣。

本文提出针对电影对象,将电影划分为导演、演员、上映时间、类型和地区这五个维度,为每个维度分配维度权值,同时各个维度采用向量空间模型加以表示,向量空间模型中各个属性字段表示该维度内各个关键词,属性字段对应的权值表示各个关键词的权值,关键词权值的计算可以采用CHI或者关键词重复度,因此,电影对象用两层向量进行表征,在进行实际模型的更新和修正时需要迭代地完成维度权值和维度内向量中各个属性字段权值的更新。基于改进的两层向量兴趣表征方法在Movie Lens数据集上的效果要优于未改进的算法。

1 双层兴趣模型

在向量空间模型的基础上,对用户的兴趣进行重新表征。对电影领域而言,电影可初略认为由导演、演员、上映时间、类型和地区这五个因素组成。将这五个因素作为用户兴趣的第一层兴趣[7]。以导演这个因素为例,不同的电影可能存在不同的导演,因此可以对导演这个因素进行细分,表示用户感兴趣的导演列表。基于双层向量表示的用户兴趣模型如图1所示。

根据图1所示,用户兴趣可以表示为:

式中:si表示兴趣的某个维度;wi表示该维度对应的维度权值。如图1中模型所示,每个维度又可由多个关键词构成,定义关键词的权值由关键词的出现频率表征。各个维度的维度取值满足如下条件:表示各个维度权值都经过归一化,并且保证用户兴趣的最大值为1。对于第i维度,该维度表示为si,维度权值表示为wi,该维度可以由n个关键词组成,每个关键词的权值可以通过关键词词频得到,则用户对该维度内某个关键词的兴趣权重为:Iij=wi×Wij,其中Wij表示第i维度内第j个关键词的权值。Wij的取值可以通过该关键词的出现次数在整个关键词集合中总次数的出现频率定义[8]。

2 模型参数更新

对于电影Ai和电影Ai-1,定义Ai和Ai-1之间相似度公式为:

式中:Sj表示第维度的相似度。

用户的兴趣特征通过维度权值体现,每次模型参数的动态更新即反映了用户兴趣的变化特征,例如导演这一维度的维度权值从0.3变成了0.2,则表示用户在导演这一维度上的兴趣发生衰减,因此模型参数的动态更新主要进行维度权值的调节[9,10]。

对于电影Ai和电影Ai-1,在某个维度上的相似度为:

用户当前的兴趣可以通过历史兴趣加以反映。例如用户曾对美剧感兴趣,则当前用户选择美剧进行观看的可能性会非常大,同时,需要考虑当前电影和用户最近观看电影的相似度,例如用户最近观看了周星驰的电影,则再选择观看周星驰电影的可能性同样非常大[11]。

定义用户当前的兴趣维度权值为W=(w1,w2,⋯,w5),则得到用户兴趣维度的更新方式如下:

式中:λ表示兴趣维度的比重,即因历史的兴趣进行本次内容选择的影响比重。Sim(Ai,Ai-1)表示用户看过的第i部电影和第i-1部电影之间的相似度[12]。

电影领域中,电影和电影之间的相似度分为五个部分,导演相似度、演员相似度、上映时间相似度、类型相似度和地区相似度。

其中导演相似度、演员相似度和类型相似度可以通过关键词共有关系表征,具体定义如下:

时间相似度和地区相似度采用不同的策略,对于时间相似度,采用两部电影之间的时间差和最大时间之间的比值决定;对于地区相似度,采用两级地域划分的概念,将电影的地域特性分为一级和二级地域[13],一级指电影从属亚洲电影、欧美电影等,二级地域是指该电影出品于哪个国家。定义一级地域的权值为0.3,二级地域的权值为0.7,则时间相似度和地区相似度分别如下所示:

式中:如果Ai和Ai-1的一级地域相同,则area1(Ai,Ai-1)=1,同理,对于area2(Ai,Ai-1)相同。

因此,得到用户兴趣模型的动态更新策略如下:

输入:用户历史的电影观看记录

流程:

1.初始化用户兴趣的各维度权值为0.2,0.2,0.2,0.2,0.2;

2.For Ai,以式(4)~式(6)计算Ai和Ai-1之间的相似度,将获得的相似度通过式(2)进行归一化,利用式(3)同步更新用户最新的兴趣模型各维度权值。

输出:用户最新的各维度权值

3 实验与分析

本文采用Movie Lens数据对改进的算法进行验证,在Movie Lens数据集[14,15]中,用户对自己看过的电影进行评分,分值为1~5。Movie Lens包括两个不同大小的库,适用于不同规模的算法。小规模的库是943个独立用户对1 682部电影作的10 000次评分的数据;大规模的库是6 040个独立用户对3 900部电影作的大约100万次评分。本文实验采用小规模库的数据进行验证。

将数据拆分为两部分,其中70%数据用于训练数据,30%数据用于测试数据。这部分数据中,电影主要由三个维度构成:电影名称、电影类型和上映时间,本文主要选取电影类型和上映时间这两个维度进行算法验证。

3.1 评价指标

本文主要对比基于内容推荐的算法来验证改进算法的有效性,主要的评价指标采用准确率和召回率。准确率是指同时在用户的推荐商品列表和测试数据集中出现的数目与整个推荐列表长度的比值,如下所示:

式中:Nlp表示同时出现在用户推荐列表和测试数据中的电影数目;Nt表示整个推荐列表的长度。

召回率是指用户同时出现在用户推荐列表和测试数据中数目与用户在整个测试数据中喜爱的电影的总数的比值,如下所示:

3.2 实验分析

基于文献[4],分别比较采用文献[4]算法进行内容推荐与本文改进算法进行准确率和召回率的比较。用户推荐列表的长度分别设置为10,15,20,25,30,两种算法的准确率和召回率如图2和图3所示。

从准确率和召回率的算法对比图上可以看出,本文算法能够提高用户推荐的准确率和召回率。

4 结语

随着越来越多的在线服务平台和社交平台的出现,对用户进行内容预筛选显得尤为重要,个性化的用户推荐策略对用户推荐内容的定制起到了关键性的作用,减少了用户在信息筛选时的时间,提高用户对平台的满意度和粘性,对提高平台的整体活跃度至关重要。

上一篇:更高要求下一篇:转速信号