编辑: 静看花开花落 | 2019-07-05 |
1 给出的频道号有断层, 所以本文对其进行了重新编 号(详表见附件 1) .计算出用户收看节目的时长,计算出时间频率,并删除掉 收看时长小于或等于
5 分钟的数据,其公式如下: (1) 注: 表示时间频率, 表示该用户观看该节的总时间, 表示该用户 观看节目的总时间. 运用 Matlab 分别计算用户收视频率表 1(代码见附录 1) 、用户回看频率表 2(代码见附录 2) : (2) (3) 注: 表示该用户观看节目的总次数, 表示该用户观看该节目的总次 数, 表示收视频率, 表示回看总频率, 表示观看频率, 表示回看频率, 表示时间频率. 表1收视频率 用户 频道
1 频道
2 频道
3 ……
10003 0.7252776
0 0 ??
10004 0.2276548
0 0 ??
10005 0.3021896
0 0 ?? 表2回看频率表 用户 频道
1 频道
2 频道
3 ……
10003 0.4261306
0 0 ??
10005 0.3109954
0 0 ??
10006 0
0 0 ?? 根据经验可以知道,当一个人认为某个频道好看时,就会多次返回观看,所以,本文将表
1 和表
2 整合为一个表,其计算公式如下: (4) 注: 表示收视频率, 表示回看频率, 表示用户观看频道总频率, 表示权重. 在本文中令 ,整理得到下表 3: 表3用户观看频道总频率表 用户 频道
1 频道
2 频道
3 ……
10003 0.575704
0 0 ??
10004 0.113827
0 0 ??
10005 0.806592
0 0 ?? 4.2.2 计算用户相似度 在协同过滤中两个用户产生相似度是因为他们共同喜欢同一个物品, 两个用 户相似度越高,说明这两个用户共同喜欢的物品很多.假设每个用户的兴趣都局 限在某几个方面,因此如果两个用户都喜欢某一个物品,那么这两个用户可能就 很相似,而如果两个用户喜欢的物品大多都相同,那么他们就可能属于同一类, 因而有很大的相似度.其计算公式如下: (5) 注: 是用户 喜欢的物品集合, 是用户 喜欢的物品集合, 是用户 和 同时喜欢的物品集合. 通过运行 Matlab(代码见附录 3) ,得到用户相似度矩阵,见下表 4. 表4用户相似度矩阵 用户
10003 10004
10005 ……
10003 0 0.000914 0.000910 ??
10004 0.000914
0 0.001082 ??
10005 0.000910 0.001082
0 ?? 4.2.3 用户和点播信息数据处理 首先, 将同一个用户观看的多个相同的节目整合为一个节目, 待整合完毕后, 对节目依次进行编号(详表见附件) .其次,计算出用户收看节目的时长,计算 出时间频率, 并删除掉收看时长不足
5 分钟的数据 (注: 计算时间频率公式如 (1) 所示) .然后,对于用户点播信息中的数据,计算点播金额比例: (6) 注: 表示点播金额比例, 表示该用户观看节目总金额, 表示该用户 观看该节目总金额. 运用 matlab,分别计算单片点播总频率表
5 与单片点播总频率表 6,其中 (7) (8) 注: 表示单片点播频率, 表示点播频率, 表示该用户在该节目点播 总次数, 表示该用户点播节目总次数, 表示单片点播总频率, 表示单片 点播频率, 表示点播金额比例, 表示点播频率, 表示点播总频率. 表5单片点播总频率 用户 节目
3 节目
4 节目
5 ……
10085 0.1301447
0 0 ??
10088 0
0 0 ??
10089 0.0088306
0 0 ?? 表6点播总频率 用户 节目
12 节目
13 频道
14 ……
10133 0
0 0 ??
10138 0 0.066293
0 ??
10148 0
0 0 ?? 最后,将单片点播总频率与单片点播总频率整合为一体,其公式如下: (9) 注: 表示单片点播总频率, 表示单片点播频率, 表示权重, 表示 用户观看节目总频.由于用户在点播时是需要购买观看的,所以在本文中 . 4.3 协同过滤推荐算法 4.3.1 点播用户推荐 (1)计算物品相似度 在协同过滤中两个物品产生相似度是因为它们共同被很多用户喜欢, 两个物 品相似度越高,说明这两个物品共同被很多人喜欢.假设每个用户的兴趣都局限 在某几个方面,因此如果两个物品属于一个用户的兴趣列表,那么这两个物品可 能就属于有限的几个领域,而如果两个物品属于很多用户的兴趣列表,那么它们 就可能属于同一个领域,因而有很大........