编辑: 迷音桑 | 2018-06-05 |
1 2
3 目录 Introduction 算法流程 问题描述 问题分析 总结文档
2 域内可比、域间不可比问题总结文档 本文是对在视频推荐线上实验中发现的域内可比、域间不可比的问题进行总结分析,并 提出问题的解决思路,以及对目前的实验结果展示.
总结文档
3 Introduction 推荐算法流程
1、词向量训练: 词向量的大致的流程图如下:
2、利用词向量进行视频推荐: 频道的划分: 定义符号: 来表示频道的集合,用 和 来表示频道的索引. 使用 Softmax 回归算法对训练得到的词向量进行分类,将每个类别归为一个频道,如:体育、娱乐、军事等;
计算视频向量: 定义符号: 表示关键词的集合, 表示关键词的索引,符号 表示 视频的集合, 表示视频的索引;
表示视频 中的关键词 , 表示频道 中的视频 ;
表示视频 中的关键词总数, 表示频道 中的视频总数;
总结文档
4 算法流程 则有: 其中: 代表频道 中视频 的向量;
表示视频 中的关键词 的向量,是 使用 word2vec 训练得到. 用户行为向量计算: 定义符号: 表示用户的集合, 表示用户的索引;
假设用户 在我们所 Push 的视频中具有点击行为,则有: 其中: 是频道 下用户 的行为向量;
为用户 所点击的视频中属于频道 的视频集合;
, 为视频 的播放总量,用来降低热门视频的影响 力;
与 式意义相同. 视频推荐排序: 根据所对应的频道,计算出待推荐视频向量 与用户行为向量 的余弦相似度,作为用户 对视频 的兴趣值,按如下计算: 根据 式计算出用户 对所有待推荐视频的余弦相似度,然后按从大到小的顺序进行 排序,并取前 top- 个进行推荐. 总结文档
5 算法流程 域内可比、域间不可比问题 问题描述 然而根据前面的算法流程在实际的推荐过程中,遇到了"域内可比,域间不可比的问题",该问 题可以分为两部分阐述: 域内可比: 对某单一频道 而言,根据 , 和 式计算得到用户 与频道 中所有待推荐视 频 的余弦相似度 ,然后根据相似度的值从大到小进行排序,所得到的排序结果 与用户 的对该频道 中待推荐的视频的感兴趣程度的真实情况相符,所以按该算法进行 推荐的结果较理想,称作"域内可比". 域间不可比: 然而在多个频道中,为简单说明这里只列举 , 两个频道的情况,同样根据 , , 式分别求出用户 对频道 和 中所有待推荐视频 和 的余弦相似度 ,按从大到小进行排序,然而此时得到的结果,排名靠前的视频可能均为频道 中的视频, 而且这个排序结果与用户 对这两个频道内的视频的感兴趣程度的真实情况并不吻合,被称 为"域间不可比". 这种域内可比,域间不可比的现象影响了视频推荐的多样性,造成了用户体验不佳. 域间不可比的数据反映 下面给出几组统计数据来说明域内不可比问题的存在性: 统计用户向量与所有频道内的视频向量的余弦相似度,并画出散点图以及线箱图如下: 总结文档
6 问题描述 总结文档
7 问题描述 上图中纵坐标代表的是余弦相似度, 并将其值压缩到(0,1)的区间内,不同颜色的代表 不同的频道.从上面的散点图中可以看出这两个用户都有一个频道余弦相似度的最大值 小于另外一个频道的最小值,因此在实际推荐中前者频道中视频将很难推荐出去;