编辑: 迷音桑 | 2018-06-05 |
而从 后面的线箱图可以看出,其中有一两个频道的视频排名特别靠前,而另外频道的视频则 差距较大. 统计 top-N 中各个频道视频所占比例: 总结文档
8 问题描述 上图中,每个区域所占的比例代表 top-80 中不同频道的视频数所占的比例,可以看出绝 大多数的视频属于某个单一频道. 总结文档
9 问题描述 问题分析 之所以会出现这种域内可比,域间不可比的问题,可以从推荐算法的具体流程入手. 首先,我们利用 word2vec 进行词向量的训练训练的结果降维到二维平面上展示如下(由于不 太清楚如何显示中文,这里使用的是 text8 数据集): 由上图可以看出,进过 word2vec 训练后,关联度较大的词向量分布在相近的区域内.而我们 的视频向量实际上是由关键词的词向量的算术平均计算而来,因此我们得到的 总结文档
10 问题分析