编辑: 过于眷恋 | 2019-07-04 |
s to be transferred into the approaches to analyze the customers'
attention to the properties of the product, count the satisfaction degree under each property. Then get the advantages and disadvantages via word frequency statistics. In the customers'
behavior mining part, it'
s to set a group of keywords, used to get the search clicks under each terms. And then mining the age and consumption level to get the main consumer groups and their focus points. Key words: Term vectors Recursive since the coding SVM model Emotional polarity analysis 泰迪杯大学生数据挖掘竞赛论文报告 www.tipdm.org 第1页目录摘要.1 1. 挖掘目标.1 2. 分析方法与过程.1 2.1 总体流程.1 2.2 具体步骤.2 2.3 结果分析.8 3.结论.14 4.参考文献.14 泰迪杯大学生数据挖掘竞赛论文报告 www.tipdm.org 第1页1. 挖掘目标 本次建模目标是利用在各大电商平台抓取下来的真实评论数据,首先进行水军和随 意发表的评论的识别与剔除,再采用数据挖掘技术,构建基于 RAE 自编码的 SVM 模型, 进行有监督的分析,即先手工进行部分评论的情感极性标识作为训练语料,得到用户评 论中所包含的情感极性.从而可以在情感极性为正的句子中提取产品优势和用户购买的 原因,在情感极性为负的句子中提取产品劣势和个性化需求.从各大电商网站中重新爬 取商家推荐的产品优势,再与我们从评论中提取出从各类产品优势中提炼不同产品的差 异化卖点.最后,根据百度指数和淘宝指数对关键词热水器和净水机进行查找,能够找 到热水器和净水机的消费人群,人群购买的关注点及搜索的关键字. 2. 分析方法与过程 2.1 总体流程 本部分使用一个总体流程图描述建模方法及过程,并对各部分进行简要说明. 流程图见图 1. 本用例主要包括如下步骤: 步骤一:使用火车浏览器爬取相关数据,获得初始数据. 步骤二:对评论的可信度进行分析可得评论中包含三类垃圾评论,制定规则分别对三类垃圾评论进 行处理. 步骤三:使用 R 语言对热水器和净水机的评论进行切词,将整个句子切成独立的词块. 步骤四:使用 word2vec 将已经切碎的词转化成词向量. 步骤五:构建 SVM 模型,同时进行手工标记样本的情感极性及产品属性.将手工标记的评论数据用 于三方面:模型的训练、模型的准确度检测及模型的调整. 步骤六:对模型进行优化重构后输入词向量重新组建的句向量,利用经过训练的 SVM 模型的处理输 出情感极性. 步骤七:通过对步骤六的计算可得非好评在用户评论中的比重很小,因此可以通过人工统计的方法 找寻产品的优劣势. 步骤八:使用 SVM 模型统计评论中用户对产品性能的认可,进而可以找寻各品牌间产品的差异,构 建四分图可以得到产品的优势点. 步骤九:对百度指数和淘宝指数进行分析,得到产品的目标消费人群、用户购买的关注点及用户购 买的关注点及主要消费人群. 泰迪杯大学生数据挖掘竞赛论文报告 www.tipdm.org 第2页图1建模方法及过程的总流程图 2.2 具体步骤 2.2.1 使用火车浏览器对题目所涉及的各品牌产品进行评论的爬取. 2.2.2 对垃圾评论进行处理: ? 垃圾评论的定义:垃圾评论是指那些为了促销某种商品而给出的一些不实际不相符的积极 评论,或是为了诋毁某种品牌而给出的一些虚假的负面评论,试图故意误导阅读的人或自 动的数据挖掘和情感分析系统的: 不合法 的活动. 【1】 ? 垃圾评论的分类:对数据进行预处理,根据垃圾评论的识别,将垃圾评论分为以下几种: a. 无意义信息,即用户发布的单纯宣泄自己感情的语句,内容空洞,并没有对产品的特征 进行分析和评价. b. 系统评论,即系统自身默认给出的评论. 泰迪杯大学生数据挖掘竞赛论文报告 www.tipdm.org 第3页c. 评论内容过短,即用户并不是出于对产品进行认真评价的目的进行评价,而是为了网站 的积分赠送或者商家的优惠进行的敷衍的评价. ? 在使用编程的过程中设立了几个规则进行作为删除垃圾评论的依据: a. 由从各大电商网站抓取的评论可得如果用户未作出评论,系统会说默认好评,据此制定 规则 1,如果评论中含系统默认好评的,则删除该评论. b.由于认定评论内容过短无法包含实质信息,因此删除字符串个数小于