编辑: 过于眷恋 | 2019-08-09 |
tipdm.org 第1页基于电商平台热水器的消费者需求及产品数据挖掘分析 摘要: 本文对三大电商平台、 六大热水器品牌和五大热水器类型的评 论数据通过数据清洗、 数据集成和融合、数据变换、数据规约等方法 进行了预处理;
在此基础上, 使用情感词典和语义规则进行极性累加, 进行评论的情感分析;
最后采取了消费者决策的 AHP-FCE(层次分析 法与模糊综合评判) 分析, 结合参考百度指数及 F-IDF 评论词频得出 的分层评判及模糊综合评判的数值化求解, 最终得出对某一种类热水 器品牌差异化评分, 并得出及探究了各热水器品牌类型的用户购买原 因和差异化卖点,实现数据挖掘后对数据的实际应用. 关键词:数据预处理、情感分析、层次分析、模糊评判 泰迪杯大学生数据挖掘竞赛论文报告 www.tipdm.org 第2页Data mining analysis based on water heaters consumer demand and product of e-commerce platforms Abstract: This paper uses comments data from top three electric commercial platforms, top six water heater brands and top five water heater types to implement data preprocessing through data cleaning, data integration and fusion, data changing, and data Statute. This paper uses emotional dictionary and semantic rules to implement sentiment analysis by the method of Polar cumulative. And then, this paper uses Baidu index and frequency of F-IDF comments to achieve the numerical solution of layered evaluation and fuzzy synthetic evaluation, reaches the score of a certain type of water heater brand differences, explores the user purchased causes and differences of selling of different water heater brands and implements practical application of data mining. Key words: Data Preprocessing,Sentiment Analysis, Analytic Hierarchy Process, Fuzzy Sets 泰迪杯大学生数据挖掘竞赛论文报告 www.tipdm.org 第1页目录
一、 研究目标
二、 分析方法与过程
(一) 总体流程
(二) 具体步骤 1. 数据获取 2. 数据处理
(三) 结果分析 1. 情感分析 2. AHP-FCE 分析
三、 结论
四、 参考文献 泰迪杯大学生数据挖掘竞赛论文报告 www.tipdm.org 第1页
一、 研究目标 本次数据挖掘通过火车头和八爪鱼两个软件实现,通过对三大电商平 台、六大热水器品牌和五大热水器制热类型的热水器进行价格、型号、评论 时间、评论数据的挖掘,获取到电商平台数据后,对数据进行处理,剔除造 假数据和无意义数据.对处理过后的数据进行分析,运用情感分析方法分析 评论数据,发掘用户情感倾向,进一步分析个热水器产品的优势和劣势、差 异化买点和用户个性化需求.
二、 分析方法与过程
(一) 总体流程 数据获取:通过火车头和八爪鱼两个软件实现,通过对三大电商平台、六 大热水器品牌和五大热水器制热类型的热水器进行价格、型号、 评论时间、评论数据的挖掘. 数据处理:通过简单的对评论数据去重以后,对接下来的数据进行数据清 理,以此对含噪、错误、确实、冗余的数据进行处理;
在数据 集成和融合的基础上,再对数据进行数据变换以此使数据规范 化;
最后对数据进行数据规约,并以可视化呈现. 数据分析: 采用了情感分析和 AHP-FCE 分析法. 情感分析主要通过情感词 典和语义规则的方法进行分析,在此基础上进行极性累加;
AHP-FCE 分析首先对购买的决策层级进行划分,再对 AHP 进 行定性描述,最后对购买决策 FCE 进行综合评判.
(二) 具体步骤 1. 数据获取 根据中国网商行情系统数据,截至
2014 年6月,我国电商平台热水 泰迪杯大学生数据挖掘竞赛论文报告 www.tipdm.org 第2页器销售市场份额情况如下图所示,天猫商城、京东商城和苏宁易购位列电 商平台销售市场份额前三,其中天猫商城占整个市场份额的 46.7%,京东 商城占 37.8%,苏宁易购占 8.7%,其余 6.8%是其他电商平台(国美、易 迅等)所占市场份额. 由于销售市场份额前三的电商平台所占市场份额之和已达到所有电 商平台销售市场份额的 90%以上,所以我们的数据主要从天猫商城、京东 商城和苏宁易购采集,并且采集的数据具有足够的代表性. 其次,根据品牌划分,我国电商平台的热水器品牌市场份额中,万家 乐、美的、海尔、万和、阿里斯顿和能率六个品牌位列市场份额前六,总 计占电商平台市场份额的 81.6%,所以在数据采集时,主要采集天猫、京东、苏宁易购三大电商平台中,该六个品牌的热水器的数据. 泰迪杯大学生数据挖掘竞赛论文报告 www.tipdm.org 第3页根据淘宝指数数据,在2014 年5月至
2015 年5月期间,各种类型的 热水器的销售市场份额占比如上图所示,电热水器、燃气热水器即热式热 水器位列前三,紧随其后的分别是空气能热水器和太阳能热水器,以上五 种热水器类型占到了整个市场的 94.27%.因此,在采集数据时,我们选 择了以上五种类型的热水器进行评论采集,使得采集的数据具有充分的代 表性. 2. 数据处理 数据处理是数据分析过程中最花费时间、 最乏味的,但也是最重要的一 步.该步骤处理得当,可以有效地提升数据质量,减轻下一步工作量,并作 为数据精准分析的基础.本文数据处理的过程主要分为以下几步: 1) 数据粗处理 在充分采集三个电商平台相关数据的基础上,获取了海量而驳杂的数 据.出于评论内容真实有效的考虑,在整个数据集中,本文选取了三个无 效属性进行并集删除操作(A∪B∪C) ,分别为: A. 评论项为空 B. 评论不含中文 C. 不含关键词的评论 作为预处理之前的粗处理,京东、天猫和苏宁三个平台的平均去除率 在7.3%左右. 2) 数据预处理 a)数据清洗 与资讯,微博不同,商品评论文本的噪声更少,除了粗处理去除的无 效数据,主要就在于商家恶意刷的重复评论.在对文本的进一步观察和相 应网站的考证基础上,再次发现了大量短时间内不断重复的虚假评论.基 于层次分析法的模型,采用凝聚层次聚类的算法,对整个数据集中的五个 相关联的属性进行交集删除操作(A∩B∩C∩D∩E),分别为: A. 评论时间(不同评论相隔 60s 以内) 泰迪杯大学生数据挖掘竞赛论文报告 www.tipdm.org 第4页B. 评论内容(100%相似度) C. 相同平台 D. 相同品牌 E. 相同型号 三家电商平台热水器的清洗结果见表 1: 电商平台 京东 天猫 苏宁 平均去重率 36.4% 39.7% 90.0%以上 b) 数据集成和融合 本文的集成合并多家电商平台中采集到的多个热水器品类数据,存放 到一个一致的数据存储中. 本文的融合仅限于数据层的数据融合,即把数据 融合的思想引入到数据预处理的过程中,加入数据的智能化合成,产生比单 一信息源更准确、更完全、更可靠的数据进行估计和判断.按照模式集成 和对象匹配的原则,通过对数值属性的相关系数 Rab(见公式 1)的判定 检测冗余,按照统一的构造集成融合,进而提升其后挖掘过程的准确度和 速度. 其中,n是数据集样本个数, 分别是元组i中a和b的值, 分别是a和b的均值;
分别是a和b的标准差. c)数据变换 本文进行数据变换的目的在于将多维数据压缩成较少维数的数据,消 除不同平台各型号热水器数据在时间、空间、属性及精度等特征表现方面 的差异. 这类方法虽然对原始数据都有一定的损害,但其结果往往具有更大 的实用性,主要步骤如下: 数据平滑去噪,使连续数据离散化,增加粒度数据聚集对数据进行汇 总;
数据概化减少数据复杂度,用excel 中的分类汇总使各数据落入指定条 目区域属性构造. 泰迪杯大学生数据挖掘竞赛论文报告 www.tipdm.org 第5页d) 数据规约 本文用数据规约技术得到数据集的规约表示,主要通过数据立方体聚 集、属性子集的分类选择得到更易于处理的文本数据,且不损伤原始数据 的完整性.
三、 结果分析 1. 评论情感分析 已采集的数据中,评论所体现的复杂信息含有很多隐藏价值,本文在 此从情感分析的角度对其进行挖掘.与传统较长的文本(新闻、博客、微 博等)不同,商品的评论信息文本简短,字数一般在 10-30 字左右,语句 随意,一条评论语句中除了文字信息,还穿插着标点符号商品评论的这些 特征对文本的情感分析会产生一定影响,通常一条评论的情感与它所含符 号的情感也是相符的.例如~表达的一般是正面的情........