编辑: 人间点评 | 2019-07-12 |
deliberately in concocting rumors, and doubt or criticism in the public participated discussion will inevitably lead to that the rumors micro-blog comments present more negative sentiment on the whole than the non-rumor micro-blogs do. Therefore this thesis proposes a feature of micro-blog comments overall sentiment polarity, and the use a classifier with tf-idf-based feature to identify one comment'
s sentiment polarity. Being verified on experiment with proposed Weibo micro-blog corpus, the new feature performs a exciting promotion on the classification result. Key Words:Text Mining;
Machine Learning;
Sentiment Computing;
Rumor Detection 大连理工大学硕士学位论文 - III - 目录摘要.I Abstract II
1 绪论.1 1.1 研究背景.1 1.2 研究现状.3 1.2.1 可信度计算.3 1.2.2 网络谣言传播分析.4 1.2.3 微博谣言的检测.4 1.3 本文工作.5 1.4 本文结构.6
2 相关技术及资源.7 2.1 情感词汇资源.7 2.1.1 情感词汇本体库.7 2.1.2 其他情感词典.9 2.2 情感倾向分析技术.9 2.2.1 情感词判别.10 2.2.2 语句级情感分类.11 2.3 分类技术.11 2.3.1 分类器模型.12 2.3.2 特征选择方法.13 2.3.3 分类评价方法.14 2.4 本章小节.15
3 语料准备及垃圾评论过滤.16 3.1 语料准备.16 3.2 垃圾评论过滤.18 3.2.1 微博中的垃圾现象.19 3.2.2 垃圾评论过滤相关方法.20 3.2.3 垃圾评论过滤流程.22 3.3 语料分析.23 3.4 本章小结.26
4 基于评论情感特征的谣言检测.27 基于评论情感的微博谣言检测研究 - IV - 4.1 问题引出.27 4.2 评论情感特征的挖掘.27 4.3 实验设计.29 4.4 实验结果与分析.29 4.5 本章小结.35 结论.37 参考文献.38 攻读硕士学位期间发表学术论文情况.42 致谢.43 大连理工大学学位论文版权使用授权书.44 大连理工大学硕士学位论文 -
1 -
1 绪论 1.1 研究背景 在过去数年间, 作为 Web2.0 标志之一的在线社交网络 SNS (诸如 Facebook、 Twitter、 人人网、新浪微博、微信等)迅速风行起来.以微博为代表的新兴社交媒体形式以其信 息的交互性、即时性、多元性,以及裂变式传播的惊人速度与广度,引发了一场媒体革 命, 深刻地影响着人们生活、 社会乃至政治经济的方方面面. 然而伴随带来的资讯爆炸, 也使得社交网络中充斥的垃圾信息(spams)特别是谣言信息成为日益突出的问题,单 纯依靠人工识别与过滤已不现实.社交网络上谣言的自动识别研究逐渐受到关注. 对于谣言的概念,在西方和国内学界、广义和狭义层面上,有着较大的差异.西方 学者普遍认为谣言本身是个中性的社会现象, 是指在人群中流传的没有得到证实的信息 [1] ,它几乎伴随着人类语言和社会产生,堪称最古老的大众传播媒介[2] .与此不同的是, 国内研究者和通俗的理解更倾向于从价值判断的角度, 将谣言狭义地定义为蓄意编造的 具有巨大社会危害的虚假信息(更接近Ddisinformation‖). 互联网社交网络时代为谣言信息的产生及传播提供了更大的舞台和更合适的温床, 其中又以微博最具代表性.较之传统媒体格局,微博的社交媒体属性突破了话语权的不 平衡,使每个用户都有机会与新闻媒体成为平等的D自媒体‖,可以随时随地的创造和分 享信息,这极大地鼓励了网民的参与热情.微博上的D声音‖多源化、多中心且自由化, 使谣言有了更多被注意到的机会.同时,网上纷繁吵杂的信息环境给谣言的求证、辨别 和澄清造成了很大干扰. 社交网络从一定角度可以视为现实关系网络在互联网空间的扩 展延伸, 同时又打破了现实中地理空间等限制, 这一特点使谣言信息一改以往口口相传, 其扩散速度和广度得到惊人的跃升,爆发力和影响范围都更大.加之互联网上较难追溯 信息源头和确定实名身份,造谣者可以更加隐蔽,造谣传谣的代价更低. 除了演化扩散过程更快、影响力更广外,微博因其内容形式赋予微博谣言新的语言 学上的特点.一方面,内容碎片化.微博文字长度限制在