编辑: kieth 2019-07-09
博士研究生学位论文 题目: 网络资源的名字特征及其在资源组织中的应用研究 姓名: 陈d学号:

10308852 d 院系: 信息科学技术学院 d 专业: 计算机系统结构 d 研究方向: 搜索引擎与网络信息挖掘d 导师姓名: 李晓明教授 d 二零零八年 五月 On the Name Characteristics of Digital Resources and Their Applications in Resource Organization Dissertation Submitted to Peking University in partial fulfillment of the requirement for the degree of Doctor of Philosophy in Science Chen Chong (Computer Science and Technology) Dissertation Supervisor : Professor Xiaoming Li MAY,

2008 版权声明 任何收存和保管本论文各种版本的单位和个人,未经本论文作者同意,不得将本论文转借他人,亦不得随意复制、抄录、拍照或以任何方式传播.

否则,引起有碍作者著作权之问题,将可能承担法律责任. 摘要本文中,网络资源指在含义上相对独立且完整的非网页类互联网信息资源,通常由一到多个文件按照一定的目录结构组织,常见于FTP服务器和P2P系统的节点中.它们广泛分布在互联网上,是网络用户所关心的重要对象.同时,这些网络资源不仅数量巨大,而且发布、传播和共享都比较自由,呈现出 混乱 和 无序 的特点. 广泛收集并重新组织这类网络资源,是许多应用中的一项根本需求.在这项工作中,资源名称是最基本的依据;

人们一方面需要根据名称来理解得到的资源,另一方面也要通过对资源命名来标识资源.本文首先考察各类网络资源的命名状况,研究其中蕴含的用户命名行为一般规律;

进而研究了如何从资源名中切分出语义片段的方法;

并考察了名字信息在资源自动分类中的作用,分析分类性能的影响因素等问题.注意到网络上存在着许多以目录树的形式组织得相当好的资源集合,本文研究了依据目录树信息进行资源整合的效率问题,并针对这类资源整合的任务,设计了一个可扩展性好的资源增量存储与组织方案.作为对上述研究的应用,实现了一个支持海量网络资源存储组织的库藏系统,并为相关领域的研究提供数据和系统平台. 本文主要贡献包括: 考察网络资源命名的无序状况,分析用户对资源命名行为的一般规律.通过考察总体与各类别的名字长度、字符构成、片段频度分布、文件后缀对资源类别的互信息、语义种类及位序关系等方面,分析资源的名字无序混乱表象及所蕴含的规律.例如从字符类型熵来看,资源名是用户表达各种资源相关信息的渠道,而其中娱乐类资源名的字符类型熵大于工作学习类的资源名,这体现了用户对娱乐内容的融入感较强,倾向于参与修改名字来反映自己的意见和评价.从符号的出现上看,用户倾向于将多种意思通过显式或隐式分隔信息浓缩在简短的名字中.这些是本文后续名字切分、资源分类等工作的基础. 基于错误驱动转换学习思想和字符类型突变分割假设,提出一种能对资源名按照语义信息切分、且不依赖于词典的方法.这一研究也适用于其他具有多种文字符号混杂、浓缩表达多种语义类型特点的文本环境.该方法优点是能充分利用上下文特征学习,且不要求大规模训练数据.例如给800个训练样本,得到的语义片段的切分精度为81%、召回率为83%.所得的切分结果有助于从混乱的原始命名状态中获取对资源描述有用的信息. 提出一种利用资源及其成员的名字所产生的特征进行资源自动分类的方法,研究了特征分布、概率估算、样本数量等因素对分类性能的影响.发现大量低频特征(例如只在一个资源中出现过)对分类正确率的贡献在于帮助合理估算未观测到的特征的概率;

下载(注:源文件不在本站服务器,都将跳转到源网站下载)
备用下载
发帖评论
相关话题
发布一个新话题