编辑: 梦里红妆 2019-09-09
引言 Internet 给人类带来了巨大的变革,随着 Internet 的进一步发展 和完善,各种基于 Internet 的应用业务也如雨后春笋般的发展起来,例 如网上商店、网上银行、远程教育、远程医疗等.

毫无疑问未来的 商战战场将是 Internet .同时,我们也应该看到 Internet 在给我们带来 机遇的同时也带来了挑战,它使得 WWW 上的一些主要工作, 例如 Web 站点设计、Web 服务、Web 服务设计、Web 站点的导航设计、 电子商务等工作变得更为复杂更为繁重.对于网站经营方来说,他们 需要更好的自动辅助设计工具, 可以根据用户的访问兴趣、访问频 度、访问时间动态的调整页面结构,改进服务, 开展有针对性的电子 商务以更好的满足访问者的需求.解决这种需求的一个有利的工具 就是 Web 数据挖掘,即将数据挖掘的思想和方法应用到 Web 上,进行 Web 挖掘,挖掘出有用的信息. 1. Web 数据挖掘概述 Web 挖掘是一项综合技术,涉及 Web、数据挖掘、计算机语言 学、信息学等多个领域.Web 挖掘就是从 Web 文档、Web 活动中抽 取感兴趣的、潜在的有用模式和隐藏信息.我们从更为一般的角度 出发,对Web 挖掘作如下定义.定义

1 (Web 挖掘) Web 挖掘是指 从大量 Web 文档结构和使用的集合 C 中发现隐含的模式 p .如果将 C 看作输入,p 看作输出,那么 Web挖掘的过程就是从输入到输出的一个映 射ξ :C→p 1.1 与传统的数据挖掘相比较 1.1.1 数据源具有很强的动态性.web 是一个不断变化的、动 态更新的系统,web 上的数据信息也是不断更新的.因此,其数据 源具有很强的动态性. 1.1.2 挖掘目的的模糊性.web 上有成千上万的用户,而每个 用户的背景、使用挖掘的目的和兴趣度都不同,大多数用户对自己 的挖掘主题和应用只有一个肤浅的认识和了解,并不能提出一个明 确的目标.所以挖掘目的是模糊的、不明确的. 1.1.3 数据类型的多态性.web 上的数据既有数值型数据,也 有布尔型数据,还有描述性数据以及 web 特有的数据(如IP 地址) . 新数据类型的出现,必然要对传统的数据挖掘方法进行补充和扩展, 才能进行有效的数据挖掘. 1.1.4 数据信息的分布性、多维性. 1.2 Web 数据的特点 Web 技术做为 Internet 飞速发展的产物,对信息在社会中的传播 起到了很重要的作用,分布于各 Web 站点上的数据有其自身的特点 , 主要的可以归纳为以下几点: 1.2.1 数据量巨大.Internet 把分布于世界不同位置的电脑 (服 务器) 连接了起来,每个电脑上都存有丰富的数据,这些数据涉及各种 不同的行业和领域,又由于连接于 Internet 的电脑数量非常巨大,所以 Web 站点中的数据量也非常巨大. 1.2.2 异构数据库环境.从数据库研究的角度来看,Web 网站上 的所有信息也可以看作是一个比普通数据库更大、更复杂的数据库. 每一个 Web 站点都可以看作是一个数据源,由于各站点是相互独立 的, 之间除了可以互相访问之外并没有任何关系,所以每个站点之间 的信息及信息组织方式都是不相同的,这就构成了一个巨大的异构数 据库环境.要对这些数据进行分析,必须要解决各站点之间异构数据 的集成问题,提供给用户一个统一的视图,才可能从巨大的数据资源中 获取有用的信息. 1.2.3 半结构化的数据结构.Web 上的数据与传统数据库中的 数据不同之处还在于传统数据库都有一定的模型,可以根据数据模型 来对具体的数据进行描述,而Web 站点中的数据不存在统一的模型, 各站点都是独自设计,并且站点中的数据是处于不停变化之中的.虽然Web 有自身的结构,大体上站点的结构差异并不是特别大,所以可 以认为 Web 数据是一种半结构化的数据,这是 Web 数据的另一个重 要的特点. 2. Web 数据挖掘相关技术 因为 Web 挖掘应用非常广泛,所以对 Web 挖掘相关技术的研究 也很多,针对上述不同类别的 Web 挖掘,有不同的相关技术,下面分别 介绍.一般地,Web 挖掘可以分为三类:Web 内容挖掘 (Web content mining) 、Web 结构挖掘 (Web structure mining) 、和Web 使用模 式的挖掘 (Web usage mining) . 2.1 技术分类 2.1.1 Web 内容挖掘.Web 内容挖掘是从文档内容或其描述中抽 取知识的过程.Web 文本文件内容挖掘,基于概念索引的资源发现,以 及基于代理的技术都属于这一类. 2.1.2 Web 结构挖掘.Web 结构挖掘是从 WWW 的组织结构和 链接关系中推导知识.由于文档之间的互连 WWW 能够提供除文档 内容之外的有用信息.利用这些信息,可以对页面进行排序发现重要 页面.这方面的代表有 PageRank〗和CL EVER ,此外,在多层次 Web 数据仓库 (MLDB) 中也利用了页面的链接结构. 2.1.3 Web 使用挖掘.Web 使用挖掘的主要目标是从 Web 的访 问记录中抽取感兴趣的模式.WWW 中每个服务器保留了访问日志, 记录关于用户访问和交互的信息.分析这些数据可以帮助理解用户 的行为从而改进站点的结构,或为用户提供个性化的服务.本文研究 的重点就在 Web 使用模式挖掘上. 2.2 Web 数据挖掘研究领域及发展 2.2.1 Web 数据挖掘的研究领域类型根据对 Web 数据的感兴趣 程度不同,Web 挖掘一般可以分为三类: 网络内容挖掘 (Web Content mining) 、网络结构挖掘 (Web structure mining) 、网络用法挖掘 (Web usage Mining) 2.2.2 网络内容挖掘网络信息内容是由文本、图像、音频、视频、元数据等形式的数据组成的. 2.2.3 网络结构挖掘网络结构挖掘就是挖掘 Web 潜在的链接结构 模式. 2.2.4 网络用法挖掘网络内容挖掘和网络结构挖掘的挖掘对象是 网上的原始数据, 而网络用法挖掘面对的则是在用户和网络交互的过 程中抽取出来的第二手数据, 包括网络服务器访问记录、代理服务器 日志记录、浏览器日志记录、用户简介、注册信息、用户对话或交 易信息、用户提问方式等.通过网络用法挖掘, 可以了解用户的网络 行为数据所具有的意义. 2.3 Web 数据挖掘的四个步骤 2.3.1 查找资源: 任务是从目标 Web 文档中得到数据, 值得注意 的是有时信息资源不仅限于在线 Web 文档, 还包括电子邮件、电子 文档、新闻组, 或者网站的日志数据甚至是通过 Web 形成的交易数 据库中的数据. 2.3.2 信息选择和预处理: 任务是从取得的 Web 资源中剔除无用 信息和将信息进行必要的整理.例如从 Web 文档中自动去除广告连 接、去除多余格式标记、自动识别段落或者字段并将数据组织成规 整的逻辑形式甚至是关系表. 2.3.3 模式发现: 自动进行模式发现.可以在同一个站点内部或 Web 数据挖掘技术应用 郑泠 杭州师范学院钱江学院电气系 电子工程

031 310018 [摘要] Web 数据挖掘是目前信息技术中的研究热点, 它是现代科学技术相互渗透融合的必然结果. 文章首先介绍了 web 数据挖掘的含义, 重点讨论了 web 数据挖掘的类型以各种类型的 web 数据挖掘的 基本过程以及它们所使用的一些相关技术及应用, 并对数据挖掘的发展前景和方向进行了展望. [关键词] 数据挖掘;

Web 数据挖掘;

相关技术;

应用 科技动态18 1: 前言 工业雷管生产厂在生产起爆药 ( 即二硝基重氮酚, 分子式 C6H2 (NO2) 2N2O ) 的过程中产生一定量的工艺废水, 其中含有较多的二硝基 重氮酚.二硝基重氮酚简称 DDNP, 干燥状态下的二硝基重氮酚极易 爆炸, 在常温下微溶于水、 挥发性极小.二硝基重氮酚还有一定的毒 性, 对人主要是中枢神经刺激, 中毒症状是身体青紫、 头昏目眩、 意识 不清.如果将废水直接排入工厂的排污沟, 将导致工厂周围水源的污 染, 使人畜引用后中毒.对这种高浓度二硝基重氮酚废水的处理不单 从环保的角度考虑, 而且还要考虑处理工艺的经济实用.目前国内工 业雷管生产厂对二硝基重氮酚废水的处理方法多样, 有的还用很原始 的自然沉淀和日晒的方法. 这种方法虽然经济, 但效率太低. 二硝基重 氮酚能和很多种无机物反应, 二硝基重氮酚在比较强的还原剂作用下 其中的氮能全部变成氮气放出来, 比如三氯化钛和酸.但是利用这种 化学的方法―― ―还原反应来处理二硝基重氮酚废水很不经济. 我们可 以利用二硝基重氮酚在水中的热稳定性来考虑二硝基重氮酚废水处 理工艺. 2: 二硝基重氮酚废水处理工艺原理及工艺流程 二硝基重氮酚在水中的热稳定性比较好, 在60℃下长时间加热 也不见分解现象;

在75℃下加热

960 小时, 其损失量仅 0.5%;

在95℃ 下加热

240 小时, 它的重氮基才完全分解. 因此, 可以用蒸汽锅炉加热 的工艺来处理二硝基重氮酚废水, 这样........

下载(注:源文件不在本站服务器,都将跳转到源网站下载)
备用下载
发帖评论
相关话题
发布一个新话题