互联网上的数据采掘技术 苏小元 2001年 9期 数据采掘和知识发现是一门新的基础研究领域,它在科学、医药、商业和教育领域都有重要的应用。数据采掘试图阐明、分析和实施便于从未经组织的数据中提取有意义的信息和基本推断过程,它半自动地从巨大的数据集中提取模式、更改、关联、异常、规则化以及统计重要的结构和事件。它与传统的统计相比,后者是由人驱动的,而它是由数据驱动的,另外有时数据采掘的目标是提取易于被转换为逻辑规则或者视觉表现的定性模式,从这个意义上说,数据采掘是以人为中心的,并且也要和人机界面研究相匹配。这里巨大的数据集是指单独一台工作站或者一组工作站无法装下而需要使用更大工作站组以及额外的存储设备,或者是在地域上分布的数据集。    数据采掘通过提供可调整的扩展和在关联、整体训练、图形模式、在线发现技术、对巨量和分布式数据集的探索算法等方面工作的进展,推进其自身的发展。目前数据采掘在网络方面的研究已经取得如下成就:   #1 1.神经网络    神经网络系统的灵感来自人脑。一个基本的例子是由输入节点、输出节点、以及被称为隐含节点的中间节点组成的传播网络。一开始,这些节点是由随机权重连接起来的。在训练过程中,一个梯形下降的算法被用来调整权重使之能准确地分类呈现给输入节点的数据。   #1 2.高性能的计算和通信    数据采掘需要对巨量数据集进行高强度的统计运算。这种类型的计算需要有高性能的SMP工作站,以及支持诸如MPI以及MPIO等的高性能计算协议的高性能工作站组的出现才能得到实际的运行。分布式的数据采掘需要将巨量的数据在地域上分离的站点间传送,随着广域高性能网络的出现,现在已经成为可能。   #1 3.商业和电子商务数据    前方办公室、后方办公室以及网络应用都产生了有关商业过程的巨量数据,如何利用这些数据进行高效的决策是个很大的挑战。在电子商务的应用中,不仅市场模式和风险模式是重要的,同样重要的是为了满足在线交易的需要,数据处理必须是实时的或者接近实时的。   #1 4.网页数据    网页上的数据的数量和复杂性都在日益增长,虽然文本、声音、图像、还有视频数据在网上都能实现,但由于数据量的增长,从中提取用于决策分析的信息却越来越困难。HTML支持多媒体,而XML正是在网络环境中处理数据的语言。有了这些基础,数据采掘有望成为数据网络中的关键技术。    目前,数据采掘和知识发现在网络方面的成功应用有:在商业数据采掘系统中使用关联规则来对商业进行有效管理;改进银行、电信、保险等行业内欺诈行为的实时检测系统;分布式数据采掘系统利用高性能宽域网采掘和传送海量的分布式科学和医疗数据;结合信息检索算法对巨量文本进行采掘,有些算法支持多语言,并以概念取代关键词进行操作。    数据采掘在以下方面的研究仍面临挑战:提高数据采掘算法的适应能力,采掘非向量,采掘分布式数据,提高数据采掘系统和环境的易用性,以及数据采掘在保护隐私和保障安全方面的要求等。    数据采掘研究对试验要求有:对硬盘和处理器等的计算机资源的要求,必须允许以得到保证的服务质量在地理上分离的站点之间进行巨量数据集的传送,还需要具备多种专用和通用的数据采掘软件。最困难的还在于组织合适的巨量数据集和多学科、跨学科研究队伍。