数据挖掘 - 问题

数据挖掘并不是一项容易的任务,因为所使用的算法可能变得非常复杂,并且数据并不总是在一个地方可用。 它需要从各种异构数据源进行集成。 这些因素也会产生一些问题。 在本教程中,我们将讨论有关的主要问题 −

  • 挖掘方法和用户交互
  • 性能问题
  • 多种数据类型问题

下图描述了主要问题。

数据挖掘问题

挖掘方法和用户交互问题

指的是以下几类问题 −

  • 挖掘数据库中不同类型的知识 − 不同的用户可能对不同种类的知识感兴趣。 因此数据挖掘有必要覆盖广泛的知识发现任务。

  • 在多个抽象层次上交互式地挖掘知识 − 数据挖掘过程需要是交互式的,因为它允许用户集中搜索模式,根据返回的结果提供和细化数据挖掘请求。

  • 融入背景知识 − 为了指导发现过程并表达发现的模式,可以使用背景知识。 背景知识不仅可以用简洁的术语而且可以在多个抽象层次上来表达所发现的模式。

  • 数据挖掘查询语言和临时数据挖掘 − 数据挖掘查询语言允许用户描述临时挖掘任务,应与数据仓库查询语言集成并针对高效、灵活的数据挖掘进行优化。

  • 数据挖掘结果的呈现和可视化 − 一旦发现模式,就需要用高级语言和视觉表示来表达。 这些表示应该很容易理解。

  • 处理嘈杂或不完整的数据 − 在挖掘数据规律的同时,需要数据清洗方法来处理噪声和不完整的对象。 如果没有数据清理方法,那么发现的模式的准确性就会很差。

  • 模式评估 − 发现的模式应该很有趣,因为它们要么代表常识,要么缺乏新颖性。

性能问题

可能存在与性能相关的问题,例如以下问题s −

  • 数据挖掘算法的效率和可扩展性 − 为了有效地从数据库中的海量数据中提取信息,数据挖掘算法必须高效且可扩展。

  • 并行、分布式和增量挖掘算法 − 数据库规模庞大、数据分布广泛、数据挖掘方法复杂等因素促使并行、分布式数据挖掘算法的发展。 这些算法将数据划分为多个分区,并以并行方式进一步处理。 然后合并分区的结果。 增量算法,更新数据库,无需从头开始再次挖掘数据。

多样化数据类型问题

  • 处理关系型和复杂类型的数据 − 数据库可能包含复杂的数据对象、多媒体数据对象、空间数据、时间数据等。一个系统不可能挖掘所有这些数据。

  • 从异构数据库和全球信息系统中挖掘信息 − 数据可从 LAN 或 WAN 上的不同数据源获取。 这些数据源可以是结构化的、半结构化的或非结构化的。 因此,从他们身上挖掘知识给数据挖掘带来了挑战。