知识发现(Knowledge Discovery in Database,简称KDD)是 从各种媒体表示的信息中,根据不同的需求获得知识的过程。它的目的是向使用者屏蔽原始数据的繁琐细节,从原始数据中提炼出有意义的、简洁的知识,直接向使用者报告。KDD可以简单定义为确定数据中有效的、新颖的、潜在有用的、基本可理解的模式的特定过程。
KDD过程通常包括多个相互联系的步骤,具体包括:
预处理:
删除噪声数据和纠正不一致数据。
数据集成:
将来自不同源的数据合并在一起。
数据选择:
选择重要的数据项。
数据变换:
将数据转换为合适的格式。
数据挖掘:
使用专门算法从数据中抽取模式。
模式评估:
评价和解释发现结果。
知识表示:
将模式构成知识,最后是应用。
虽然数据挖掘是知识发现过程的核心,但它通常仅占KDD的一部分(大约是15% 到 25%)。因此,数据挖掘仅仅是整个KDD过程的一个步骤,对于到底有多少步以及哪一步必须包括在KDD过程中没有确切的定义。
在实际应用中,人们往往不严格区分知识挖掘和数据库中的知识发现,把两者混淆使用。一般在科研领域中称为KDD,而在工程领域则称为知识挖掘。