数据挖掘是指从大量数据中提取或“挖掘”知识,即从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们不知道的、却是潜在有用的知识。数据挖掘是一门交叉学科,其过程涉及数据库、人工智能、数理统计、可视化、并行计算等多种技术。数据挖掘与传统数据分析不同:

  • 两者分析对象的数据量有差异,数据挖掘所需的数据薹比传统数据分析所需的数据量大,数据量越大,数据挖掘的效果越好;
  • 两者运用的分析方法有差异,传统数据分析主要运用统计学的方法、手段对数据进行分析,而数据挖掘综合运用数据统计、人工智能、可视化等技术对数据进行分析;
  • 两者分析侧重有差异,传统数据分析通常是回顾型和验证型的,通常分析已经发生了什么,而数据挖掘通常是预测型和发现型的,预测未来的情况,解释发生的原因;
  • 两者成熟度不同,传统数据分析由于研究较早,其分析方法相当成熟,而数据挖掘除基于统计学等方法外,部分万法仍处于发展阶段。

数据挖掘流程一般包括确定分析对象、数据准备、数据挖掘、结果评估与结果应用五个阶段,这些阶段在具体实施中可能需要重复多次。

image

数据挖掘的结果经过决策人员的许可才能实际运用,以指导实践。只有通过对分析知识的应用,才能对数据挖掘的成果做出正确的评价。