中文站

数据挖掘、机器学习、深度学习有什么区别?

数据挖掘(Data Mining)是从海量数据中“挖掘”隐藏信息;数据挖掘采用的一个重要方法,是机器学习(Machine Learning),即通过程序积累经验,但机器学习是另一门学科,并不从属于数据挖掘,二者相辅相成;而深度学习(Deep Learning)是机器学习的一个子集,就是用复杂、庞大的神经网络进行机器学习。

数据挖掘:从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。按照教科书的说法,这里的数据是“大量的、不完全的、有噪声的、模糊的、随机的实际应用数据”,信息指的是“隐含的、规律性的、人们事先未知的、但又是潜在有用的并且最终可理解的信息和知识”。在商业环境中,企业希望让存放在数据库中的数据能“说话”,支持决策。所以,数据挖掘更偏向应用。为了做好数据挖掘,企业又要建立数据仓库。

机器学习就是利用计算机、概率论、统计学等知识,通过给计算机程序输入数据,让计算机学会新知识,是实现人工智能的途径,但这种学习不会让机器产生意识。机器学习的过程,就是通过训练数据寻找目标函数。数据质量会影响机器学习精度,所以数据预处理非常重要。

深度学习:是机器学习的分支,是一种以人工神经网络为架构,对数据进行表征学习的算法。在传统机器学习中,手工设计特征对学习效果很重要,但是特征工程非常繁琐。而深度学习能够从大数据中自动学习特征,这也是深度学习在大数据时代受欢迎的一大原因。

传统数据挖掘主要针对相对少量、高质量的样本数据,机器学习更多的是针对海量、混杂的大数据。但机器学习并不一定要全局数据,只是在大数据时代,堆数据、堆机器的方法在工业界成本低而见效快,被广泛采用。