清华178页深度申报：一文看懂AI数据挖掘_数据_数据发掘

2025-01-11 05:50:18 AI简讯

在数据爆炸的时期里，如何利用手中数据资源提高行业效率、提高行业质量，成为了浩瀚企业决策者所关注的问题，数据挖掘也逐渐成为当下的热门研究领域之一，受到了谷歌、亚马逊、阿里、百度等科技巨子的追捧。

清华178页深度申报：一文看懂AI数据挖掘_数据_数据发掘 AI简讯

本期的智能内参，我们推举来自清华大学人工智能研究院、北京智源人工智能研究院、清华-工程院知识智能联合研究中央联合推出的人工智能数据挖掘报告，详细解读了数据挖掘技能运用领域、研究观点、算法实现、与发展趋势。
如果想收藏本文的报告（清华AMiner-人工智能之知识图谱），可以前往AMiner官网（https://www.aminer.cn/research_report/5c3d5a5cecb160952fa10b76?download=true）获取***。

以下为智能内参整理呈现的干货：

数据挖掘与KDD

数据挖掘（Data Mining），是指从大量的数据中自动搜索隐蔽于个中的有着分外关系性的数据和信息，并将其转化为打算机可处理的构造化表示。

目前数据挖掘的紧张功能包括观点描述、关联剖析、分类、聚类和偏差检测等，用于描述工具内涵、概括工具特色、创造数据规律、检测非常数据等。

一样平常来说，数据挖掘过程有五个步骤：确定挖掘目的、数据准备、进行数据挖掘、结果剖析、知识的同化。

▲数据挖掘过程基本步骤

1、确定挖掘目的

认清数据挖掘的目的是数据挖掘的主要一步。
挖掘的末了结果是不可预测的，但要探索的问题应是有预见的。

2、数据准备

数据准备又分为三个阶段：

1）数据的选择：搜索所有与目标工具有关的内部和外部数据信息，并从中选择出适用于数据挖掘运用的数据；

2）数据的预处理：研究数据的质量，为进一步的剖析做准备，并确定将要进行的挖掘操作的类型；

3）数据的转换：将数据转换成一个剖析模型。
这个剖析模型是针对挖掘算法建立的。
建立一个真正适宜挖掘算法的剖析模型是数据挖掘成功的关键。

3、进行数据挖掘

对得到的经由转换的数据进行挖掘。

4、结果剖析

阐明并评估结果，其利用的剖析方法一样平常应视数据挖掘操作而定，常日会用到可视化技能。

5、知识的同化

将剖析所得到的知识集成到所要运用的地方去。

▲数据挖掘的分类表

如上图所示，数据挖掘有多种分类办法，可以按照挖掘的数据库类型、挖掘的知识类型、挖掘所用的技能类型进行分类。

同时，数据挖掘也可以按照行业运用来进行分类，比如生物医学、交通、金融等行业都有其独特的数据挖掘方法，不能做到用同一个数据挖掘技能运用到各个行业领域。

数据挖掘是知识创造（KDD）的一个关键步骤。
1989年8月，Gregory I. Piatetsky- Shapiro等人在美国底特律的国际人工智能联合会议（IJCAI）上召开了一个专题谈论会（workshop），首次提出了知识创造（Knowledge Discovery in Database，KDD）这一观点。

▲数据挖掘是知识创造的过程之一

KDD涉及数据库、机器学习、统计学、模式识别、数据可视化、高性能打算、知识获取、神经网络、信息检索等浩瀚学科和技能的集成，再后来的30年间KDD逐渐形成了一个独立、发达发展的交叉研究领域。

早期比较有影响力的创造算法有：IBM的Rakesh Agrawal的关联算法、UIUC大学韩家炜（Jiawei Han）教授等人的FP Tree算法、澳大利亚的John Ross Quinlan教授的分类算法、密西根州立大学Erick Goodman的遗传算法等等。

目前，数据挖掘已经引起国际、海内工业界的广泛关注，IBM、谷歌、亚马逊、微软、Facebook、阿里巴巴、腾讯、百度等都在数据挖掘研究方面进行了运用与理论研究。

国际知识创造与数据挖掘大会（ACM SIGKDD Conference on Knowledge Discovery and Data Mining，简称SIGKDD）是数据挖掘领域的顶级国际会议，由ACM的数据挖掘及知识创造专委会卖力折衷筹办，会议内容涵盖数据挖掘的根本理论、算法和实际运用。

数据挖掘源于商业的直接需求

数据挖掘技能从一开始便是面向运用的，源于商业的直接需求。
目前数据挖掘在零售、旅游、物流、医学等领域都有所运用，可以大大提高行业效率和行业质量。

举个例子，零售是数据挖掘的紧张运用领域之一。
这是由于由于条形码技能的发展使得前端收款机系统可以网络大量售货、顾客购买历史记录、货色进出状况、消费与做事记录等数据。

数据挖掘技能有助于识别顾客购买行为，创造顾客购买模式和趋势，改进做事质量，取得更高的顾客保持力和满意程度，减少零售业本钱。

同时，同一顾客在不同期间购买的商品数据可以分组为序列，序列模式挖掘可用于剖析顾客的消费或忠实度的变革，据此对价格和商品的花样加以调度和更新，以便留住老客户，吸引新客户。

与此同时，社交网络也是数据挖掘研究中的热门领域，比如新浪微博便是拥有海量数据的资讯平台。

截止到2017年12月，新郎微博已拥有靠近4亿生动用户，内容存量超千亿，“大V”的一举一动和社会热点话题都会引起大量的评论与转发，掀起一股“数据风暴”。

▲柯洁乌镇大战AlphaGo撼负后的微博热议

微博上每个用户的辞吐、转发内容等都蕴藏着用户个人的兴趣、话题等信息，笔墨内容本身的智能剖析理解也是数据剖析领域长久以来勤学不辍追求的目标。

社会网络中的聚类被称为社区创造，许多精心设计的高效算法可以很好地处理上亿用户的大规模网络。

针对微博用户的海量数据，对其进行数据描述性可以剖析群体的年事、性别比例、职业等；对付均匀数、中位数、分位数、方差等统计指标可以帮助我们粗略理解数据分布；回归剖析、方差剖析等方法则可以阐明年事、职业等成分是否会影响用户对某热门话题的关注程度。

此外，数据挖掘在旅游、物流、医学等领域都有着广泛的运用处景。
比如数据挖掘可以对旅游客流的趋向有着准确的预知性，同时对付游客的喜好也有着直接性的节制；从医学数据中探求潜在的关系或规律，可以得到对病人进行诊断、治疗的有效知识，增加对疾病预测的准确性等。

人工智能与数据挖掘

数据挖掘从一个新的视角将数据库技能、统计学、机器学习、信息检索技能、数据可视化和模式识别与人工智能等领域有机结合起来，它组合了各个领域的优点，因而能从数据中挖掘到利用其他传统方法不能创造的有用知识。

一样平常来说，统计特色只能反响数据的极少量信息。
大略的统计剖析可以帮助我们理解数据，如果希望对大数据进行逐个地、更深层次地探索，总结出规律和模型，则须要更加智能的基于机器学习的数据剖析方法。

所谓“机器学习”，是基于数据本身的，自动构建办理问题的规则与方法。
数据挖掘中既可以用到非监督学习方法，也可以用到监督学习方法。

1、非监督学习

非监督学习是建立在所有数据的标签，即所属的种别都是未知的情形下利用的分类方法。
对付特定的一组数据，不知道这些数据该当分为哪几类，也不知道这些种别本来该当有若何的特色，只知道每个数据的特色向量。
若按它们的干系程度分成很多类，最先想到的想法便是认为特色空间中间隔较近的向量之间也较为干系，倘若一个元素只和个中某些元素比较靠近，和另一些元素则相距较远。

这时候，我们就希望每一个类有一个“中央”，“中央”也是特色向量空间中的向量，是所有那一类的元素在向量空间上的重心，即他的每一维为所有包含在这一类中的元素的那一维的均匀值。
如果每一类都有这么一个“中央”，那么我们在分类数据时，只须要看他离哪个“中央”的间隔最近，就将他分到该类即可，这也便是K-means算法的思路。

K-means算法，在1957年由Stuart Lloyd在贝尔实验室提出，最初用于办理连续的图区域划分问题，1982年正式揭橥。
1965年，E.W.Forgy发明了Lloyd-Forgy or。
James MacQueen在1967年将其命名为K-means算法。

上图因此随机天生的数据点为例，k=3的K-means算法的迭代过程，个中五角星为聚类中央，点的颜色是其种别。
在实际运用中，为了得到一个比较好的特色空间，使得“数据之间的相似性与他们在特色空间上的间隔有关，间隔越近越相似”这句话尽可能成立，我们每每会构建模型来把原数据变换到这么一个特色空间，然后利用K-means算法来进行分类。

2、监督学习

不同于非监督学习，若已知一些数据上的真实分类情形，现在要对新的未知的数据进行分类。
这时候利用已知的分类信息，可以得到一些更精确的分类方法，这些便是监督学习方法。

1）决策树模型

所谓决策树，即是一种根据条件来进行判断的逻辑框架。
个中，判断的条件，即提出有区分性的问题，以及对付不同的回答下一步的反响，以及终极的决策给出标签。

决策树算法：

1.选取包含所有数据的全集为算法的初始凑集A0：

2.对付当前的凑集A，打算所有可能的“问题”在演习集上的F（A,D）：

3.选择F（A,D）最大的“问题”，对数据进行提问，将当前的凑集由“问题”的不同回答，划分为数个子集；

4.对每个子集，重复b、c，直到所有子集内所有元素的种别相同；

5.在实际运用中，数据每每有很多特色，因此，“问题”每每是选取数据的某一特色，而“回答”则是此特色对应的值。

在决策树中，效度函数F（A,D）的选择非常主要。
决策树的发展历史，也基本是环绕着F（A,D）的优化而展开。

2）kNN算法

只知道每个数据在特色空间下的特色向量情形下，可以对数据采取无监督分类方法K-means。
如果我们拥有了个中一部分数据的标签，我们就可以利用这些标签进行kNN分类。

数据之间的相似性与他们在特色空间上的间隔有关。
间隔越近越相似，越可能拥有相同的标签。

假设我们已经有了很多既知道特色向量也知道详细标签的数据对付新的只知道特色向量却不知道详细标签的数据，我们可以选取离这个特色向量最近的k个已经知道标签的数据，然后选取他们中间最多的元素所属于的那个标签，作为新数据的预测标签。
也可以根据他们与新数据的特色向量之间的间隔加权（如最近得5分，第二近得4分等），取权重总和最大的标签作为预测标签。

kNN算法不须要构建模型或者演习，和K-means算法一样，每每是和某个构建特色空间的模型一起利用。

此外，还有回归分类、神经网络、朴素贝叶斯分类等等。

巨子们的数据挖掘之路

在当下，数据挖掘也逐渐成为当下的热门研究领域之一，受到了谷歌、亚马逊、微软、百度、阿里、腾讯等科技巨子的追捧。

1、谷歌

谷歌险些每年都会揭橥一些让人惊艳的研究事情，包括之前的MapReduce、Word2Vec、BigTable，近期的BERT。
数据挖掘是谷歌研究的一个重点领域。

2018年谷歌环球不同研究中央在数据挖掘顶级国际会议KDD上一共揭橥了7篇文章。

2、亚马逊

亚马逊公司近几年景长势头超级猛，前几年华丽的转身：从一个网上商店公司变为云平台公司再转变到目前的人工智能公司，亚马逊也在数据挖掘领域开始霸占一席，尤其是在人才网罗、开源、核心技能研发。

2018年亚马逊在数据挖掘顶级国际会议KDD的Applied Data Science Track（运用数据科学Track）上一共揭橥了2篇文章，其余还有两个运用科学的约请报告。

3、微软

微软是老牌论文王国，一贯以来都在学术界特殊生动，因此在KDD上每年和微软有关的论文非常多，因此这里只统计了微软作为第一作者的文章。