CIIS 2019 演讲实录丨李天瑞：大年夜数据智能的寻衅及其解决筹划_数据_空气质量

2024-11-06 13:24:28 云服务

李天瑞西南交通大学人工智能研究院副院长、教授

CIIS 2019 演讲实录丨李天瑞：大年夜数据智能的寻衅及其解决筹划_数据_空气质量云服务

以下是李天瑞的演讲实录：

我的报告题目是《大数据智能的寻衅及其办理方案》，这是我们课题组近年事情的一些进展，供大家参考。

大数据智能的寻衅有很多，例如数据的不愿定性问题等。
很多人在一开始选择做大数据、人工智能这个方向的研究事情很高兴，但过一段韶光，就开始苦闷起来，由于要把大量数据准备好绝非易事，而且可能研究所须要的数据在哪里也不清楚。
大数据确当前现状是数据质量不高，数据有缺失落，标签数据少，还有数据常常是多源异构的等。
以下我们仅环绕这四个方面的寻衅，给出一些我们的办理方案。

首先我们再看一个例子来解释大数据智能的寻衅——有效合理的数据采集。
大家都知道“盲人摸象”的故事，从大数据的角度来理解，每个盲人都用自己的双手来作为传感器来感知天下，盲人通过感知而获取到的数据来进行建模，每个盲人都得到一个不同的大象模型，其缘故原由何在？这便是由于盲人所得到的数据存在片面性的问题。
就像苏轼的这首诗“横算作岭侧成峰，远近高低各不同，不识庐山真面孔，只缘身在此山中。
”所描述的，“横算作岭侧成峰”便是从不同的角度来看庐山是不一样的，可以看到数据采集的主要性。

大家都熟习知识创造的过程模型，即从数据中创造知识，须要经由一些基本的流程，包括数据选择、数据预处理、数据变换、数据挖掘，模式阐明/评价就得到我们所须要的知识，但由于该模型没有考虑数据采集的步骤，这很随意马虎陷入“盲人摸象”的局势。
我们曾经提出一个知识创造的过程新模型，即在模型中融入了数据采集这一关键步骤。
例如，我们做特色选择的时候，有一些特色是不须要的，那么就不须要支配相应的传感器来采集这方面的数据，如高铁上有上千的传感器，如何根据特色选择方法，把不须要的传感器支配到更须要的地方，就可以提高我们的决策能力。
下面我们分别根据上述四个寻衅问题给出我们的办理方案。

问题一：数据质量。

我们常日在做数据采集的时候有很多种手段，在聪慧城市里，我们可以利用人作为传感器网络高质量的数据，帮助我们实时剖析监测城市的空气质量等。
但由于人类行为的不规则，造成采集到的数据很不平衡。
常日以前在聪慧城市里评价采集的数据质量仅考虑数据量。
但我们创造合理评价采集的数据质量可从以下两个方面来考虑：一是要有足够的数据量；二是采集到的数据空间分布要均匀。
在城市感知领域，我们会给出一定的经费来构建移动感知的框架，使得网络到的数据质量尽可能达到最大化。
我们通过提出一个新的指标——层次熵，同时考虑了数据量和数据的空间分布，实验表明所提出的层次熵指标可以用来合理评价采集数据的质量和平衡性，能够有效提升采集的数据质量。

问题二：数据缺失落。

在很多情形下，我们拥有的数据是有缺失落的，我们常见的传统机器学习中所用到的数据集，有超过一半以上的数据集都有数据缺失落问题。
但绝大多数的机器学习算法必须哀求数据集是完备的，没有缺失落的，否则，该算法就会失落效。
在城市感知的时候也会常常由于传感器的失落效、停电等缘故原由，导致涌现数据缺失落。
我们从全局和局部两个角度出发，并同时考虑到数据的空间干系性和韶光干系性，通过结合经典的统计模型和数据驱动模型，提出了一种基于多视图学习的模型ST-MVL来补充具有地理标签的韶光序列数据。
基于北京市1年的空气质量数据，实验结果验证了该模型处理数据缺失落问题的有效性。

问题三：标签数据少。

若只利用少量的有标记样本来学习，那么它们所演习出的学习系统每每很难具有强泛化能力。
若仅利用少量“昂贵”的有标记样本而不该用大量“廉价”的未标记样本，则是对数据资源的极大摧残浪费蹂躏。
大数据研究中最受关注的问题之一：当有标记样本较少时，如何利用大量的未标记样本来改进学习性能。
以下我们利用少量有标签数据来提高传统的RBM特色表达能力，由此，我们提出了一个pcGRBM模型，其可视层是高斯线性层，隐蔽层是二进制类型，在演习过程中利用成对约束信息来勾引隐蔽层编码，实例级成对约束的背景知识被编码到pcGRBM的隐蔽层特色中。
实验表明，在和传统无监督聚类算法、半监督聚类算法比拟中，我们所提出的pcGRBM模型得到的特色表现出更好的性能。

问题四：多源异构。

我们很关心空气质量预测问题，但空气质量检测站很少，例如，北京这么大的地方只有20几个监测站，由于监测站占地方而且非常昂贵，一样平常的上百万，高等一点的上千万，以是不能大量地支配。
现在的问题是：空气质量监测站点是有限的，如何推测出任意位置上的空气质量，这个中存在着很多的寻衅。
比如空气质量有动态的时空干系性和突降情形，比如本日刮了一阵大风，空气质量立时就变了，还有影响空气质量的不同成分是相互影响、相互浸染，如何处理这些问题是非常大的寻衅。

我们就想办法利用一些其他的数据信息来帮助提高空气质量预测的水平，针对这个问题，基于空气质量、气候和蔼象预报等多源异构数据，并利用大气科学领域的专业知识，同时借助深度学习高效的特色表达能力，提出了一种新颖的深度分布式网络来领悟城市多源异构数据。
其思路是首先将空间上分布稀疏的空气质量数据转换为规模大小同等的输入（可以算是一种数据增强技能），然后采取了所提出的深度分布式网络来领悟空气质量、气候和蔼象预报等多源异构数据，进而对所有影响空气质量的直接和间接成分进行建模。
基于中国9个城市的3年数据，实验结果验证了该方法的有效性。

运用案例：调度优化

这个案例是谈论如何运用多源异构的数据来办理实际问题。
当前在智能城市里面调度优化运用非常多，比如城市出租车系统效率剖析，这里面涉及到出租车的位置和搭客的位置，以及搭客目的地的位置，我们可以采集到很多不同的数据，根据这些数据源帮助我们更好的决策，这是非常主要的运用处景。
又如京东快递、顺丰等，他们每天都有大量的要求，须要实时操作，有大量数据，高度动态的，这些都是属于我们研究的优化问题。
这些问题能不能利用当前的大数据技能提高其调度优化的水平？

我们以救护车实时支配优化问题为例，我们要最大化提升救护车的运输能力，即要最小化病人的均匀接送韶光和最小化超过10分钟接到的病人的比例。
超过10分钟对病人的存活率有很大的影响，以是我们要只管即便知足这两个成分。
当一辆救护车把病人送到医院之后，该当把该救护车重新支配到哪一个救护车站点，这是我们须要研究的事情。
紧张寻衅有很多成分，每个站点的紧急度，以及其他救护车的状态，一个站点的紧急度又受多个成分影响。
在这种情形下，当救护车可用时需将其重新支配到一个站点，须要依据每个站确当前紧急程度，到达现场救护车后的状态以及实时交通情形等。
基于这个背景，我们构建一个救护车重新支配优化模型。
实验数据是天津市的数据，通过救护车的动态重新支配，急救车接送病人的韶光最多降落21%。
我们也提出站点的优化选址方法，把站点选在更得当的位置，这样可以进一步提升救护车的救护能力。
通过这两种方法的叠加，大大减低救护车救护病人的韶光，这个别系现在已经支配到多个聪慧城市的运用当中。

最近我们也在考虑，想把我们的大数据技能实实在在地运用于聪慧城市里面的产品当中，比如说很多学生点过外卖，希望外卖送得越快越好。
但每天有大量的订单，如何配送订单是非常大的寻衅。
这里面就涉及到如何把送餐的任务进行分组，分好组之后进行得当的优化调度，就可以大大降落送餐的韶光。
送餐效率受到很多成分影响，比如共享性和空驶韶光，送餐任务分组与调度是范例的NP问题。
我们通过利用路网的数据、轨迹的数据、订单的数据等，构建了一个外卖任务的实时分组模型，可以帮助我们提升送餐任务的调度水平。

末了，我也表达一下我们的愿景：希望通过人工智能技能的研究与实践来实现一个利国利民、和谐共赢的模式，即百姓得实惠、企业有效益、国家也康健发展，为造福人类做出更大的贡献。

（本报告根据速记整理）

CAAI原创丨作者李天瑞

未经授权严禁转载及翻译

如需转载互助请向学会或本人申请

转发请注明转自中国人工智能学会