人工智能和大年夜数据存在什么隐患?_数据_相干
但是,大数据真的是万能的吗?毫无疑问,大数据已经在某些领域产生了至关主要的影响。例如,险些每一个成功的人工智能办理方案都涉及大数据处理问题。
首先要把稳的是,只管AI目前非常善于在大型数据集中查找模式和关系,但它仍旧不是很智能。打算数字可以有效地识别并创造数据中的细微模式,但不能直接见告我们这些干系关系中哪些实际上故意义。
干系性和因果关系
我们都知道“干系性并不虞味着因果关系。“然而,人类的大脑天生就会探求规律,当我们看到曲线倾斜在一起,数据中涌现明显的规律时,我们的大脑就会自动给出规律。”
然而,从统计数据来看,我们仍旧无法实现这一飞跃。《虚假干系性》(false)一书的作者Tyler Vigen在自己的网站上对此进行了调侃,还有很多例子比如展示冰淇淋是如何明显地导致许多坏事的,从森林大火到鲨鱼打击和脊髓灰质炎爆发。
看看这些情节,人们可能会争辩说,我们很可能早就该当禁止冰淇淋了。 而且,实际上,在1940年代的小儿麻痹症例子中,公共卫生专家建议人们停滞吃冰淇淋作为“反政治饮食”的一部分。幸运的是,他们终极意识到小儿麻痹症暴发与冰淇淋消费之间的干系性是“完备是由于小儿麻痹症的爆发在夏季最为普遍”。
在统计中,虚假关系或虚假干系性是一种数学关系,个中两个或多个事宜或变量干系联,但由于某种有时的或某些第三个未见成分的存在而因果干系(称为“常见相应”变量”、“殽杂成分”或“潜伏变量”)。这样的“潜伏变量”的例子可以是冰淇淋销量与鲨鱼打击之间的干系性(虽然冰淇淋销量的增长不会导致鲨鱼打击人们)。但是,这两个数字之间有一个共同的环节,即温度。较高的温度导致更多的人购***淇淋以及更多的人去拍浮。因此,这个“潜变量”确实是表不雅观干系性的缘故原由。幸运的是,我们已经学会将因果关系与因果关系分开。而且,在酷热的夏日,我们仍旧可以享受冰淇淋,而不必担心小儿麻痹症爆发和鲨鱼打击!
干系性的力量和局限性
有了足够的数据,将会创造打算能力和统打算法的模式。但并不是所有的模式都故意义,由于虚假模式的数量很随意马虎超过故意义的模式。将大数据与算法结合起来,如果能精确地运用于办理问题,将是一个非常有用的工具。然而,没有科学家会认为你可以通过单独处理数据来办理这个问题,无论统计剖析是多么强大,您该当始终基于对要办理的问题的基本理解来进行剖析。
数据科学是科学的闭幕吗?
2008年6月,《连线》(Wired)杂志前主编C. Anderson写了一篇颇具鞭策性的文章,题为《理论的闭幕:数据年夜水使科学方法过期》(The End of Theory: The Data Makes The Scientific Method Obsolete)。“干系性取代因果关系,纵然没有连贯的模型和统一的理论,科学也能进步。”
这种方法的强度和通用性依赖于数据量:数据越多,基于打算创造的干系性的方法就越强大和有效。我们可以大略地把数字输入打算机,让统打算法自动创造有趣的模式和见地。
但是,这种简化的剖析方法也存在一些潜在的陷阱,可以通过John Poppelaars在博客上找到的示例很好地解释 :
假设我们要为某些变量Y创建一个预测模型。例如公司的股价、在线广告的点击率或下周的景象。接下来,我们网络所有可以利用的数据,并将其放入统计过程中,以找到Y的最佳预测模型。常见的过程是首先利用所有变量对模型进行估计,筛选出不主要的变量,然后利用所选的变量子集重新估算模型,然后重复此过程,直到找到主要的模型为止。
但是,Anderson提出的剖析方法存在一些严重的毛病。我选择了一个实例,从0到1的均匀分布中抽取100个样本,为Y创建了一组数据点,以是它是随机噪声。接下来,我通过从0到1之间的均匀分布中抽取100个样本,创建了一组50个阐明变量X(I)。因此,所有50个阐明变量也是随机噪声。我利用所有的X(I)变量来预测y,估计一个线性回归模型。由于没有任何干系的东西(所有的均布和自变量),以是期望R²(0),但实际上不是。结果是0。5。对付基于随机噪声的回归来说还不错!幸运的是,这个模型并不主要。逐步剔除不显著的变量,重新估计模型。重复这个过程,直到找到一个主要的模型。经由几个步骤后,创造一个显著性模型,调度后的R平方为0.4,7个变量的显著性水平至少为99%。再次,我们是在回归随机噪声,它绝对没有关系,但我们仍旧找到一个有7个主要参数的显著模型。如果我们只是将数据输入统打算法来探求模式,就会涌现这种情形。
数据集越大,噪声越强
最近的研究证明,随着数据集的增长,它们必定包含任意干系性。这些干系性只是由于数据的大小而涌现,这表明,许多干系性都是虚假的。不幸的是,很多信息每每表面表现得很少。
这是处理多维数据的运用程序中的紧张问题。举例来说,假设您从一家工厂的数千个传感器中网络传感器数据,然后挖掘这些数据以获取模式以优化性能。在这种情形下,您很随意马虎被数据表现的表象所迷惑,而不是真正的运营绩效指标。无论从财务上还是在工厂的安全运行方面,这都可能是一个坏。
添加数据和添加信息
作为数据科学家,我们可能常常会说,改进人工智能模型的最佳办理方案是“添加更多数据”。然而,仅仅“添加更多数据”就能提高模型性能吗?不是这样的。我们该当关注的是“添加更多的信息”。“添加数据”和“添加信息”之间的差异是至关主要的:添加更多的数据并不即是添加更多的信息(至少是有用和精确的信息)。相反,由于盲目地添加越来越多的数据,我们有可能添加包含缺点信息的数据,这些缺点信息会相应地降落模型的性能。随着数据的大量访问以及处理数据的打算能力,考虑这一点变得越来越主要。
结论
那么,上述寻衅是否该当阻挡您采取以数据为依据的决策? 不,数据驱动的决策将连续存在。随着我们得到更多有关如何最佳利用数据和信息以提高绩效的知识,这些将变得越来越有代价。
但是要意识到,要使方案成功,不仅须要硬件和大量数据,大数据和打算能力也是主要的组成部分。而且,您该当理解连接数据的基本机制。数据不能解释统统,是人类给数字授予了含义。数据的数量、种类是无法变动的。
本文系作者个人观点,不代表本站立场,转载请注明出处!