机械进修原来如斯有趣！全世界最简单的机械进修入门指南_神经收集_参数

2025-01-12 01:58:15 AI简讯

人工智能是个信息革命到蒸汽机规模之间的机会，比较之下虚拟现实该当是移动互联网级别的，而用户个性化做事该当是伴生规模的。

机械进修原来如斯有趣！全世界最简单的机械进修入门指南_神经收集_参数 AI简讯

如果人工智能技能带来的变革确实能够比拟工业革命的话，那么它势必会造诣一代人，同时也淘汰掉一代人。
而且，仔细想想，实在人工智能离我们并不迢遥，乃至可以说已经开始深入到我们的日常生活中了。
从iPhone里的Siri，到各大网站的内容推举系统，再到图像识别和人脸识别技能的广泛运用，这些场景的背后都有这项技能在发挥浸染。

作为程序员，以机器学习和深度学习为代表的人工智能技能，与我们的关系则更加紧密。
现在凡是有些规模的互联网公司，基本都有专门研究算法的团队。
在数据挖掘、Antispam、推举系统和广告系统，以及其它一些领域，我们都多多少少会涉及到一些机器学习的技能。
纵然我们不亲自大责开拓和掩护这些技能，在事情中也难免会与之产生交集。

说了这么多，我实在想强调的一点是：任何人都该当理解一点跟人工智能有关的技能，由于这是无法阻挡的大潮，是不可避免的未来趋势。

而对付一名没有涉及到任何这方面技能的工程师来说，这项技能本身的独特性也绝对值得你花韶光去理解。
你一旦理解就会创造，这是一种全然不同的编程办法。

本文便是这样的一篇科普文章，目的是向所有没有打仗过人工智能技能的程序员（乃至非技能职员），先容人工智能领域最前沿的神经网络和深度学习方面的知识。
大概，你看完之后，会像我第一次打仗它们的时候一样，惊奇地感叹：这种编程办法切实其实是造物主留下的一个后门！
竟然用如此大略的算法就能实现出远远超越原来设计的智能！

好了，蓄势完毕，相信现在你对付是否乐意花韶光读完剩下的内容，已经做出自己的决定了。
实际上，这项科普的事情并不轻松，由于这项技能涉及到不少数学知识。
为了避免阅读障碍，我会考试测验在描述的过程中只管即便不引入繁芜的数学公式，同时让讲解只管即便有趣。

现在人工智能非常火爆，给大家推举一个非常适宜小白入门的教程，点下面链接即可跳转。

https://www.captainbed.net/suga

感知器

要想理解深度学习，我们就必须先理解人工神经网络，由于神经网络是深度学习的根本。
而要理解神经网络，我们就必须先理解它的基本组成单元——神经元(neuron)。

感知器(perceptron)是一种早期的神经元构造，在上个世纪五六十年代就被提出来了[1]。
现在它在神经网络中已很少被利用，但理解它有助于理清其它类型神经元的基本构造和设计思路。

如上图所示，一个感知器的定义元素包括：

有多个输入：x1, x2, x3, …, 它们只能是0或1。
有一个输出：output. 只能是0或1。
每个输入对应一个权重值：w1, w2, w3, …, 它们可以是任意实数。
有一个阈值：threshold. 可以是任意实数。
输出output取决于各个输入的加权求和与阈值threshold的大小，即：如果w1x1 + w2x2 + w3x3 + … > threshold，则输出output=1，否则输出output=0。

直不雅观上理解，感知器相称于一个决策模型。
输入表示进行决策时须要考虑的外在成分或条件，权重表示你对某个外在成分的重视程度，而阈值则表示你对付这个决策事宜本身的喜好程度或接管程度。

举一个例子：假设周末有一个同学聚会，现在你正在决策要不要去参加。
你考虑的成分如下：

如果那天景象好，那么你就更故意愿去参加。
用x1=1表示景象好，x1=0表示景象不好。
你对付景象这个成分的重视程度为w1=3。
如果某个你讨厌的人也去参加聚会，那么你就兴趣索然，不太乐意去了。
用x2=1表示你讨厌的那个人去参加聚会，x2=0表示那个人不参加聚会。
对应权重w2=-5，负值表示这个成分的涌现会降落你去参加聚会的意愿。
但如果你暗恋的一个女孩去参加聚会，那么你无论如何也是想去的。
用x3=1表示那个女孩去参加聚会，x3=0表示她不参加聚会。
这个女孩对付你太主要了，以是有一个很大的权重：w3=10。

现在假设阈值threshold=2。
我们根据前面的规则去打算output，这个打算过程就相称于决策过程。
如果output算出来即是1，那么你就去参加聚会，否则就不去。

决策结果无非是下面几种：

如果你暗恋的女孩去参加聚会，那么不管其它成分，你肯定就去了。
由于权重w3实在太大了，不管其余的输入是多少，都会导致加权求和后超过threshold=2。
你暗恋的那个女孩不去参加聚会，而你讨厌的那个人去参加聚会。
这时不管景象如何，你都不会去了。
你暗恋的那个女孩和你讨厌的那个人都不去参加聚会。
那么你去不去终极取决于景象怎么样。

对付一个给定的感知器来说，它的权重和阈值也是给定的，代表一种决策策略。
因此，我们可以通过调度权重和阈值来改变这个策略。

关于阈值threshold，这里须要指出的一点是，为了表达更方便，一样平常用它的相反数来表达：b=-threshold，这里的b被称为偏置（bias）。
这样，前面打算输出的规则就修正为：如果w1x1 + w2x2 + w3x3 + … + b > 0，则输出output=1，否则输出output=0。

再看一下下面这个感知器。
权重w1=w2=-2，而b=3。

很明显，只有当x1=x2=1的时候，output=0，由于(−2)1+(−2)1+3=−1，小于0。
而其它输入的情形下，都是output=1。
这实在是一个“与非门”！

在打算机科学中，与非门是所有门部件中比较分外的一个，它可以通过组合的办法表达任何其它的门部件。
这被称为与非门的普适性(Gate Universality)[2]。

既然感知器能够通过设置恰当的权重和偏置参数，来表达一个与非门，那么理论上它也就能表达任意其它的门部件。
因此，只要创建足够多的感知器，那么它们便能够通过彼此连接从而组成一个打算机系统。
但这彷佛没有什么值得惊喜的，我们已经有现成的打算机了，这只不过是让事情繁芜化了而已。

演习和学习

单个感知器能做的事情很有限。
要做繁芜的决策，我们可能须要将多个感知器连接起来。
就像下面这个一样：

这个由感知器组成的网络，包含5个输入，8个感知器。
权重参数的数量，我们可以算一下：53+34+41=31。
再加上8个偏置参数，这个网络统共有39个参数。

这个图有一点须要解释的是：左边第一层的每个感知器看起来彷佛有4个输出，而不是1个。
但这是个错觉。
实际情形是每个感知器的那唯一的一个输出分别连接到了下一层的各个感知器的输入上了。
这种表示法是为了方便。
输出真个多条连线只是表示连接关系，而不表示输出的个数。

这个感知器网络还算是一个大略的网络，就已经有多达39个参数了。
而实际中的网络可能会有上万个，乃至数十万个参数。
如果手工一个一个地去配置这些参数，恐怕这项任务永久也完成不明晰。

而神经网络最有特色的地方就在于这里。
我们不是为网络指定所有参数，而是供应演习数据，让网络自己在演习中去学习，在学习过程中为所有参数找到最恰当的值。

如何演习呢？大体思路是这样：我们见告网络当输入是某个值的时候，我们期望的输出是什么。
这样的每一份演习数据，称为演习样本（training example）。
这个过程相称于老师在传授教化生某个抽象的知识的时候，举一个具体例子。
一样平常来说，我们举的例子越多，就越能表达那个抽象的知识。
这在神经网络的演习中同样成立。
我们可以向网络注意灌输成千上万个演习样本，然后网络就自动从这些样本中总结出那份隐蔽在背后的抽象的知识。
这份知识的表示，就在于网络的所有权重和偏置参数的取值。

假设各个参数有一个初始值。
当我们输入一个演习样本的时候，它会根据当前参数值打算出唯一的一个实际输出值。
这个值可能跟我们期望的输出值不一样。
想象一下，这时候，我们可以试着调度某些参数的值，让实际输出值和期望输出值只管即便靠近。
当所有的演习样本输入完毕之后，网络参数也调度到了最佳值，这时每一次的实际输出值和期望输出值已经无限靠近。
这样演习过程就结束了。

假设在演习过程中，网络已经对数万个样本能够给出精确（或靠近精确）的反应了，那么再给它输入一个它没见过的数据，它也该当有很大概率给出我们预期的决策。
这便是一个神经网络事情的事理。

但这里还有一个问题。
在演习过程中，当实际输出值和期望输出值产生差异的时候，我们如何去调度各个参数呢？当然，在思考怎么做之前，我们该当先弄清楚：通过调度参数的办法得到期望的输出，这个方法可行吗？

实际上，对付感知器网络来说，这个方法基本不可行。
比如在上图有39个参数的感知器网络中，如果坚持输入不变，我们改变某个参数的值，那么终极的输出基本完备不可预测。
它或者从0变到1（或从1变到0），当然也可能坚持不变。
这个问题的关键在于：输入和输出都是二进制的，只能是0或者1。
如果把全体网络算作一个函数（有输入，有输出），那么这个函数不是连续的。

因此，为了让演习成为可能，我们须要一个输入和输出能够在实数上保持连续的神经网络。
于是，这就涌现了sigmoid神经元。

sigmoid神经元

sigmoid神经元(sigmoid neuron)是当代神经网络常常利用的基本构造（当然不是唯一的构造）。
它与感知器的构造类似，但有两个主要的差异。

第一，它的输入不再限定为0和1，而可以是任意0~1之间的实数。

第二，它的输出也不再限定为0和1，而是将各个输入的加权求和再加上偏置参数，经由一个称为sigmoid函数的打算作为输出。

详细来说，假设z=w1x1+w2x2+w3x3+…+b，那么输出output=σ(z)，个中：

σ(z) = 1/(1+e-z)

σ(z)的函数曲线如下：

可见，σ(z)是一个平滑、连续的函数。
而且，它的输出也是0~1之间的实数，这个输出值可以直接作为下一层神经元的输入，保持在0~1之间。

可以想象，在采取sigmoid神经元组装神经网络之后，网络的输入和输出都变为连续的了。
也便是说，当我们对某个参数的值进行眇小的改变的时候，它的输出也只是产生眇小的改变。
这样就使得逐步调度参数值的演习成为可能。
这个思想如下图所示：

一个经典的运用案例

为相识释神经网络如何详细运用。
这里我们引入一个经典的案例。
这个例子来自Michael Nielsen的书《Neural Networks and Deep Learning》[3]，是利用神经网络对付手写体数字进行识别。
当然，这个例子在历史上，很多研究职员也都做过考试测验。

这里顺便说一句，Michael Nielsen 的这本书真的很赞，没见过哪一份资料能把神经网络和深度学习讲解得这么透彻。
这本书切实其实称得上是神经网络的科普圣经，感兴趣的初学者一定要读一读。

这个问题便是对类似下面这样的手写体数字进行识别，区分出它们详细是0到9哪一个数字：

这份手写体数据实在来源于一个公开的数据集，称为MNIST[4]。
个中每个数字，是一张28像素×28像素的黑白图片，每个像素用一个灰度值表示。

Michael Nielsen采取的神经网络构造如下：

左侧第一列圆圈表示网络的784个输入（把稳图中没有画出全部），对应一张图片的28×28=784个像素点。
每个像素的灰度值，在经由归一化处理之后，可以表达为0~1之间的数值，作为这里的输入。
把稳：这一列圆圈并不是神经元（虽然看起来像），只是输入而已。

中间一列称为隐蔽层(hidden layer)，图中画出的是15个神经元节点。
隐蔽层上的每一个节点都与每个输入连接，也便是说输入层和隐蔽层之间是全连接。

这个神经网络只有一层隐蔽层，属于浅层的神经网络(shallow neural networks)。
而真正的深度神经网络(deep nerual networks)，则会有多层隐蔽层。

最右侧一列是输出层(output layer)，有10个神经元节点，分别代表识别结果是0,1,2,…,9。
当然，受sigmoid函数σ(z)的限定，每个输出也肯定是0~1之间的数。
那我们得到一组输出值之后，我们到底认为识别结果是哪个数字呢？我们可以根据哪个输出的值最大，我们就认为识别结果就取那个数字。
而在演习的时候，我们期望的输出形式是：精确的那个数字输出为1，其它输出为0。
隐蔽层和输出层之间也是全连接。

我们可以算一下这个神经网络共有多少个参数。
权重参数有78415+1510=11910个，偏置参数有15+10=25个，统共参数个数为：11910+25=11935个。

对付这个神经网络的演习过程，便是要确定这11935个参数。
演习的目标可以粗略概括为：对付每一个演习样本，我们期望的那个精确数字，对应的输出无限靠近于1，而其它输出无限靠近于0。

先不说详细的学习方法（下一节会先容），我们先说一下神经网络这种编程办法在这一详细问题上取得的结果。
根据Michael Nielsen给出的实验结果，以上述网络构造为根本，在未经由调优的情形下，可以轻松达到95%的精确识别率。
而核心代码只有74行！

在采取了深度学习的思路和卷积网络(convolutional networks)之后，终极达到了99.67%的精确识别率。
而针对MNIST数据集达到的历史最佳成绩是99.79%的识别率，是由Li Wan, Matthew Zeiler, Sixin Zhang, Yann LeCun, 和 Rob Fergus在2013年做出的。

考虑到这个数据集里还有一些类似如下这样难以辨认的数字，这个结果是相称惊人的！
它已经超越了真君子眼的识别了。

在本文前面一节，我们已经对神经网络的演习过程进行了描述，但个中关键的一步还没有先容，便是如何在这个过程中一步步调整权重和偏置参数的值呢？要讲清楚这个问题，我们就必须引入梯度低落算法(gradient descent)。

随机梯度低落

在演习的过程中，我们的神经网络须要有一个实际可行的学习算法，来逐步调度参数。
要设计这样一个学习算法，我们首先要明确演习的目标。

我们演习的终极目的，是让网络的实际输出与期望输出能够只管即便靠近。
我们须要找到一个表达式来对这种靠近程度进行表征。
这个表达式被称为代价函数(cost function)。

一个比较常见的cost function如下所示：

这是本文涌现的最繁芜的一个公式了。
但不用恐怖，我们对它剖析一下，只要能理解它的主旨就好：

x表示一个演习样本，即网络的输入。
实在一个x代表784个输入。
y(x)表示当输入为x的时候，期望的输出值；而a表示当输入为x的时候，实际的输出值。
y(x)和a都分别代表10个输出值（以数学上的向量来表示）。
而它们的差的平方，就表征了实际输出值和期望输出值的靠近程度。
越靠近，这个差值就越小。
n是演习样本的数量。
假设有5万个演习样本，那么n便是5万。
由于是多次演习，以是要除以n对所有演习样本求均匀值。
C(w,b)的表示法，是把cost function算作是网络中所有权重w和偏置b的函数。
为什么这样看呢？进行演习的时候，输入x是固定的（演习样本），不会变。
在认为输入不变的情形下，这个式子就可以算作是w和b的函数。
那么，式子右边的w和b在哪呢？实际上，在a里面。
y(x)也是固定值，但a是w和b的函数。

总结来说，C(w,b)表征了网络的实际输出值和期望输出值的靠近程度。
越靠近，C(w,b)的值就越小。
因此，学习的过程便是想办法降落C(w,b)的过程。
而不管C(w,b)的表达形式如何，它是w和b的函数，这就变成了一个求函数最小值的最优化问题。

由于C(w,b)的形式比较繁芜，参数也非常多，以是直接进行数学上的求解，非常困难。
为了利用打算机算法办理这一问题，打算机科学家们提出了梯度低落算法(gradient descent)。
这个算法实质上是在多维空间中沿着各个维度的切线贡献的方向，每次向下迈出眇小的一步，从而终极抵达最小值。

由于多维空间在视觉上无法表示，以是人们常日会退到三维空间进行类比。
当C(w,b)只有两个参数的时候，它的函数图像可以在三维空间里呈现。
如下所示：

就彷佛一个小球在山谷的斜坡上向下一直地滚动，终极就有可能到达谷底。
这个理解重新推广到多维空间内也基本成立。

而由于演习样本的数量很大（上万，几十万，乃至更多），直接根据前面的C(w,b)进行打算，打算量会很大，导致学习过程很慢。
于是就涌现了随机梯度低落(stochastic gradient descent)算法，是对付梯度低落的一个近似。
在这个算法中，每次学习不再针对所有的演习集，而是从演习集中随机选择一部分来打算C(w,b)，下一次学习再从剩下的演习集中随机选择一部分来打算，直到把全体演习集用光。
然后再不断重复这一过程。

深度学习

深度神经网络（具有多个hidden layer）比浅层神经网络有更多构造上的上风，它有能力从多个层次上进行抽象。

上图表达了在一个基于深度学习的图像识别过程中，逐层抽象的过程：

最下面的视觉输入层，接管图片的各个像素。
第一层hidden layer，通过比较相邻元素的不同亮度，识别出图像的边界。
第二层hidden layer，将边界组合，识别出图像的角和轮廓。
第三层hidden layer，进一步抽象，将角和轮廓进行组合，识别出物体的组成部分。
终极，输出层识别出详细的物体（是汽车、人，还是动物）。

从上个世纪八九十年代开始，研究职员们不断考试测验将随机梯度低落算法运用于深度神经网络的演习，但却碰到了梯度消逝(vanishing gradient)或梯度爆发(exploding gradient)的问题，导致学习过程非常缓慢，深度神经网络基本不可用。

然而，从2006年开始，人们开始利用一些新的技能来演习深度网络，不断取得了打破。
这些技能包括但不限于：

采取卷积网络(convolutional networks)；Regularization (dropout)；Rectified linear units；利用GPU得到更强的打算能力；利用更好的cost function；……

限于篇幅缘故原由，我们有机会下次再谈论这些技能细节。

深度学习的优缺陷

根据本文前面的先容，深度学习的优点显而易见：这是一种全新的编程办法，它不须要我们直接为要办理的问题设打算法和编程，而是针对演习过程编程。
网络在演习过程中就能自己学习到办理问题的精确方法，这使得我们可以用大略的算法来办理繁芜的问题，而且在很多领域赛过了传统方法。
而演习数据在这个过程发挥了更主要的浸染：大略的算法加上繁芜的数据，可能远胜于繁芜的算法加上大略的数据。

但这项技能的一些缺陷我们也不得不当心：

深度网络每每包含大量的参数，这从哲学原则上不符合奥卡姆剃刀原则。
常日人们要在调度这些参数上面花费巨大的精力；演习深度网络须要大量的打算力和打算韶光；过拟合(Overfitting)问题始终伴随着神经网络的演习过程，学习过慢的问题始终困扰着人们；我们很难明得神经网络的事情办法，这随意马虎让人们产生一种失落控的恐怖，同时也对这项技能在一些主要场合的进一步运用制造了障碍。

记得前一段韶光在朋友圈流传甚广BetaCat的故事，讲的便是一个人工智能程序，通过自我学习，终极逐渐统治天下的故事。

那么，现在的人工智能技能的发展，会导致这种情形发生吗？会导致强人工智能的涌现吗？

恐怕还不太可能。
个人觉得，大概有两个主要成分：

第一，现在的人工智能，它的自我学习还是限定在人们指定的办法，只能学习办理特定的问题，仍旧不是通用的智能。
第二，现在对付人工智能的演习过程，须要人们为其输入规整化的演习数据，系统的输入输出仍旧对付数据的格式哀求很严格。
这也意味着，纵然把人工智能程序连到网上，它也不能像BetaCat那样对付互联网上海量的非构造化数据进行学习。

但是，本其实用的角度，这仍旧是一种非常吸引人，而且很有前景的技能。

前段韶光，朋友圈里流传着其余一个故事：一个日本小伙（一位工程师）利用深度学习技能，考试测验为他母亲的农场设计了分选黄瓜的机器，大大减轻了他母亲在农忙时节的事情量。

那么，同样作为工程师的你，是否也想利用平生所学，为妈妈做一点事呢？