维基百科将机器学习定义如下:

一文带你吃透“机械进修”理解不一样的人工智能_机械_数据 智能助手

“机器学习是从人工智能的范式识别和打算学习理论中发展而成的打算机科学领域之一。
机器学习先演习数据,然后研究可预测的算法。
这些算法并不该用静态编程,而是通过输入的数据创建模型,从而进行预测或给出决策。

由此可知,机器学习定义中最主要的部分是,利用给天命据独立演习并创建得当的模型。
一样平常来说,想要利用打算机做某件事情,须要在打算机上详细定义什么是数据(输入)、这些数据进入之后该当若何处理(程序)、该当若何表示结果(输出)等。

1.1 浅识机器学习

程序员开拓程序的过程是使打算机理解定义,通过指令编码,指示应该如何处理输入、程序、输出。
打算机没有智能,只有将输入、程序、输出干系的详细内容编写为没有逻辑抵牾的程序,才能得到想要的结果。

但是机器学习利用的处理方法完备不同。
人们只进行输入和输出,机器学习会自行创建程序。
准备好得当的数据后,用现有的处理方法编写程序则须要投入很多的韶光和精力,但是机器学习的处理方法却不用这么麻烦。
在机器学习中,将想要的结果指定为输出,余下的事情则依赖机器学习独立编写程序。
因此,我们只须要供应足量的、已经整理好的数据,以及利用机器学习时所需的打算能力即可。

图 1-1 明确展示了机器学习处理方法和现有处理方法的不同。

机器学习以数据为根本,以是与打算统计有诸多关联。
从机器学习的不雅观点看,“从数据中学习”是指,利用既有数据算出概率并给出特天命据时,借助过去的数据打算得出结果值的概率。

这种特色充分表示了数据在机器学习中的主要性。
如果供应的数据量不得当或质量低下,那么纵然利用优质的机器算法,也不可能得出好的结果。
著名的“无用输入,无用输出”(GIGO,garbage in,garbage out)原则自然也适用于机器学习。

数据对机器学习的结果影响巨大,因此在机器学习中,挖掘并整理数据的数据挖掘十分主要。
通过数据挖掘选择将要用作输入数据的得当的输入变量,补充该输入变量缺失落的数据或打消离群值,然后选择适量数据,这实在是机器学习中最主要的过程,而且是重中之重。

1.2 机器学习的优缺陷

如果你第一次打仗机器学习干系的观点或各种成功案例,可能会以为它像尚方宝剑,能够办理任何问题。
再试着运行示例代码,会更吃惊地创造,几行简短的代码竟然可以轻松地从图像中识别笔墨、分辨 Iris 花的种类等,这些都是用现有编程方法很难做到的事情。

但是,你不久之后就会意识到,机器学习并非摆荡一次便能压制所有仇敌,也会明白示例只是示例。
那些所谓的“成功案例”可能是利用的数据有误、算法不符合,或问题与机器学习不适宜才“意外实现”的。

想要精确利用机器学习,须要把握机器学习的优缺陷,要考虑待办理的问题是否适宜机器学习,如果不适宜该当若何重新定义问题,该当利用哪些数据等。
换言之,只有理解机器学习的优缺陷,才能用它取得好的结果。

1.2.1 机器学习的优点

● 不须要演习所需的知识表达。
打算机理解知识时,所需的表达是很难的。

● 如果数据充分,算法得当,呈现的结果将优于人工构建的模型。

● 不哀求专业的数学知识或编程能力。
仅靠基本观点即可充分利用机器学习。

● 支持自动化。
可以用程序自动进行机器学习、探求最优参数、对结果进行评估。

● 本钱低廉且灵巧。
除数据之外的其他过程均可自动化。

● 可以通过程序随心利用。

1.2.2 机器学习的缺陷

● 准备数据时须要付出大量努力。
如果是监督学习,须要给出所有单一数据的结果值。

● 随意马虎报错。
常日很难创建准确度高的模型。

● 天生的模型是黑箱,以是很难对其进行阐明。
想要提高准确度,应该修正或者改进模型,但是大部分机器学习算法很难用演习结果理解天生的模型,而且不能对模型本身进行改进。

● 常常发生过拟合问题。
虽然优化了既有数据,使得演习中利用的数据拥有较高的预测能力,但是其他数据的预测能力并不突出。

1.3 机器学习的种类

如图 1-2 所示,根据学习方法的不同,机器学习可以分为三大类:人工供应输入和输出的监督学习、只供应输入的无监督学习、在某个环境内为了达成特定目标而进行独立学习的强化学习。
从当前的利用频率看,监督学习最多,其次是无监督学习,末了是强化学习。

1.3.1 监督学习

监督学习是最常用的机器学习类型,包括垃圾邮件过滤、OCR 字符识别等。
监督学习通过供应输入和输出进行学习,可以视为一种优化问题,由于它会对监督学习算法现有的输入值进行剖析,然后创建得出输出值时所需的最优模型。
以开拓能够区分小猫图像的机器学习程序为例。
由于监督学习须要供应输入和输出,以是要供应小猫的图片和“小猫”这个词。
也便是说,供应小猫照片的同时,也要供应“小猫”这一输出,如图1-3 所示。

因此,在监督学习中,数据以输入和输出捆绑在一起的“元组”形态构成。

1.3.2 无监督学习

监督学习是剖析输入以得出输出的优化问题,无监督学习则是把握输入数据的构造或者剖析关系的方法。
无监督学习也称“知识创造”(knowledge discovery),由于它能够用演习结果创造意想不到的知识,或者创造输入数据之间的组合和特色等。

无监督学习的另一个特色是,它很难对演习结果进行评价。
由于演习结果没有明确的目的,即没有输出,以是无法制订评价标准。
监督学习供应数据的时候,每个数据的输入和输出都是元组形式;但是无监督学习中没有输出,只供应输入。

前文监督学习示例供应了小猫的照片和名字,但无监督学习中没有名字,只用小猫的照片完成学习,如图 1-4 所示。

1.4 机器学习能做的事情

最近,机器学习通过无人汽车、小猫照片识别、图像描述(image captioning)等呈现出优胜的成果,我们有情由相信,用专业的数学背景和风雅的算法武装机器学习后,能够办理很多问题。
但是目前,利用机器学习这一“邪术”办理的问题并不多,乃至连这一点点造诣都耗费了诸多费力和奉献。

通过机器学习达成某件事情耗费的韶光比想象中要长。
想要得到一个完全的结果,须要经由数十次、数百次的重复,逐步改进,还要根据情形重新构建模型,或者从完备不同的角度推进。
尤其是想要利用机器学习办理特定问题时,只有将这个特定问题转化为适宜机器学习的形态,才能得到想要的结果。
因此,精确利用机器学习前,必须知道机器学习能做什么、不能做什么。

看到机器学习能够过滤垃圾邮件、识别笔墨和语音,你可能会以为它可以处理各种事务,但实在它只能处理三类事情:回归(把握变量间关系)、分类(分类数据)、聚类(将有关的数据联结在一起)。

机器学习通过这三种办法办理各种问题。
回归和分类是所有机器学习算法的根本,是非常主要的观点,大家必须理解。

1.4.1 回归

回归的紧张目的在于把握连续数字变量间的相互关系,特殊是剖析因变量和自变量之间的联系。
为了帮助大家理解回归,下面以房价为例进行解释。
假设我们打算卖掉正在居住的屋子,想知道到底能够得到多少钱。
但是由于没有和这所屋子大小相同的房屋作为参考,以是很难决定房价。
此时可以通过其他房屋面积的房价数据和回归剖析,打算合理的房价。

开始回归剖析时,首先要画出因变量和自变量的散点图,这样能够直不雅观把握数据的关联程度,如图 1-5 所示。

由图 1-5 可知,房价和面积之间存在线性关系。
想要办理的问题是根据面积打算房价,那么从散点图中可看出,房屋面积越大,价格越高。
因此,可以想到如下模型(公式)成立:

Y = aX + b

Y 是房价,为“因变量”;X 是面积,为“自变量”。
假设的模型是一次函数,以是a 指斜率,b 指截距。
如果利用既有数据得出 a 和 b 的值,那么就能完成决定房价时所需的模型。
在该模型中,X 处输入要卖的屋子面积,就能算出房价。
利用程序,a 值为0.65、b 值为 0.89 时,最能够表现图 1-5,这就可以说“房价 = 0.65×面积 + 0.89”的关系成立,如图 1-6 所示。

我们现在已经知道了房价和面积之间的关系,那么只要得知面积,将其代入前面的公式,就能打算出精确的房价。

像这样,把握既有变量之间的关系便是回归。
回归问题的运用如下所示:

● 用过去的温度数据预测来日诰日的温度

● 用股票行情信息预测未来的股票价格

● 用流动人口、景象、价格信息等预测饭店的买卖

● 用买家的年纪和年收入预测特定商品的销量

1.4.2 分类

顾名思义,分类便是对数据进行分别归类。
为了帮助大家理解分类,下面以Iris数据为例。

假设要利用花瓣的宽和高数据, 判断给定的Iris 花属于Setosa、Virginica 和Versicolor 中的哪个品种。
这个问题与前面的回归问题不同,并不是要预测某个值,而是判断其属于哪个种类。
但是与回归问题一样,分类也须要用散点图判断不同种类的花瓣的宽和高之间存在什么关系。

由图1-7 可知,Setosa 品种在图中为正方形,位于左下角;Virginica 是圆形,位于右上角;中间的三角形则是Versicolor。
想要办理的问题是利用给定花瓣的宽和高来判断花的品种,因此须要区分这三个品种的方法。
如果存在某个模型,该模型可以根据花瓣的宽和高区分品种,那么只需将新的宽和高作为数据输入,就能得到想要的结果。

①出处:http://blog.datacamp.com/machine-learning-in-r/

如图1-8 所示,利用两条线分出Setosa、Virginica 和Versicolor 区域之后,只要知道新给的数据在三个领域中的位置,就能顺利分类品种。
因此,这里的“分类”便是利用给天命据,求出能够区分Iris 花的两个Y=aX+b。

分类通过以长进程区分数据,广泛运用于机器学习。
回归能够用于连续数据(continuous data),而分类则能用于分类数据(categorical data)。

分类问题的运用如下所示:

● 垃圾邮件分类

● 图像识别

● 语音识别

● 判断是否罹患疾病

1.4.3 聚类

聚类将数据凑集成拥有相似特色的簇。
聚类用于无监督学习,不须要输出数据,仅靠输入数据完成,紧张用于把握或理解数据的特色。

例如,假设我们要展开营销活动,现在想知道会相应营销活动的人群拥有什么特色。
如果是第一次进行营销活动,拥有干系的数据,但不知道应以什么样的标准选定工具,那么聚类可以有效办理这类问题。

聚类通过打算给天命据之间的相似程度,将拥有相似特色的数据分为一类,能够有效完成操作。
网络相应营销活动的人群数据后进行聚类,就能知道拥有相似特色的人可以分为几类。
如果节制了每类人群的共同点,就能创造问题中相应营销活动的人群类型及其特色。
进行聚类之后,如果得到图1-9 所示结果,就可以将相应营销活动的人群定为两类,然后对这两类人群拥有的特色进行剖析即可。

聚类问题的运用如下所示:

● 聚拢音乐喜好相似的用户

● 利用天文学数据探求拥有相似特色的星体

● 推举电商用户可能喜好的商品

《利用机器学习开拓算法交易系统 》

本书先容了机器学习必要的统计与概率方面的数学理论,以及适用机器学习的领域干系的领域知识,同时收录了实当代码。
利用机器学习编写程序时,机器学习算法所占的比重并不大,主要的是理解数据并节制特性。
在此过程中,如果具备统计与概率干系的数学知识和机器学习运用领域的专业知识,则能大大节约韶光,并简化问题。
经由这些过程的机器学习才能得到良好的运用效果。