用 Java 演习深度进修模型原来能这么简单_神经收集_深度

2024-09-18 21:44:02 计算机

作者：DJL-Keerthan&Lanking

用 Java 演习深度进修模型原来能这么简单_神经收集_深度计算机

HelloGitHub 推出的《讲解开源项目》系列。
这一期是由亚马逊工程师：Keerthan Vasist，为我们讲解 DJL（完备由 Java 构建的深度学习平台）系列的第 4 篇。

一、序言

很永劫光以来，Java 都是一个很受企业欢迎的编程措辞。
得益于丰富的生态以及完善掩护的包和框架，Java 拥有着弘大的开拓者社区。
只管深度学习运用的不断演进和落地，供应给 Java 开拓者的框架和库却十分短缺。
现今紧张盛行的深度学习模型都是用 Python 编译和演习的。
对付 Java 开拓者而言，如果要进军深度学习界，就须要重新学习并接管一门新的编程措辞同时还要学习深度学习的繁芜知识。
这使得大部分 Java 开拓者学习和转型深度学习开拓变得困难重重。

为了减少 Java 开拓者学习深度学习的本钱，AWS 构建了 Deep Java Library (DJL)，一个为 Java 开拓者定制的开源深度学习框架。
它为 Java 开拓者对接主流深度学习框架供应了一个桥梁。

在这篇文章中，我们会考试测验用 DJL 构建一个深度学习模型并用它演习 MNIST 手写数字识别任务。

二、什么是深度学习？

在我们正式开始之前，我们先来理解一下机器学习和深度学习的基本观点。

机器学习是一个通过利用统计学知识，将数据输入到打算机中进行演习并完成特定目标任务的过程。
这种归纳学习的方法可以让打算机学习一些特色并进行一系列繁芜的任务，比如识别照片中的物体。
由于须要写繁芜的逻辑以及丈量标准，这些任务在传统打算科学领域中很难实现。

深度学习是机器学习的一个分支，紧张侧重于对付人工神经网络的开拓。
人工神经网络是通过研究人脑如何学习和实现目标的过程中归纳而得出一套打算逻辑。
它通过仿照部分人脑神经间信息通报的过程，从而实现各种繁芜的任务。
深度学习中的“深度”来源于我们会在人工神经网络中编织构建出许多层（layer）从而进一步对数据信息进行更深层的传导。
深度学习技能运用范围十分广泛，现在被用来做目标检测、动作识别、机器翻译、语意剖析等各种现实运用中。

三、演习 MNIST 手写数字识别3.1 项目配置

你可以用如下的 gradle 配置来引入依赖项。
在这个案例中，我们用 DJL 的 api 包 (核心 DJL 组件) 和 basicdataset 包 (DJL 数据集) 来构建神经网络和数据集。
这个案例中我们利用了 MXNet 作为深度学习引擎，以是我们会引入 mxnet-engine 和 mxnet-native-auto 两个包。
这个案例也可以运行在 PyTorch 引擎下，只须要更换成对应的软件包即可。

plugins{id'java'}repositories{jcenter()}dependencies{implementationplatform("ai.djl:bom:0.8.0")implementation"ai.djl:api"implementation"ai.djl:basicdataset"//MXNetruntimeOnly"ai.djl.mxnet:mxnet-engine"runtimeOnly"ai.djl.mxnet:mxnet-native-auto"}3.2 NDArray 和 NDManager

NDArray 是 DJL 存储数据构造和数学运算的基本构造。
一个 NDArray 表达了一个定长的多维数组。
NDArray 的利用方法类似于 Python 中的 numpy.ndarray。

NDManager 是 NDArray 的老板。
它卖力管理 NDArray 的产生和回收过程，这样可以帮助我们更好的对 Java 内存进行优化。
每一个 NDArray 都会是由一个 NDManager 创造出来，同时它们会在 NDManager 关闭时一同关闭。

NDManager 和 NDArray 都是由 Java 的 AutoClosable 构建，这样可以确保在运行结束时及时进行回收。
想理解更多关于它们的用法和实践，请参阅我们前一期文章：DJL 之 Java 玩转多维数组，就像 NumPy 一样

Model

在 DJL 中，演习和推理都是从 Model class 开始构建的。
我们在这里紧张讲演习过程中的构建方法。
下面我们为 Model 创建一个新的目标。
由于 Model 也是继续了 AutoClosable 构造体，我们会用一个 try block 实现：

try(Modelmodel=Model.newInstance()){...//主体演习代码...}准备数据

MNIST（Modified National Institute of Standards and Technology）数据库包含大量手写数字的图，常日被用来演习图像处理系统。
DJL 已经将 MNIST 的数据集收录到了 basicdataset 数据集里，每个 MNIST 的图的大小是 28 x 28。
如果你有自己的数据集，你也可以通过 DJL 数据集导入教程来导入数据集到你的演习任务中。

intbatchSize=32;//批大小MnisttrainingDataset=Mnist.builder().optUsage(Usage.TRAIN)//演习集.setSampling(batchSize,true).build();MnistvalidationDataset=Mnist.builder().optUsage(Usage.TEST)//验证集.setSampling(batchSize,true).build();

这段代码分别制作出了演习和验证集。
同时我们也随机排列了数据集从而更好的演习。
除了这些配置以外，你也可以添加对付图片的进一步处理，比如设置图片大小，对图片进行归一化等处理。

制作 model（建立 Block）

当你的数据集准备就绪后，我们就可以构建神经网络了。
在 DJL 中，神经网络是由 Block（代码块）构成的。
一个 Block 是一个具备多种神经网络特性的构造。
它们可以代表一个操作, 神经网络的一部分，乃至是一个完全的神经网络。
然后 Block 可以顺序实行或者并行。
同时 Block 本身也可以带参数和子 Block。
这种嵌套构造可以帮助我们布局一个繁芜但又不失落掩护性的神经网络。
在演习过程中，每个 Block 中附带的参数会被实时更新，同时也包括它们的各个子 Block。
这种递归更新的过程可以确保全体神经网络得到充分演习。

当我们构建这些 Block 的过程中，最大略的办法便是将它们一个一个的嵌套起来。
直策应用准备好 DJL 的 Block 种类，我们就可以快速制作出各种神经网络。

根据几种基本的神经网络事情模式，我们供应了几种 Block 的变体。
SequentialBlock 是为了应对顺序实行每一个子 Block 布局而成的。
它会将前一个子 Block 的输出作为下一个 Block 的输入连续实行到底。
与之对应的，是 ParallelBlock 它用于将一个输入并行输入到每一个子 Block 中，同时将输出结果根据特定的合并方程合并起来。
末了我们说一下 LambdaBlock，它是帮助用户进行快速操作的一个 Block，个中并不具备任何参数，以是也没有任何部分在演习过程中更新。

我们来考试测验创建一个基本的多层感知机（MLP）神经网络吧。
多层感知机是一个大略的前向型神经网络，它只包含了几个全连接层（LinearBlock）。
那么构建这个网络，我们可以直策应用 SequentialBlock。

intinput=2828;//输入层大小intoutput=10;//输出层大小int[]hidden=newint[]{128,64};//隐蔽层大小SequentialBlocksequentialBlock=newSequentialBlock();sequentialBlock.add(Blocks.batchFlattenBlock(input));for(inthiddenSize:hidden){//全连接层sequentialBlock.add(Linear.builder().setUnits(hiddenSize).build());//激活函数sequentialBlock.add(activation);}sequentialBlock.add(Linear.builder().setUnits(output).build());

当然 DJL 也供应了直接就可以拿来用的 MLP Block :

Blockblock=newMlp(Mnist.IMAGE_HEIGHTMnist.IMAGE_WIDTH,Mnist.NUM_CLASSES,newint[]{128,64});演习

当我们准备好数据集和神经网络之后，就可以开始演习模型了。
在深度学习中，一样平常会由下面几步来完成一个演习过程：

初始化：我们会对每一个 Block 的参数进行初始化，初始化每个参数的函数都是由设定的 Initializer 决定的。
前向传播：这一步将输入数据在神经网络中逐层通报，然后产生输出数据。
打算丢失：我们会根据特定的丢失函数 Loss 来打算输出和标记结果的偏差。
反向传播：在这一步中，你可以利用丢失反向求导算出每一个参数的梯度。
更新权重：我们会根据选择的优化器（Optimizer）更新每一个在 Block 上参数的值。

DJL 利用了 Trainer 构造体精简了全体过程。
开拓者只须要创建 Trainer 并指定对应的 Initializer、Loss 和 Optimizer 即可。
这些参数都是由 TrainingConfig 设定的。
下面我们来看一下详细的参数设置：

TrainingListener：这个是对演习过程设定的监听器。
它可以实时反馈每个阶段的演习结果。
这些结果可以用于记录演习过程或者帮助 debug 神经网络演习过程中的问题。
用户也可以定制自己的 TrainingListener 来对演习过程进行监听。

DefaultTrainingConfigconfig=newDefaultTrainingConfig(Loss.softmaxCrossEntropyLoss()).addEvaluator(newAccuracy()).addTrainingListeners(TrainingListener.Defaults.logging());try(Trainertrainer=model.newTrainer(config)){//演习代码}

当演习器产生后，我们可以定义输入的 Shape。
之后就可以调用 fit 函数来进行演习。
fit 函数会对输入数据，演习多个 epoch 是并终极将结果存储在本地目录下。

/ MNIST 包含 28x28 灰度图片并导入成 28 28 NDArray。第一个维度是批大小, 在这里我们设置批大小为 1 用于初始化。 /ShapeinputShape=newShape(1,Mnist.IMAGE_HEIGHTMnist.IMAGE_WIDTH);intnumEpoch=5;StringoutputDir="/build/model";//用输入初始化trainertrainer.initialize(inputShape);TrainingUtils.fit(trainer,numEpoch,trainingSet,validateSet,outputDir,"mlp");

这便是演习过程的全部流程了！
用 DJL 演习是不是还是很轻松的？之后看一下输出每一步的演习结果。
如果你用了我们默认的监听器，那么输出是类似于下图：

[INFO]-Downloadinglibmxnet.dylib...[INFO]-Trainingon:cpu().[INFO]-LoadMXNetEngineVersion1.7.0in0.131ms.Training:100%|████████████████████████████████████████|Accuracy:0.93,SoftmaxCrossEntropyLoss:0.24,speed:1235.20items/secValidating:100%|████████████████████████████████████████|[INFO]-Epoch1finished.[INFO]-Train:Accuracy:0.93,SoftmaxCrossEntropyLoss:0.24[INFO]-Validate:Accuracy:0.95,SoftmaxCrossEntropyLoss:0.14Training:100%|████████████████████████████████████████|Accuracy:0.97,SoftmaxCrossEntropyLoss:0.10,speed:2851.06items/secValidating:100%|████████████████████████████████████████|[INFO]-Epoch2finished.NG[1m41s][INFO]-Train:Accuracy:0.97,SoftmaxCrossEntropyLoss:0.10[INFO]-Validate:Accuracy:0.97,SoftmaxCrossEntropyLoss:0.09[INFO]-trainP50:12.756ms,P90:21.044ms[INFO]-forwardP50:0.375ms,P90:0.607ms[INFO]-training-metricsP50:0.021ms,P90:0.034ms[INFO]-backwardP50:0.608ms,P90:0.973ms[INFO]-stepP50:0.543ms,P90:0.869ms[INFO]-epochP50:35.989s,P90:35.989s

当演习结果完成后，我们可以用刚才的模型进行推理来识别手写数字。

四、末了

在这个文章中，我们先容了深度学习的基本观点，同时还有如何优雅的利用 DJL 构建深度学习模型并进行演习。