出品 | CDA数据剖析研究院,转载须授权

运用人工智能增强人类智能_模子_字体 文字写作

通过创建许可我们利用机器学习模型中的表示的用户界面,我们可以为人们供应推理的新工具。

什么是电脑?

从历史上看,这个问题有不同答案——即不同的打算视图——有助于引发和决定人类终极建立的打算系统。
考虑早期的电子打算机。
ENIAC是天下上第一台通用电子打算机,受委托为美国陆军打算炮兵射击台。
其他早期打算机也用于办理数值问题,例如仿照核爆炸,预测景象和方案火箭的运动。
这些机器以批处理模式运行,利用原始输入和输出设备,没有任何实时交互。
这是打算机作为数字打算机的愿景,用于加速以前须要数周,数月的打算。

在20世纪50年代,对打算机的不同意见开始发展。
1962年道格拉斯·恩格尔巴特(Douglas Engelbart)提出打算机可以作为一种办法利用。
在这种不雅观点中,打算机不是办理数字运算问题的紧张工具。
相反,它们是具有丰富输入和输出的实时交互系统,人类可以与之互助以支持和扩展自己的问题办理过程。
这种情报增强(IA)的愿景深深地影响了许多其他人,包括施乐PARC的Alan Kay,Apple的Steve Jobs等企业家,以及当代打算系统的许多关键思想。
它的思想也深刻影响了数字艺术和音乐,以及交互设计,数据可视化,打算创造力和人机交互等领域。

对IA的研究常常与人工智能(AI)的研究竞争:资金竞争,竞争有才能的研究职员的利益。
虽然这些领域之间一贯存在重叠,但IA常日专注于构建使人和机器协同事情的系统,而AI则专注于将智能任务完备外包给机器。
特殊是,人工智能问题常日是在匹配或超越人类表现方面构成的:在国际象棋或围棋中击败人类;学习识别语音和图像或翻译措辞以及人类等等。

本文描述了一个新的领域,本日涌如今AI和IA的综合中。
对付这个领域,我们建议利用人工智能增强(AIA):利用AI系统来帮助开拓新的智能增强方法。
这个新领域引入了新的主要基本问题,与其父级领域无关的问题。
我们相信AIA的原则和系统将与大多数现有系统完备不同。

我们的文章首先调查了近期关于人工智能增强的技能事情,包括天生界面的事情——即可用于探索和可视化天生机器学习模型的界面。
这样的界面开拓了一种天生模型的制图,人类从这些模型中探索和创造意义的方法,并将这些模型“知道”的内容融入他们的创造性事情中。

我们的文章不仅仅是对技能事情的调查。
我们认为现在是在这个新兴领域的根本上确定一些广泛的基本问题的好机遇。
这些新工具能在多大程度上实现创造力?基于现有想法的微不足道的重组,它们能用于产生真正令人惊异和新的想法,还是想法陈词谰言?这些系统能用于开拓基本的新接口原语吗?这些新原语将如何改变和扩展人类的思维办法?

利用天生模型发明故意义的创造性操作

让我们看一个机器学习模型使一种新型接口成为可能的例子。
要理解界面,想象一下你是一个类型设计师,正致力于创建一个新的字体。
在草拟了一些初始设计之后,您希望考试测验利用粗体,斜体和浓缩变体。
让我们来看一下从任何初始设计中天生和探索这些变革的工具。
由于很快就会阐明的缘故原由,结果的质量非常粗糙;请耐心等待。

当然,改变粗体(即重量),斜体和宽度只是改变字体的三种办法。
想象一下,用户可以仅通过选择现有字体的示例来构建自己的工具,而不是构建专用工具。
例如,假设您想要改变字体上的serif度。
不才面,请从顶部框中选择5到10个sans-serif字体,然后将它们拖到左侧的框中。
选择5到10个serif字体并将它们拖到右侧的框中。
在您实行此操作时,在浏览器中运行的机器学习模型将自动从这些示例中推断出如何以serif或sans-serif方向插入起始字体:

事实上,我们利用相同的技能来构建早期的粗体斜体和冷凝工具。
为此,我们利用以下粗体和非粗体字体,斜体和非斜体字体以及压缩和非压缩字体的示例:

为了构建这些工具,我们利用了所谓的天生模型。
要理解天生模型,考虑描述字体的先验彷佛须要大量数据。
例如,如果字体是64 × 64像素,那么我们须要64 × 64 = 4096个参数来描述一个字形。
但我们可以利用天生模型来找到更大略的描述。

我们通过构建一个神经网络来实现这一点,该神经网络采取少量输入变量(称为潜在变量),并将全体字形作为输出。
对付我们利用的特定型号,我们有4040个潜在空间维度,并映射到4096描述字形所有像素维空间。
换句话说,想法是将低维空间映射到更高维空间:

我们利用的天生模型是一种称为a的神经网络。
就我们的目的而言,天生模型的细节并不那么主要。
主要的是,通过变动用作输入的潜在变量,可以将不同的字体作为输出。
因此,潜在变量的一个选择将供应一种字体,而另一种选择将供应不同的字体:

您可以将潜在变量视为字体的紧凑,高等表示。
神经网络采取该高等表示并将其转换为全像素数据。
真是太了不起了4040个数字可以捕获最初须要的字形中的明显繁芜性4096个变量。

我们利用的天生模型是从一个从开放的网络上刮下来的5万字体的演习集中学习的。
在演习期间,调度网络中的权重和偏差,使得网络可以输出与演习集中的任何期望字体的近似近似,只要做出适当的潜在变量选择。
在某种意义上,该模型正在学习所有演习字体的高度压缩表示。

实际上,该模型不仅仅重现了演习字体。
它还可以概括,天生演习中看不到的字体。
通过被迫找到演习样例的简洁描述,神经网络学习了一个抽象的,更高等别的字体模型。
这种更高等别的模型使得可以概括超出已经看到的演习示例,以产生逼真的字体。

空想情形下,一个好的天生模型将暴露于相对少量的演习样例,并利用该暴露来推广到所有可能的人类可读字体的空间。
也便是说,对付任何可想到的字体 - 无论是现有的还是未来的想象 - 都可以找到与该字体完备对应的潜在变量。
当然,我们利用的模型远远没有达到这个空想。
一个特殊令人震荡的失落败是模型天生的许多字体省略了大写“Q”的尾部(你可以在上面的例子中看到这一点)。
不过,记住空想的天生模型还是会有用处的。

这些天生模型在某些方面与科学理论的事情办法类似。
科学理论常日大大简化了对繁芜征象的描述,将大量变量简化为几个变量,从中可以推导出系统行为的许多方面。
此外,良好的科学理论有时使我们能够概括地创造新征象。

例如,考虑普通的材料工具。
这些物体具有物理学家所称的相 - 它们可以是液体,固体,气体,或者可能是更具异国情调的物质,如超导体或玻色 - 爱因斯坦凝聚物。
先验地说,这样的系统彷佛非常繁芜,或许涉及到10^23个旁边的分子。
但是热力学和统计力学的定律使我们能够找到一个更大略的描述,将这种繁芜性降落到几个变量(温度,压力等),这些变量包含了系统的大部分行为。
此外,有时可以概括,预测意外的物质新阶段。
例如,在1924年,物理学家利用热力学和统计力学来预测物质的一个显著的新阶段,即玻色 - 爱因斯坦凝聚,个中一组原子可能都霸占相同的量子态,导致令人惊异的大规模量子干涉效应。
在我们后来关于创造力和天生模型的谈论中,我们将回到这种预测能力。

回到天生模型的细节,我们如何利用这些模型进行上述工具中的基于实例的推理?让我们考虑一下粗体工具的情形。
在这种情形下,我们采取用户指定的粗体字体的所有潜在向量的均匀值,以及所有用户指定的非粗体字体的均匀值。
然后我们打算这两个均匀向量之间的差异:

我们将其称为粗体向量
为了使一些给定的字体更粗,我们只需将一些粗体向量添加到相应的潜在向量,添加粗体向量的数量来掌握结果的粗体:

这项技能是由,像粗体矢量这样的矢量有时被称为属性矢量。
我们展示的工具有许多缺陷。
考虑下面的示例,我们从中间的示例字形开始,然后增加或减少粗体(分别在右侧和左侧):

检讨旁边两侧的字形,我们看到许多不幸的文物。
特殊是对付最右边的字形,边缘开始变粗糙,并且衬线开始消逝。
更好的天生模型可以减少这些伪影。
这是一个很好的长期研究操持,带来了许多有趣的问题。
但纵然利用我们的模型,利用天生模型也有一些显著的好处。

要理解这些好处,请考虑一种天真的粗体方法,我们只需在字形边缘添加一些额外的像素,然后将其加粗。
虽然这种增厚可能与非专家对类型设计的思考办法相匹配,但专家做了更多涉及的事情。
不才文中,我们展示了这个天真的增稠程序与格鲁吉亚和Helvetica实际完成的结果:

正如您所看到的,在两种情形下,天真的粗体过程都会产生完备不同的结果。
例如,在格鲁吉亚,左笔划仅通过粗体略微改变,而右笔划大大扩大,但仅在一侧。
在这两种字体中,粗体不会改变字体的高度,而天真的方法也是如此。

正如这些示例所示,良好的粗体不是加厚字体的大略过程。
专家类型设计师有许多用于粗体的启示式方法,从先前的许多实验中推断出的启示式方法,以及对历史实例的仔细研究。
在传统程序中捕获所有这些启示式算法将涉及巨大的事情。
利用天生模型的好处是它可以自动学习许多这样的启示式方法。

例如,天真的粗体工具将快速添补在字母“A”的封闭上部区域中的封闭负空间中。
字体工具不会这样做。
相反,它保留了封闭的负空间,向下移动A的杆,并且比外部更慢地添补内部笔划。
这个事理在上面显示的例子中很明显,特殊是Helvetica,它也可以在字体工具的操作中看到:

保留封闭负空间的启示式不是先验明显的。
但是,它是在许多专业设计的字体中完成的。
如果您检讨上面显示的示例,很随意马虎理解为什么:它提高了可读性。
在演习过程中,我们的天生模型从它看到的例子中自动推断出这个事理。
然后我们的粗体界面利用户可以利用它。

实际上,该模型捕获了许多其他启示式方法。
例如,在上面的例子中,(粗略地)保留了字体的高度,这是专业字体设计的标准。
同样,正在发生的不仅仅是字体的加厚,而是天生模型推断出更奇妙的启示式的运用。
这种启示式方法可用于创建具有属性的字体,否则这些属性不太可能发生在用户身上。
因此,该工具扩展了普通人探索故意义字体空间的能力。

字体工具是一种认知技能的例子。
特殊是,它包含的原始操作可以内化为用户思考的一部分。
在这方面,它类似于Photoshop或电子表格或3D图形程序等程序。
每个都供应了一组新的界面原语,原语可以被用户内化为他们思想中的基本新元素。
这种新原语内化的行为对付智力增强的大量事情至关主要。

字体工具中显示的想法可以扩展到其他域。
利用相同的界面,我们可以利用天生模型来利用诸如表情,性别或头发颜色等品质来操纵人脸图像。
或者利用长度,讽刺或语调来操纵句子。
或者利用化学特性操纵分子:

这种天生界面供应了一种天生模型的制图,人类探索的方法和利用这些模型的意义。

我们之前看到,字体模型自动推断出有关字体设计的相对深入的原则,并使其可供用户利用。
只管可以推断出如此深刻的原则是很好的,但有时候这些模型会推断出其他缺点或不可取的东西。
例如,在某些脸部模特中加入微笑矢量会使脸部不仅仅是笑颜更多,而且更具女人味。
为什么?由于在演习数据中,女性比男性更多。
以是这些模型可能不仅仅是学习关于天下的深刻事实,它们也可能内化偏见或缺点的信念。
一旦知道了这种偏差,常日就可以进行改动。
但要找到这些偏见须要仔细审核模型,目前尚不清楚我们如何确保此类审核是详尽无遗的。

更广泛地说,我们可以问为什么属性向量事情,何时事情,何时失落败?目前,人们对这些问题的答案知之甚少。
要使属性向量起浸染,须要采取任何起始字体,我们可以通过在潜在空间中添加相同的向量来布局相应的粗体版本。
然而,先验地没有情由利用单个常数向量来更换将起浸染。
可能我们该当以许多不同的办法取代。
例如,用于加粗serif和sans-serif字体的启示式方法是完备不同的,因此彷佛可能涉及非常不同的位移:

当然,我们可以做一些比利用单个常量属性向量更繁芜的事情。
给定成对的示例字体(unbold,bold),我们可以演习机器学习算法,将未加载版本的潜在向量作为输入,并输出粗体版本的潜在向量。
通过关于字体权重的附加演习数据,机器学习算法可以学习天生任意权重的字体。
属性向量只是进行这些操作的一种非常大略的方法。

由于这些缘故原由,属性向量彷佛不太可能作为操纵高等特色的方法。
在接下来的几年里,将会开拓出更好的方法。
但是,我们仍旧可以期望供应的操作与上面概述的操作大致相似,从而许可访问高等和潜在的用户定义观点。
该接口模式不依赖于属性向量的技能细节。

交互式天生对抗模型

让我们看一下利用机器学习模型来增强人类创造力的另一个例子。
它是由互动式天生对抗性网络或iGAN引入的。

在2016年。
Zhu 等人的一个例子是在界面中利用iGAN来天生诸如鞋子之类的消费产品的图像。
传统上,这样的界面将哀求程序员编写包含关于鞋子的大量知识的程序:鞋底,鞋带,鞋跟等。
等人没有这样做,而是用一种天生模型演习505幅0 鞋子千图像,从Zappos的***。
然后,他们利用该天生模型构建一个界面,让用户粗略地勾勒出鞋子,鞋底,鞋带等的形状:

视觉质量低,部分缘故原由是朱等人利用的天生模型是已经由时的。
当代(2017)标准——更当代的模型,视觉质量会更高。

但视觉质量不是重点。
这个原型正在进行许多有趣的事情。
例如,把稳鞋底的整体形状如何在鞋底添补时发生显著变革 - 它变得更窄更光滑。
添补了许多小细节,例如白色鞋底顶部的玄色滚边,鞋底上到处都是赤色。
这些和其他事实是从根本天生模型中自动推导出来的,我们将在稍后描述。

相同的界面可用于草绘风景。
唯一的差异是潜在的天生模型已经在景不雅观图像而不是鞋子图像上进行了演习。
在这种情形下,可以仅绘制与景不雅观干系的颜色。
例如,这里有一个用户在一些绿草中绘制草图,山的轮廓,一些蓝天和山上的雪:

这些界面中利用的天生模型与我们的字体模型不同。
它们不是利用变分自动编码器。
但潜在的想法仍旧是找到一个低维潜在空间,可用于表示(比如说)所有风景图像,并将潜在空间映射到相应的图像。
同样,我们可以将潜在空间中的点视为描述景不雅观图像的紧凑办法。
粗略地说,iGAN的事情办法如下。
无论当前图像是什么,它都对应于潜在空间中的某个点:

假设,正如之前的***中所发生的那样,用户现在勾画出一个概述山形的笔画。
我们可以将笔画看作是对图像的约束,挑选出潜在空间的子空间,包括潜在空间中与图像匹配的所有点:

界面事情的办法是在潜在空间中找到一个靠近当前图像的点,因此图像不会改变太多,但也靠近知足强加的约束。
这是通过优化目标函数来完成的,该目标函数将间隔与每个施加的约束相结合,以及从当前点移动的间隔。
如果只有一个约束,比如说,对应于山脉,这看起来如下所示:

因此,我们可以将此视为对潜在空间施加约束以便以故意义的办法移动图像的一种办法。

iGAN与我们之前展示的字体工具有很多共同之处。
两者都供应了编码关于天下的奇妙知识的可用操作,无论是学习理解山是什么样的,还是推断在加粗字体时该当保留封闭的负空间。
iGAN和字体工具都供应了理解和导航高维空间的方法,使我们保持在字体或鞋子或风景的自然空间。
正如朱等人所说:

或我们大多数人,纵然在Photoshop中进行大略的图像处理也会带来难以战胜的困难......任何不完美的编辑都会立即使图像看起来完备不切实际。
换句话说,经典的视觉操作范例并不能阻挡用户“脱落”自然图像的多样性。

与字体工具一样,iGAN是一种认知技能。
用户可以将界面操作内化为他们思维中的新原始元素。
例如,在鞋子的情形下,他们可以学习根据他们想要运用的差异来思考,添加鞋跟,或更高的鞋面,或分外的亮点。
这比非专家对鞋的传统办法(“11号,玄色” )更为丰富)。
在某种程度上,非专家确实以更繁芜的办法思考 - “让顶部更高一些,更时尚” - 他们在这方面思考的办法很少,或者看到他们选择的后果。
拥有这样的界面可以更随意马虎地探索,开拓习语的能力和操持能力,与朋友交流想法等等。

两种打算模型

让我们重新回顾一下我们开始撰写文章的问题,关于打算机的用场以及这与智能增强的关系。

打算机的一个常见观点是它们是办理问题的机器,如:

“打算机,在这样的风中发射这种炮弹的结果是什么?”

“打算机,东京的最高温度在5天内会是多少?”

“电脑,当Go董事会处于这个位置时,最好的举动是什么?”

“打算机,这个图像该当如何分类?” 等等这些问题。

这是打算机作为数字打算器的早期不雅观点所共有的观点,也是历史和现在人工智能的大量事情。
它是打算机模型,作为外包认知的一种办法。
在可能的未来人工智能的推测性描述中,这种认知外包模式常常涌如今人工智能作为神谕的视野中,能够办理一些具有优于人类表现的大类问题。

但是对打算机的用场有一个非常不同的观点是可能的,这个观点与智力增强的事情更加同等。

要理解这种替代不雅观点,请考虑我们的主不雅观思想体验。
对付许多人来说,这种体验是口头的:他们认为利用措辞,在他们的头脑中形成笔墨链,类似于言语中的句子或写在页面上。
对付其他人来说,思考是一种更直不雅观的体验,包含图形和舆图等表示。
还有其他人将数学融入他们的思维中,利用代数表达式或图解技能,如费曼图和彭罗斯图。

在每种情形下,我们都在考虑利用其他人发明的表示:单词,图形,舆图,代数,数学图表等。
随着我们的发展,我们将这些认知技能内化,并将它们作为我们思考的根本。

在历史的大部分韶光里,可用的认知技能范围已经缓慢且渐进地发生了变革。
将引入一个新词或一个新的数学符号。
更少见的是,将开拓一种全新的认知技能。
例如,在1637年,笛卡尔揭橥了他的“方法话语”,阐明了如何用代数表示几何思想,反之亦然:

这使我们对几何和代数的思考办法发生了根本变革和扩展。

从历史上看,持久的认知技能很少被发明。
但当代打算机是一种元媒体,可以快速发明许多新的认知技能。
考虑一个相对平庸的例子,比如Photoshop
闇练的Photoshop用户常日会有以前不可能的想法,例如:“让我们将克隆图章运用到这样的图层。
” 这是一个更普遍的思想类型的例子:“打算机,[新型动作]这种[新想象的一类物体的新表现形式]”。
当这种情形发生时,我们正在利用打算机来扩展我们可以思考的思路。

正是这种认知转化模式奠定了智力增强的最深层次事情的根本。
而不是外包认知,而是改变我们用来思考的操作和表示; 它是关于改变思想本身的根本。
因此,虽然认知外包很主要,但这种认知转换视图供应了更为深刻的智力增强模型。
这是一种不雅观点,个中打算机是改变和扩展人类思想的手段。

从历史上看,认知技能是由人类发明者开拓的,从苏美尔和中美洲的写作发明到道格拉斯·恩格尔巴特,艾伦凯等设计师的当代界面。

本文中描述的例子表明,AI系统可以创建新的认知技能。
当你想要一个新的字体时,像字体工具这样的东西不仅仅是要咨询的神谕。
相反,它们可以用于探索和创造,供应新的表示和操作,这些表示和操作可以作为用户自己思考的一部分内化。
虽然这些例子处于早期阶段,但他们认为人工智能不仅仅是认知外包。
人工智能的另一种不雅观点是可能的,它可以帮助我们发明新的认知技能,从而改变我们的思维办法。

在这篇文章中,我们专注于少数几个例子,紧张涉及对潜在空间的探索。
还有许多其他人工智能增强的例子。
给一些味道,而不是全面的用于神经网络赞助绘图; 这利用户能够快速建立新的乐器和艺术系统;通过探索潜在的空间来开拓动画、机器学习设计模型和一个能够插值的天生模型。
在每种情形下,系统都利用机器学习来启用可以集成到用户思维中的新原语。
更广泛地说,人工智能增强将利用诸多的领域。

探求强大的新思想根本

我们认为机器学习系统可以帮助创建表示和操作,作为人类思想中的新原语。
我们该当在这些新原语中探求什么属性?这个问题太大了,无法在一篇短文中全面回答。
但我们将简要磋商一下。

从历史上看,主要的新媒体形式在引入时常日看起来很奇怪 许多这样的故事已经传播到盛行文化中:斯特拉文斯基和Nijinksy的“春天的仪式”首映的近乎骚乱; 由早期的立体派绘画引起的惊愕,引领纽约时报 :“他们的意思是什么?那些对他们卖力的人是否已经离开了他们的感官?这是艺术还是猖獗?谁知道?”

另一个例子来自物理学。
在20世纪40年代,量子电动力学理论的不同表述由物理学家Julian Schwinger,Shin'ichirōTomonaga和Richard Feynman独立开拓。
在他们的作品中,Schwinger和Tomonaga利用了传统的代数方法,沿着与其他物理学类似的办法。
费曼利用了一种更为激进的方法,基于现在所谓的费曼图,描述了光与物质的相互浸染:

最初,Schwinger-Tomonaga方法对其他物理学家来说更随意马虎理解。
当Feynman和Schwinger在1948年的研讨会上展示他们的作品时,Schwinger急速受到了好评。
比较之下,费曼让他的不雅观众神秘莫测。
正如James Gleick所说的那样:

Feynman创造每个人都有一个最喜好的原则或定理,并且他都违反了这些原则...... Feynman知道他失落败了。
当时,他很痛楚。
后来他大略地说:“我的东西太多了。
我的机器来自太远了。

当然,仅仅为了陌生而陌生是没用的。
但是这些例子表明,代表性的打破一开始每每显得很奇怪。
有任何潜在的缘故原由是真的吗?

部分缘故原由是由于如果某些表示是真正新的,那么它将显得与您以前见过的任何不同。
费曼的图表,毕加索的画作,斯特拉文斯基的音乐:都揭示了真正的新意义。
良好的陈述可以提升这些洞察力,让熟习的人们尽可能生动地展示出新的东西。
但由于强调不熟习,表现形式彷佛很奇怪:它表现出你以前从未见过的关系。
在某种意义上,设计师的任务是识别核心的陌生感,并尽可能地扩大它。

奇怪的陈述常日很难明得。
起初,物理学家更喜好Schwinger-Tomonaga和Feynman。
但随着费曼的方法被物理学家逐步理解,他们意识到只管施温格 - 智多和费曼在数学上是等价的,但费曼更强大。
正如格莱克所说:

Schwinger在哈佛大学的学生处于竞争劣势,或者在其他地方的差错看来,他们疑惑他们无意中利用了这些图表。
这有时候是真的...... Murray Gell-Mann后来花了一个学期留在Schwinger的屋子里,后来喜好说他到处探求Feynman图。
他没有找到任何,但有一个房间已被锁定......

这些想法不仅适用于历史表征,也适用于打算机界面。
然而,我们对表现形式的陌生感的提倡与关于界面的许多传统聪慧相抵牾,特殊是广泛认为它们该当是“用户友好的”,即新手简单且可立即利用。
这常日意味着界面是陈词谰言,由标准办法组合的传统元素构建。
但是,虽然利用陈词谰言的界面可能既大略又有趣,但与阅读公式化的浪漫小说类似。
这意味着界面没有透露任何真正令人惊异的主题领域。
因此,它对加深用户的理解或改变他们的思维办法险些没有浸染。
对付平凡的任务,这是很好的,但对付更深层次的任务。

空想情形下,界面将表现出主题背后最深层的原则,为用户揭示新的天下。
当您学习这样的界面时,您会将这些原则内化,为您供应更强大的推理办法来推理这个天下。
这些原则是你理解的差异。
他们真的很想看到,其他统统都是最好的支持,最糟糕的是不主要的残存。
最好的接口的目的不是在某种浅层意义上用户友好。
它在更强的意义上是用户友好的,关于天下,使它们成为用户生活和创造的事情条件。
在那一点上,曾经涌现过奇怪的东西可以变得舒适和熟习,成为思想模式的一部分。

这对付利用AI模型进行智力增强意味着什么?

令人神往的是,正如我们所见,我们的机器学习模型将帮助我们构建界面,以对用户故意义的办法实现深层原则。
为了实现这一点,模型必须创造关于天下的深层原则,识别这些原则,然后在界面中以用户可理解的办法尽可能生动地表现它们。

当然,这是一个很高的命令!
我们展示的例子险些没有开始这样做。
确实,我们的模型有时会创造相对较深的原则,例如在加粗字体时保留封闭的负空间。
但这仅仅隐含在模型中。
虽然我们已经构建了一个利用这些原则的工具,但如果模型自动推断出所学的主要原则,并找到通过界面明确表示它们的方法,那就更好了。
(鼓励取得进展)利用信息理论思想来探求潜在空间中的构造。
)空想情形下,这些模型将开始得到真实的阐明,不仅仅是静态形式,而是动态形式,可由用户操纵。
但是从那时起我们还有很长的路要走。

这些界面会抑制创造力吗?

我们很随意马虎疑惑我们所描述的接口的表现力。
如果界面限定我们只探索图像的自然空间,那是否意味着我们只是在做预期的?这是否意味着这些界面只能用于天生视觉陈词谰言?它是否会阻挡我们从创造真正的创造性事情中产生任何真正新的东西?

要回答这些问题,找出两种不同的创造办法是有帮助的。
这种双模式模式过于简化:创造力并不完备适宜两个不同的种别。
然而,该模型澄清了新界面在创造性事情中的浸染。

第一种创造办法是从事工艺的工匠的日常创造力。
例如,字体设计师的大部分事情都包括对最佳现有实践的有效重组。
此类事情常日涉及许多创造性选择,以知足预期的设计目标,但不会开拓关键的新根本原则。

对付这样的事情,我们一贯在谈论的天生接口是有希望的。
虽然它们目前有许多局限性,但未来的研究将识别并办理许多不敷之处。
这与GAN迅速发生:原始的GAN有许多限定,但很快涌现的模型更适宜图像,提高了分辨率,减少了伪影, 等等。
通过足够的迭代,这些天生接口将成为工艺事情的强大工具,这彷佛是合理的。

第二种创造办法旨在开拓从根本上改变创造性表达范围的新原则。
人们在毕加索或莫奈等艺术家的作品中看到了这一点,他们违反了现有的绘画原则,开拓了新的原则,使人们能够以新的办法看待。

利用天生界面时,是否可以进行此类创造性事情?难道这些界面不会将我们限定在自然图像或自然字体的空间中,从而积极地阻挡我们探索创造性事情中最有趣的新方向吗?

情形比这更繁芜。

在某种程度上,这是关于我们天生模型的力量的问题。
在某些情形下,模型只能天生现有想法的重组。
这是空想GAN的限定,由于演习有素的GAN天生器将重现演习分布。
这样的模型不能基于新的基本事理直接天生图像,由于这样的图像看起来不像它在演习数据中看到的那样。

Mario Klingemann和Mike Tyka 等艺术家现在正在利用GAN创作有趣的艺术作品。
他们正在利用“不完美”的GAN模型,他们彷佛可以用来探索有趣的新原则; 大概情形可能是,糟糕的GAN可能比空想的GAN更具艺术意见意义。
此外,没有什么说接口必须只能帮助我们探索潜在的空间。
也容许以添加操作,故意将我们带出潜在的空间,或者自然图像空间的不太可能(以及更令人惊异的)部分。

当然,GAN不是唯一的天生模型。
在一个足够强大的天生模型中,模型创造的概括可能包含超出人类创造的想法。
在这种情形下,对潜在空间的探索可以使我们创造新的基本事理。
该模型将创造比人类专家更强大的抽象。
想象一下,在立体主义者的时期之前,一贯在绘画的天生模型; 可能是通过探索这个模型,有可能创造立体主义吗?如本文前面所谈论的那样,它将类似于玻色 - 爱因斯坦凝聚的预测。
这样的发明超越了本日的天生模型,但对付未来的模型彷佛是值得的。

到目前为止,我们的例子都是基于天生模型。
但是有一些有启示性的模型不是基于天生模型。
考虑一下开拓的pix2pix系统。
该系统在成对的图像上演习,例如,显示猫的边缘的对和实际相应的猫。
一旦经由演习,就可以显示一组边缘并哀求天生实际相应猫的图像。
它常常做得很好:

当供应不屈常的约束时,pix2pix可以产生能干的图像:

与我们之前的例子不同,pix2pix不是一个天生模型。
这意味着它没有潜在的空间或相应的自然图像空间。
相反,有一个神经网络,被称为稠浊,一个天生器 - 这与我们早期的天生模型没故意义相同 - 将约束图像作为输入,并产生添补图像作为输出。

对发生器进行针对鉴别器网络的演习,其浸染是区分由真实数据产生的图像对和由发生器产生的图像对。

虽然这听起来类似于传统的GAN,但存在一个至关主要的差异:发生器没有潜在的矢量输入 5。
相反,只有一个输入约束。
当人类输入一个不同于演习中所见的约束时,网络被迫即兴发挥,尽其所能根据先前学到的规则来阐明该约束。
创造力是从演习数据推断的知识的逼迫合并以及用户供应的新颖约束的结果。
因此,纵然是相对大略的想法 - 如面包和察看犹豫者猫 - 也会产生引人瞩目的新型图像,图像不在我们以前认为的自然图像空间之内。

结论

人工智能将改变我们与打算机交互的办法,这是传统不雅观念。
不幸的是,AI社区中的许多人都大大低估了界面设计的深度,常常将其视为一个大略的问题,紧张是关于使事情变得俊秀或易于利用。
在这种不雅观点中,界面设计是一个须要通报给他人的问题,而艰巨的事情则是培养一些机器学习系统。

此视图禁绝确。
最深的是,界面设计意味着开拓人类思考和创造的基本原则。
这是一个问题,其知识产生可追溯到字母表,制图和音乐符号的发明者,以及当代巨人如笛卡尔,Playfair,费曼,恩格尔巴特和凯。
这是人类在努力办理的最困难,最主要和最基本的问题之一。

如前所述,在人工智能的一个共同不雅观点中,我们的打算机将连续更好地办理问题,但人类将基本保持不变。
在第二种常见不雅观点中,人类将在硬件层面进行修正,可能直接通过神经接口进行修正,或通过全脑仿真间接进行修正。

我们已经描述了第三种不雅观点,个中AI实际上改变了人性,帮助我们发明了新的认知技能,扩展了人类思想的范围。
或许有一天,这些认知技能将在一个良性反馈循环中加速AI的发展:

它不会是机器中的奇点。
相反,它将是人类思想范围内的奇点。
当然,这个循环目前非常具有推测性。
我们所描述的系统可以帮助开拓更强大的思维办法,但最多只是间接意义上的这些思维办法被用来开拓新的AI系统。

当然,从长远来看,机器可能会在所有或大多数认知任务上超过人类。
纵然是这种情形,认知转型仍旧是一个有代价的目标,值得追求。
纵然机器做得更好,学习下棋或顺利进行也有乐趣和代价。
在讲故事等活动中,利益每每不是作为建筑本身的过程和假造的关系而产生的。
除了工具性福利之外,个人变革和发展具有内在代价。

我们谈论的面向接口的事情不在用于判断人工智能中大多数现有事情的阐述之外。
它不涉及冲破分类或回归问题的一些基准。
它并没有涉及令人印象深刻的壮举,例如在Go等游戏中击败人类冠军。
相反,它涉及更主不雅观和难以衡量的标准:它是否有助于人类以新的办法思考和创造?

这给做这种事情带来了困难,特殊是在研究环境中。
该当在哪里发布?一个人属于哪个社区?判断此类事情应采取什么标准?好的事情和坏的差异是什么?

我们相信,在未来几年内,将涌现一个回答这些问题的社区。
它将举办研讨会和会议。
它将在Distill等场所发布作品。
它的标准将来自许多不同的社区:来自艺术和设计以及音乐社区; 来自数学界对抽象和良好定义的品味; 以及现有的AI和IA社区,包括打算创造力和人机交互方面的事情。
成功的长期磨练将是创作者广泛利用的工具的开拓。
艺术家是否利用这些工具开拓出非凡的新风格?其他领域的科学家是否利用它们以其他办法发展理解?这些都是伟大的欲望。