自然措辞理解新打破!科学家让AI不止看懂“字面意思”_措辞_人工智能
编译 | 贞逸
编辑 | 云鹏
智东西7月20日,据外媒宣布,近日,伦斯勒理工学院的两位科学家撰写了一本名为《人工智能时期措辞学(Linguistics for the Age of AI)》的书。
该书磋商了目前的人工智能学习方法在自然措辞理解 (natural language understanding,NLU) 中的瓶颈,并考试测验探索未来发展智能代理(intelligent agents)的路子。
《人工智能时期措辞学》的作者 Marjorie McShane 和 Sergei Nirenburg创造了一种打破人工智能学习措辞瓶颈的新方法,并称为“措辞赋能智能体(Language endowed intelligent agents,LEIA)”。该方法能在减少演习模型数据量的情形下,进一步提升人工智能理解人类措辞的准确性。
他们认为,人工智能系统必须超越对词语字面意思理解的范畴。他们在书中用案例显示了,自然措辞理解系统能够帮助人工智能理解天下、向人类阐明他们的知识并在探索天下的过程中学习。
《人工智能时期措辞学》
一、AI学措辞的两种方法:被动奉告or主动学习?
例如一个歧义语句的案例:“开刀的是她父亲”。这句话有两种理解办法,她的父亲是年夜夫去操作开刀手术,或者她的父亲是被年夜夫开刀的患者。
有些语句单独看充满了歧义,但人类能够通过语境来办理这些歧义。我们通过说话者的语气、语境和对话的一样平常逻辑以及生活基本知识的线索来构建高下文。当我们的直觉和知识未能帮助我们理解句子的时候,我们会提出疑问。对我们(人类)来说,确定高下文的过程是很随意马虎的。但是让打算机用程序思维来理解相同的过程并不大略。
科学家提出了两种办法来考试测验办理这个问题。
第一种办法是科学家在人工智能发展的初期利用的。科学家通过知识库(Knowledge-based)系统来确定句子中的每一个单词的浸染,并提取高下文的含义。但知识库系统依赖大量的关于措辞、情境和天下的特色(features)。这些信息可能有着各自的来源,并且(在打算机中)须要独立的打算办法。
知识库供应了可靠(reliable)和可阐明(explainable)的措辞剖析方法。但后来它们逐渐“失落宠”了,由于它们须要太多的人力来设计特色、创建词汇构造(lexical structures)和本体(ontologies),以及开拓将所有这些部分结合在一起的软件系统。研究职员认为知识工程(knowledge engineering)的瓶颈是手动事情(manual effort,大量的人工操作且不能穷举所有结果),他们考试测验寻求其他方法来进行措辞处理(language processing)。
“公众年夜众认为任何试图战胜这种所谓的知识瓶颈的努力都是徒劳的,这深刻影响了人工智能的发展道路,特殊是自然措辞处理,使该领域阔别了理性主义、基于知识的方法,并匆匆成了履历主义的涌现。”McShane和Nirenburg在《人工智能时期的措辞学》中写道。
近几十年来,机器学习算法(machine learning algorithms)已经成为神经措辞程序学(Neuro-Linguistic Programming,NLP)和自然措辞理解(Natural Language Understanding,NLU)的核心。
部分科学家逐渐开始利用第二种办法,利用知识学习系统(knowledge-lean systems)来演习机器学习模型,使人工智能通过统计关系来处理语境问题。在演习过程中,机器学习模型须要处理大量的文本资料,并根据单词与单词相邻位置的办法来调度其参数。在这些模型中,语境是由单词序列之间的统计关系决定的,而不是单词背后的含义。不过,数据集越大,例子越多样化,这些数字参数就越能捕捉到单词彼此之间的各种涌现办法(能够记录单词与单词的排列参数)。
知识学习系统之以是得到遍及,紧张是由于大量的打算资源和大型数据集可以被用来演习机器学习系统。通过维基百科等公共数据库,科学家们已经能够网络弘大的数据集,并针对翻译、文本天生和问答等各种任务,设置机器学习的专项演习。
二、机器记录了数据并不虞味“理解”了数据
本日,我们的深度学习模型可以天生文章长度的文本序列,回答科学考试问题,编写软件源代码以及回答基本的客户做事查询。这些领域之以是能取得进展,是由于深度学习架构(LSTMs,Transformers)得到了改进。更主要的是,神经网络研究每年都有新的进展。
但是,虽然更大的深度神经网络可以在特界说务上逐步取得进展,但它们并不能办理“通用自然措辞理解(general natural language understanding)”这一更宽泛的问题。这便是为什么各种实验表明,纵然是最繁芜的措辞模型也无法回答有关天下是如何运作的大略问题。
在McShane和Nirenburg的书中,他们把目前人工智能系统办理的问题描述为“唾手可得的水果(low-hanging fruit)”任务。一些科学家认为,连续沿着神经网络的道路提高,终极会办理机器学习正面的措辞学问题。但McShane和Nirenburg认为,还有更根本的问题须要办理。
“当前的系统不像人类,它们不知道自己在做什么以及为什么这样做。它们办理问题的方法也不像人类,而且它们不依赖于天下、措辞或机构的互动。”他们写道,“相反,它们在很大程度上依赖于将通用机器学习算法运用于越来越大的数据集,并得到当代打算机惊人的速率和存储容量的支持。”
人工智能
三、真正理解学习意义的AI才真“智能”
身为认知科学家和打算措辞学家的McShane表示,机器学习必须战胜几个障碍,个中首先是意义的缺失落(真正让打算机理解学习的意义,而不是纯挚的背答案)。
“统计/机器学习(The statistical/machine learning,S-ML)方法并不试图打算意义(compute meaning)(目前的打算机学习仅能进行数据处理,并不能真正理解数据的含义)。”McShane说。“从业者(部分研究职员)认为单词(在句子中)足够代表它的含义,但事实并非如此。当涉及到完全的高下文意义时,一个句子中的单词(意思)只是冰山一角。对人工智能来说,稠浊词语的含义就像把船开向冰山一样令人担忧(人工智能在不能完备精确理解措辞指令含义的时候,会导致后续的一系列缺点)。”
在大多数情形下,机器学习系统通过缩小任务范围或扩大数据集来回避处理词义的问题。但是,纵然一个大型的神经网络能够“创作”一段长文本并保持语义的连贯性,它仍旧不能理解它所“写”的词句的含义。
“人们可以搭建一个看起来十分“智能”的系统,但实际上它们(人工智能)并不知道发生了什么(例如,GPT-3)。”McShane说。
GPT-3
所有基于深度学习的措辞模型,只要你问它们一系列噜苏但干系的问题,它们就会开始崩溃,由于它们的参数无法捕捉日常生活中无限的繁芜性。在这个问题上投入更多的数据并不能让它们变得更加“智能”。
四、赋能AI打破措辞学习的瓶颈
在他们的书中,McShane和Nirenburg提出了一种不须要乞助于纯机器学习(纯机器学习须要大量数据),而且办理了自然措辞理解的“知识瓶颈”的方法,它被称为“措辞赋能智能体(LEIA)”。它有三个关键特色:
1.LEIAs能够理解敏感语境下的措辞含义,不至于造成歧义。
2.LEIAs可以向人类阐明它们(AI)的思想、行动和决策
3.LEIAs能够在与“天下”互动中终生自主学习,减少人类对其扩展知识库的需求。
LEIAs对自然措辞进行了六个阶段的处理,从确定单词在句子中的浸染,到语义剖析,末了到情景推理。这些阶段使得LEIA能够办理单词和短语不同含义之间的冲突,并将句子整合到主体事情的更广泛的环境中(将句子的表达办法调度的更像人类的措辞)。
LEIA为它们的措辞表达设置了信心水平,并知道它们的技能(措辞技巧)和知识在哪里达到了它们的极限。在碰着理解力的极限的情形下,它们能与人类(或其他高档智能)进行交互以办理措辞歧义的问题。这些互动反过来使它们能够学习新事物,扩大它们的知识储备。
LEIA将句子转化为文本意义表述(text-meaning representations,TMR),即句子中每个词的可阐明和可操作的定义。根据其(语句)背景和目标,LEIA决定哪些措辞须要跟进处理。例如,如果一个维修机器人与几个人类技能职员处在同一个机器维修的车间,而人类在谈论昨天的体育比赛结果,那么人工智能该当能够区分与它的事情(机器维修)干系的句子和它可以忽略的句子(体育)。
LEIAs紧张利用knowledge-based systems,但它们也在处理措辞的过程中利用了机器学习模型,特殊是在措辞处理句子解析的初始阶段。
五、AI真的须要仿照人类大脑思维吗?
LEIA的紧张特点之一是整合了知识库(knowledge bases)、推理模块(reasoning modules)和觉得输入(sensory input)。目前,打算机视觉(computer vision)和自然措辞处理等领域的重叠很少。
正如McShane和Nirenburg在他们的书中所指出的,“措辞理解不能分开整体认知(overall agent cognition),由于措辞理解有时也须要其他感知模式(如视觉)的赞助。
在现实天下中,人类利用丰富的感官体验来补充措辞表达的空缺(例如,当有人见告您“看那边?”时,他们假设您可以看到他们的手指指向的位置,并补充信息)。人类对话的思维逻辑能做出假设并省略措辞中的细节。我们希望与我们交互的智能代理(intelligent agent)都具有类似的功能。
“我们完备理解为什么单独处理的办法(silo approaches)是现在的常态,毕竟办理每一个问题都很困难,而且每个问题都须要单独进行研究,”McShane说。“然而,如果不进行整合,问题是无法从根源办理的(人工智能措辞学习的发展该当整合多个模式)。”
同时,实现类似人类的思考逻辑并不哀求LEIA完备复制人类大脑。McShane说:“至少在这个发展阶段,神经科学(neuroscience)不能为我们的认知建模(cognitive modeling)供应任何语法上和内容上的帮助。”McShane和Nirenburg认为,复制大脑并不能为人工智能阐明目标(语句)所做事。
人工智能2
结语:让AI像人一样利用措辞仍需韶光
McShane和Nirenburg提出了LEIA作为新的人工智能学习方法,这不仅减少了演习所需的数据量,而且办理了自然措辞理解存在的“知识瓶颈”问题。
同时,他们也承认开拓LEIA是一个持续的、长期的、范围广泛的事情操持,有很多事情须要做。而终极的目标便是“使机器能够像人类一样闇练地利用措辞”。
来源:venturebeat
本文系作者个人观点,不代表本站立场,转载请注明出处!