让人工智能有情感的窍门!清华威信申报识破情感计算_情感_特点
40 多年前,诺贝尔奖得主 Herbert Simon 在认知心理学方面强调,办理问题论要结合情绪的影响。情绪的识别和表达对付信息的互换和理解是必需的,也是人类最大的生理需求之一。人类的认知、行为等险些都要受到情绪的驱动,并影响着人际互动以及群体活动。在人与人的交往中, 情绪的互换还常被用来完成人的意图的通报。 因此,在智能人机交互的研究中,拥有对情绪的识别、剖析、理解、表达的能力也应成为智能机器必不可少的一种功能。
本期的智能内参,我们推举清华大学的研究报告《人工智能之情绪打算》,从技能特点、人才状况、运用和趋势四个方面深入解读人工智能情绪打算。如果想收藏本文的报告(人工智能之情绪打算),可以在智东西号回答关键词“nc406”获取。
一、什么是情绪打算让打算机具有情绪能力的不雅观点并不新鲜,它与“机器人” 一词险些同时涌现。 1985 年,人工智能的奠基人之一 Minsky 就明确指出: “问题不在于智能机器能否有情绪,而在于没有情绪的机器能否实现智能” 。但当时,授予打算机或机器人以人类式的情绪,紧张还是科幻小说中的素材,在学术界罕见人关注。 1995 年情绪打算的观点由 Picard 首次提出,并于 1997 年正式出版《Affective Computing(情绪打算)》。在书中,她指出“情绪打算便是针对人类的外在表现,能够进行丈量和剖析并能对情绪施加影响的打算” ,开辟了打算机科学的新领域,其思想是使打算机拥有情绪,能够像人一样识别和表达情绪,从而使人机交互更自然。
大略来说,情绪打算研究便是试图创建一种能感知、识别和理解人的情绪,并能针对人的情绪做出智能、灵敏、友好反应的打算系统。显然,情绪打算是个繁芜的过程,不仅受韶光、地点、环境、人物工具和经历的影响,而且要考虑表情、措辞、动作或身体的打仗。
在人机交互中,打算机须要捕捉关键信息,觉察人的情绪变革,形成预期,进行调度, 做出反应。例如通过对不同类型的用户建模(如操作办法、表情特点、态度喜好、认知风格、知识背景等),以识别用户的情绪状态,利用有效的线索选择得当的用户模型,并以适宜当前用户的办法呈现信息。 在对当前的操作做出及时反馈的同时,还要对情绪变革背后的意图形成新的预期,并激活相应的数据库,及时主动地供应用户须要的新信息。 举例来说,麻省理工学院媒体实验室的情绪打算小组研制的情绪打算系统通过记录人面部表情的摄像机和连接在人身体上的生物传感器来网络数据,然后由一个“情绪助理”来调节程序以识别人的情绪。假设你对电视讲座的一段内容表现出困惑,情绪助理会重放该片段或者给予阐明。而目前海内幕感打算的研究重点在于通过各种传感器获取有人的情绪所引起的生理及行为特色旗子暗记,确定情绪类别的关键特色,建立“情绪模型”,从而创建个人情绪打算系统。
情绪打算是一个高度综合化的研究和技能领域。通过打算科学与生理科学、认知科学的结合,研究人与人交互、人与打算机交互过程中的情绪特点,设计具有情绪反馈的人与打算机的交互环境,将有可能实现人与打算机的情绪交互。情绪打算研究将不断加深对人的情绪状态和机制的理解,并提高人与打算机界面的和谐性,即提高打算机感知情境,理解人的情绪意图,做出适当反应的能力,其紧张研究内容如下图所示:
▲情绪打算的研究内容
情绪打算是一个多学科交叉的崭新的研究领域,它涵盖了传感器技能、打算机科学、认知科学、生理学、行为学、生理学、哲学、社会学等方面。情绪打算的终极目标是授予打算机类似于人的情绪能力。要达到这个目标,许多技能问题有待办理。这些技能问题的打破对各学科的发展都产生巨大的推动浸染。以下分别从情绪打算的传统研究方法和新兴研究方法对技能发展进行磋商。
1、 传统的研究
传统的情绪打算方法是按照不同的情绪表现形式分类的,分别是:文本情绪剖析、语音情绪剖析、视觉情绪剖析。
1.1 文本情绪打算
20世纪90年代末,国外的文本情绪剖析已经开始。早期, Riloff和Shepherd在文本数据的根本上进行了构建语义词典的干系研究。 McKeown创造连词对大规模的文本数据集中形容词的语义表达的制约浸染,进而对英文的形容词与连词做情绪方向研究。自此之后,越来越多的研究开始考虑特色词与情绪词的关联关系。 Turney等利用点互信息的方法扩展了正负面情绪词典,在剖析文本情绪时利用了极性语义算法,处理通用的语料数据时准确率达到了74%。在近些年的研究中, Narayanan等结合各种特色及其干系联信息,提出了基于分句、整句、结果句的分类方案,得到了很好的效果。 Pang等以积极情绪和悲观情绪为维度,对电影评论进行了情绪分类。他分别采取了支持向量机、最大熵、朴素贝叶斯算法进行分类实验,创造支持向量机的精确度达到了80%。随着研究的不断深入,学者在对情绪剖析算法进行改进的同时,也将其运用到不同的行业中进行了实践。
文本情绪打算的过程可以由 3 部分组成:文本信息采集、情绪特色提取和情绪信息分类。文本信息采集模块通过文本抓取工具(如网页爬虫工具)得到情绪评论文本,并通报到下一个
情绪特色提取模块,然后对文本中自然措辞文本转化成打算机能够识别和处理的形式,并通过情绪信息分类模块得到打算结果。文本情绪打算侧重研究情绪状态与文本信息之间的对应关系,供应人类情绪状态的线索。详细地,须要找到打算性能提取出来的特色,并采取能用于情绪分类的模型。因此,关于文本情绪打算过程的谈论,紧张集中在文本情绪特色标注(信息采集) 、情绪特色提取和情绪信息分类这三个方面 。
1、文本情绪特色标注:情绪特色标注是对情绪语义特色进行标注,常日是将词或者语义块作为特色项。情绪特色标注首先对情绪语义特色的属性进行设计,如褒义词、贬义词、加强语气、一样平常语气、悲哀、高兴等等;然后通过机器自动标注或者人工标注的方法对情绪语义特色进行标注, 形成情绪特色凑集。情绪词典是范例的情绪特色凑集,也是情绪打算的根本。在大多数研究中,有关情绪打算的研究常日是将情绪词典直接引入自定义词典中。
利用情绪词典打算出文本情绪值是一种大略迅速的方法,但准确率有待提高。在实际的情绪打算中,会由于详细的措辞运用环境而有所不同。例如, “轻薄” 一词常日认为是否定词,但是在电脑、手机却被视为肯定词汇。同时,文本中常会涌现否定前置、双重否定以及文本口语化和表情利用等,这些都将会对文本情绪特色的提取和判断产生较大的影响。因此在进行文本情绪提取时,须要对文本及其对应的高下文关系、 环境关系等进行剖析。
2、情绪特色提取 :文本包含的情绪信息是错综繁芜的,在授予打算机以识别文本情绪能力的研究中,从文本旗子暗记中抽取特色模式至关主要。在对文本预处理后,初始提取情绪语义特色项。特色提取的基本思想是根据得到的文本数据, 决定哪些特色能够给出最好的情绪辨识。常日算法是对已有的感情特色词打分,接着以得定胜败为序,超过一定阈值的特色组成特色子集。特色词集的质量直接影响末了结果,为了提高打算的准确性,文本的特色提取算法研究将连续受到关注。长远看来,自动天生文本特色技能将进一步提高,特色提取的研究重点也更多地从对词频的特色剖析转移到文本构造和情绪词上。
3、情绪信息分类 :文本情绪分类技能中,紧张采取两种技能路线:基于规则的方法和基于统计的方法。在 20世纪 80 年代,基于规则的方法霸占主流位置,通过措辞学家的措辞履历和知识获取句法规则,以此作为文本分类依据。但是,获取规则的过程繁芜且本钱巨大,也对系统的性能有负面影响,且很难找到有效的路子来提高开拓规则的效率。 20 世纪 90 年代之后,人们更方向于利用统计的方法,通过演习样本进行特色选择和参数演习,根据选择的特色对待分类的输入样本进行形式化,然后输入到分类器进行种别剖断,终极得到输入样本的种别。
1.2 语音情绪打算
最早的真正意义上的语音情绪识别干系研究涌如今 20 世纪 80 年代中期,它们首创了利用声学统计特色进行情绪分类的先河。紧接着,随着 1985 年 Minsky 教授“让打算机具有情绪能力” 不雅观点的提出,以及人工智能领域的研究者们对情绪智能主要性认识的日益加深,越来越多的科研机构开始了语音情绪识别研究的探索。在 20 世纪 80 年代末至 90 年代初期,麻省理工学院多媒体实验室布局了一个“情绪编辑器” 对外界各种情绪旗子暗记进行采集,综合利用人体的生理旗子暗记、面部表情旗子暗记、语音旗子暗记来初步识别各种情绪,并让机器对各种情绪做出适当的大略反应; 1999 年, Moriyama 提出语音和情绪之间的线性关联模型,并据此在电子商务系统中建造出能够识别用户情绪的图像采集系统语音界面,实现了语音情绪在电子商务中的初步运用。
整体而言,语音情绪识别研究在该期间仍旧处于低级阶段, 紧张侧重于情绪的声学特色剖析这一方面,作为研究工具的情绪语音样本也多表现为规模小、自然度低、语义大略等特点,虽然有相称数量的有代价的研究成果相继揭橥,但是并没有形成一套被广泛认可的、系统的理论和研究方法。进入 21 世纪以来,随着打算机多媒体信息处理技能等研究领域的涌现以及人工智能领域的快速发展,语音情绪识别研究被授予了更多的急迫哀求,发展步伐逐步加快。 2000 年,在爱尔兰召开的 ISCA Workshop on Speech and Emotion 国际会议首次把致力于情绪和语音研究的学者聚拢在一起。近 10 余年来,语音情绪识别研究事情在情绪描述模型的引入、情绪语音库的构建、情绪特色剖析等领域的各个方面都得到了发展。 下面将从语音情绪数据库的采集、语音情绪标注以及情绪声学特色剖析方面先容语音情绪打算。
1、语音情绪数据库的采集 :语音情绪识别研究的开展离不开情绪语音数据库的支撑。情绪语音库的质量高低,直接决定了由它演习得到的情绪识别系统的性能好坏。评价一个语音情绪数据库好坏的一个主要标准是数据库中语音情绪是否具备真实的表露性和自发性。目前,依据语音情绪引发类型的不同,语音情绪数据库可分为演出型、诱发型和自发型三种。
详细来说,演出型情绪数据库通过专业演员的演出,把不同情绪表达出来。在语音情绪识别研究初期,这一采集标准被认为是研究语音情绪识别比较可靠的数据来源,由于专业演员在
表达情绪时,可以通过专业表达得到人所共知的情绪特色。比如,愤怒情绪的语音一样平常会具有很大的幅值和强度,而悲哀情绪的语音则反之。由于这一类型的数据库具有演出的性子,情绪的表达会比真实情绪浮夸一点,因此情绪不具有自发的特点。依据该类型数据库来学习的语音情绪识别算法,不一定能有效运用于真实生活场景中。第二种称之为诱发型情绪数据库。被试者处于某一特定的环境,如实验室中,通过不雅观看电影或进行打算机游戏等办法,诱发被试者的某种情绪。目前大部分的情绪数据库都是基于诱发的办法建立的。诱发型情绪数据库产生的情绪办法相较于演出型情绪数据库,其情绪特色更具有真实性。末了一种类型属于完备自发的语音情绪数据库,其语料采集于电话会议、电影或者电话的视频片段,或者广播中的新闻片段等等。由于这种类型的语音情绪数据最具有完备的真实性和自发性,该当说最适宜用于实用的语音情绪识别。但是,由于这些语音数据涉及道德和版权成分,妨碍了它在实际语音情绪识别中的运用。
2、语音情绪数据库的标注 :对付采集好的语音情绪库,为了进行语音情绪识别算法研究,还须要对情绪语料进行标注。标注方法有两种类型:
离散型情绪标注法指的是标注为如生气、高兴、悲哀、害怕、惊奇、讨厌和中性等,这种标注的依据是生理学的基本情绪理论。基本情绪论认为,人繁芜的情绪是由多少种有限的基本情绪构成的,就像我们自古就有“喜、怒、哀、乐,恐、悲、 惊” 七情的说法。 不同的生理学家对基本情绪有不同的定义,由此可见,在生理学领域对基本情绪类别的定义还没有一个统一的结论,因此不同的语音情绪数据库包含的情绪种别也不尽相同。这不利于在不同的语音情绪数据库上,对同一语音情绪识别算法的性能进行评价。此外,众所周知,实际生活中情绪的种别远远不止有限几类。基于离散型情绪标注法的语音情绪识别随意马虎知足多数场合的须要,但无法处理人类情绪表达具有连续性和动态变革性的情形。在实际生活中,普遍存在着情绪变革的语音,比如前半句包含了某一种情绪,而后半句却包含了其余一种情绪,乃至可能相反。 例如,某人说话时刚开始很高兴,溘然受到外界刺激,一下子就生气了。对付这种在情绪表达上具有连续和动态变革的语音,采取离散型情绪标注法来进行语音情绪识别就不得当了。由于此时语音的情绪,己不再完备属于某一种详细的情绪。
维度情绪空间论基于离散型情绪标注法的毛病,生理学家们又提出了维度情绪空间论,即对情绪的变革用连续的数值进行表示。不同研究者所定义的情绪维度空间数目有所不同,如二维、三维乃至四维模型。针对语音情绪,最广为接管和得到较多运用的为二维连续情绪空间模型,即“激活维-效价维” (Arousal-Valence) 的维度模型。 “激活维” 反响的是说话者生理上的勉励程度或者采纳某种行动所作的准备,是主动的还是被动的; “效价维” 反响的是说话者对某一事物正面的或负面的评价。随着多模态情绪识别算法的研究,为了更细致的地描述情绪的变革,研究者在“激活维-效价维” (Arousal-Valence) 二维连续情绪空间模型的根本上,引入“掌握维” , 即在“激活维-效价维-掌握维(Arousal-Valence/Pleasure-Power/Dominance) ”三维连续情绪空间模型上对语音情绪进行标注和情绪打算。须要强调的是,离散型和连续型情绪标注之间,它们并不是伶仃的,而是可以通过一定映射进行相互转换。
情绪声学特色剖析 :情绪声学特色剖析紧张包括声学特色提取和声学特色选择、声学特色降维。采取何种有效的语音情绪特色参数用于情绪识别,是语音情绪识别研究最关键的问题之一,由于所用的情绪特色参数的利害直接决定情绪终极识别结果的好坏 。
声学特色提取。 目前常常提取的语音情绪声学特色参数紧张有三种:韵律特色、音质特色以及谱特色。 在早期的语音情绪识别研究文献中,针对情绪识别所首选的声学特色参数是韵律
特色,如基音频率、振幅、发音持续韶光、语速等。这些韵律特色能够表示说话人的部分情绪信息,较大程度上能区分不同的情绪。因此,韵律特色已成为当前语音情绪识别中利用最广泛并且必不可少的一种声学特色参数除了韵律特色,其余一种常用的声学特色参数是与发音办法干系的音质特色参数。三维情绪空间模型中的“引发维”上比较靠近的情绪类型,如生气和高兴,仅利用韵律特色来识别是不足的。
音质特色包括共振峰、频谱能量分布、 谐波噪声比等,不仅能够很好地表达三维中的“效价维”信息,而且也能够部分反响三维中的“掌握维”信息。因此,为了更好地识别情绪,同时提取韵律特色和音质特色两方面的参数用于情绪识别,已成为语音情绪识别领域声学特色提取的一个紧张方向。谱特色参数是一种能够反响语音旗子暗记的短时功率谱特性的声学特色参数, Mel 频率倒谱系数(Mel-scale Frequency Cepstral Coefficients,MFCC)是最具代表性的谱特色参数,被广泛运用于语音情绪识别。由于谱特色参数及其导数,仅反响语音旗子暗记的短时特性,忽略了对情绪识别有用的语音旗子暗记的全局动态信息。近年来,为了战胜谱特色参数的这种不敷之处,研究者提出了一些改进的谱特色参数,如类层次的谱特色、调制的谱特色和基于共振峰位置的加权谱特色等。
声学特色选择。 为了只管即便保留对情绪识别故意义的信息,研究者常日都提取了较多的与情绪表达干系的不同类型的特色参数,如韵律特色、音质特色、谱特色等。 任意类型特色都有各自的侧重点和适用范围, 不同的特色之间也具有一定的互补性、干系性。此外,这些大量提取的特色参数直接构成了一个高维空间的特色向量。这种高维性子的特色空间,不仅包含冗余的特色信息,导致用于情绪识别的分类器演习和测试须要付出高昂的打算代价,而且情绪识别的性能也不尽如人意。因此,非常有必要对声学特色参数进行特色选择或特色降维处理,以便获取最佳的特色子集,降落分类系统的繁芜性和提高情绪识别的性能。
特色选择是指从一组给定的特色集中,按照某一准则选择出一组具有良好区分特性的特色子集。特色选择方法紧张有两种类型:封装式(Wrapper)和过滤式(Filter)。 Wrapper 算法是将后续采取的分类算法的结果作为特色子集评价准则的一部分,根据算法生成规则的分类精度选择特色子集。 Filter 算法是将特色选择作为一个预处理过程,直策应用数据的内在特性对选取的特色子集进行评价,独立于分类算法。
声学特色降维。 特色降维是指通过映射或变换办法将高维特色空间映射到低维特色空间,已达到降维的目的。特色降维算法分为线性和非线性两种。最具代表性的两种线性降维算法,如主身分剖析 PCA(Principal Component Analysis)和线性判别剖析 LDA(Linear DiscriminantAnalysis),已经被广泛用于对语音情绪特色参数的线性降维处理。也便是, PCA 和 LDA 方法被用来对提取的高维情绪声学特色数据进行嵌入到一个低维特色子空间,然后在这降维后的低维子空间实现情绪识别,提高情绪识别性能。
近年来,新发展起来的基于人类认知机理的流形学习方法比传统的线性 PCA 和 LDA 方法更能表示事物的实质,更适宜于处理呈非线性流形构造的语音情绪特色数据。但这些原始的流形学习方法直接应用于语音情绪识别中的特色降维,所取得的性能并不令人满意。紧张缘故原由是他们都属于非监督式学习方法,没有考虑对分类有帮助的已经样本数据的种别信息。只管流形学习方法能够较好地处理非线性流形构造的语音特色数据,但是流形学习方法的性能随意马虎受到其参数如邻域数的影响,而如何确定其最佳的邻域数,至今还缺少理论辅导,一样平常都是根据样本数据的多次试验结果来粗略地确定。因此,对付流形学习方法的利用,如何确定其最佳参数,还有待深入研究。
1.3 视觉情绪打算
表情作为人类情绪表达的紧张办法,个中蕴含了大量有关怀坎情绪变革的信息,通过面部表情可以推断内心奇妙的情绪状态。但是让打算机读懂人类面部表情并非大略的事情。 人脸表情识别是人类视觉最精彩的能力之一。 而打算机进行自动人脸表情识别所利用的紧张也是视觉数据。 无论在识别准确性、 速率、 可靠性还是稳健性方面, 人类自身的人脸表情识别能力都远远高于基于打算机的自动人脸表情识别。 因此,自动人脸表情识别研究的进展一方面依赖打算机视觉、 模式识别、人工智能等学科的发展, 另一方面还依赖对人类本身识别系统的认识程度,特殊是对人的视觉系统的认识程度。
早在 20 世纪 70 年代,关于人脸表情识别的研究就已经展开,但是早期紧张集中在生理学和生物学方面。随着打算机技能的发展,人脸表情识别技能逐渐发展起来,至上世纪 90 年代,该领域的研究已经非常生动。大量文献显示表情识别与情绪剖析已从原来的二维图像走向了三维数据研究,从静态图像识别研究专项实时视频跟踪。 下面将从视觉情绪旗子暗记获取、情绪旗子暗记识别以及情绪理解与表达方面先容视觉情绪打算。
视觉情绪旗子暗记获取 :表情参数的获取, 多以二维静态或序列图像为工具, 对微笑的表情变革难以判断, 导致情绪表达的表现力难以提高, 同时无法表示人的个性化特色,这也是表情识别中的一大难点。 以目前的技能, 在不同的光照条件和不同头部姿态下, 也不能取得满意的参数提取效果。由于三维图像比二维图像包含更多的信息量, 可以供应鲁棒性更强, 与光照条件和人的头部姿态无关的信息, 用于人脸表情识别的特色提取事情更随意马虎进行。因此, 目前最新的研究大多利用多元图像数据来进行细微表情参数的捕获。 该方法综合利用三维深度图像和二维彩色图像, 通过对特色区深度特色和纹理彩色特色的剖析和领悟, 提取细微表情特色, 并建立人脸的三维模型, 以及细微表情变革的描述机制。
视觉情绪旗子暗记识别:视觉情绪旗子暗记的识别和剖析紧张分为面部表情的识别和手势识别两类:
对付面部表情的识别, 哀求打算机具有类似于第三方不雅观察者一样的情绪识别能力。由于面部表情是最随意马虎掌握的一种,以是识别出来的并不一定是真正的情绪,但是,也正由于它是可视的,以是它非常主要,并能通过不雅观察它来理解一个人试图表达的东西。到目前为止, 面部表情识别模型都是将情绪视为离散的, 即将面部表情分成为数不多的种别, 例如“高兴” 、 “悲哀” 、 “愤怒” 等。 1971 年, Ekman 和 Friesen 研究了 6 种基本表情(高兴、悲哀、惊异、恐怖、愤怒和厌恶), 并系统地建立了上千幅不同的人脸表情图像库。六种基本表情的具体面部表现如下表 所示。 1978 年, 他们研究了情绪种别之间的内在关系, 开拓了面部动作编码系统(FACS)。系统描述了基本情绪以及对应的产生这种情绪的肌肉移动的动作单元。他们根据人脸的解剖学特点,将其划分成大约 46 个既相互独立又相互联系的运动单元(AU) ,并剖析了这些运动单元的运动特色及其所掌握的紧张区域以及与之干系的表情,给出了大量的照片解释。面部识别器一样平常要花五分钟来处理一种面部表情, 准确率达到 98%。
马里兰大学的 Yeser Yacoob 和 Larry Davis 提出了另一种面部表情识别模型,它也是基于动作能量模版,但是将模版、子模版(例如嘴部区域)和一些规则结合起来表达情绪。例如,愤怒的表情在从眼睛区域提取的子模版中,特殊是眉毛内敛、下垂,在嘴巴区域子模版中,特殊是嘴巴紧闭, 两个子模板结合起来, 就很好表达了愤怒这一情绪。后续的研究总体上结合生物识别方法及打算机视觉进行, 依据人脸特定的生物特色,将各种表情同脸部运动细节(几何网格的变革) 联系起来, 网络样本, 提取特色,构建分类器。 但是目前公开的用于表情识别研究的人脸图像数据库多是采集志愿者刻意表现出的各种表情的图像, 与真实环境有出入。
▲脸部表情运动特色详细表现
对付手势识别来说, 一个完全的手势识别系统包括三个部分和三个过程。 三个部分分别是:采集部分、 分类部分和识别部分; 三个过程分别是: 分割过程、 跟踪过程和识别过程。 采集部分包括了摄像头、 采集卡和内存部分。 在多目的手势识别中, 摄像头以一定的关系分布在用户前方。 在单目的情形下, 摄像头所在的平面该当和用户的手部运动所在的平面基本水平。分类部分包括了要处理的分类器和结果反馈回来的吸收比较器。 用来对之前的识别结果进行校正。识别部分包括了语法对应单位和相应的跟踪机制, 通过分类得到的手部形状通过这里逐一对应确定的语义和掌握命令。 分割过程包括了对得到的实时视频图像进行逐帧的手部分割, 首先得到须要关注的区域, 其次在对得到的区域进行细致分割, 直到得到所须要的手指和手掌的形状。跟踪过程包括对手部的不断定位和跟踪,并估计下一帧手的位置。 识别过程通过对之前的知识确定手势的意义, 并做出相应的反应, 例如显示出对应的手势或者做出相应的动作, 并对不能识别的手势进行处理, 或者报警或者记录下特色后在交互情形下得到用户的辅导。 手势识别的基本框架如下图所示:
▲手势识别的基本框架
2、新兴的研究
2.1 网络海量数据的情绪打算
随着时期的发展,网络授予情绪打算新的、更大的数据平台,打开了情绪打算的新局势。网络系统由于沟通了人类的现实天下和虚拟天下,可以持续不断地对数量弘大的样本进行情绪跟踪,每天这些映射到网络上的感情不计其数,利用好这些数据反过来就可以验证生理学结论,乃至反哺生理学。由于大数据的分布范围极其广泛,样本数量非常弘大,采取单一的大数据处理方法每每得不到有效的情绪要素,统计效果较差。但是,如果将大数据和生理学结合起来,局势就会大不一样:生理学中,不同情绪可以采取维度标定,如冷暖或软硬,同时各种生理效应影响人类对事物的情绪判断,如连觉效应、视觉显著性、视觉平衡等,在大数据中引入生理学效应和维度,对有效数据进行生理学情绪标准划分,使得数据具有情绪维度,这样就会让打算机仿照人类情绪的准确性大大提升。网络海量数据的情绪紧张有以下几个社会属性:
情绪随群体的变革:在社交网络,如论坛、网络社区等群体聚拢的平台上流露出群体的情绪,通过这些情绪展现可以达到影响其他个人的行为。
情绪随图片的变革:在社交媒体涌现大量的图片,这些图片的颜色、光度、图片内容等各不相同。图片的特色直接影响到了不雅观看者的情绪。
情绪伴随伙的变革:在社交平台上,朋友揭橥的微博、微信状态等随意马虎展现个人的情绪。朋友间的关系比陌生人间的关系更加深入,以是朋友的情绪更随意马虎引起情绪变革,在海量数据中,个人情绪随意马虎优先受朋友情绪的影响。
情绪随社会角色的变革:在社交网络中,个人在不同的群体所处的角色也不一样,个人情绪流露时也会随着所处的角色不一样而展现不同的情绪。
情绪随韶光的演化:人的感情是变革无常的,所处的环境不一样,则表现出来的情绪也将不一样。纵然是同一件事,不同的情景下展现的情绪也会不一样。其余,事宜的发展是个动态的过程,随着事宜的演化,人的情绪也会随着变革。
2.2 多模态打算
虽然人脸、姿态和语音等均能独立地表示一定的情绪,但人的相互互换却总是通过信息的综合表现来进行。以是, 只有实现多通道的人机界面,才是人与打算机最为自然的交互办法,它集自然措辞、语音、手语、人脸、唇读、头势、体势等多种互换通道为一体,并对这些通道信息进行编码、压缩、集成和领悟,集中处理图像、音频、视频、文本等多媒体信息。多模态打算是目前情绪打算发展的主流方向。每个模块所传达的人类情绪的信息量大小和维度不同。在人机交互中,不同的维度还存在缺失落和不完善的问题。因此,人机交互中情绪剖析应尽可能从多个维度入手,将单一不完善的情绪通道补上,末了通过多结果拟合来判断情绪方向。
在多模态情绪打算研究中,一个很主要的分支便是情绪机器人和情绪虚拟人的研究。美国麻省理工学院、日本东京科技大学、美国卡内基·梅隆大学均在此领域做出了较好的演示系统。目前中科院自动化所模式识别国家重点实验室已将情绪处理融入到了他们已有的语音和人脸的多模态交互平台中,使其结合情绪语音合成、人脸建模、视位模型等一系列前沿技能,构筑了维妙维肖的情绪虚拟头像,并积极转向嵌入式平台和游戏平台等实际运用。
目前, 情绪识别和理解的方法上利用了模式识别、人工智能、语音和图像技能的大量研究成果。例如:在情绪语音声学剖析的根本上,利用线性统计方法和神经网络模型,实现了基于语音的情绪识别原型;通过对面部运动区域进行编码,采取 HMM 平分歧模型,建立了面部情绪特色的识别方法;通过对人姿态和运动的剖析,探索肢体运动的情绪种别等等。不过,受到情绪信息捕获技能的影响, 以及缺少大规模的情绪数据资源,有关多特色领悟的情绪理解模型研究还有待深入。随着未来的技能进展,还将提出更有效的机器学习机制。
二、 人才1、 环球学者概况
学者分布舆图对付进行学者调查、剖析各地区竞争力现况尤为主要, 下图为情绪打算领域环球顶尖学者分布状况。 个中, 颜色越趋近于赤色, 表示学者越集中;颜色越趋近于绿色,表示学者越稀少。 从地区角度来看,北美洲、欧洲是情绪打算领域学者分布最为集中的地区,亚洲东部地区次之, 南美洲和非洲学者极为匮乏。从国家角度来看, 情绪打算领域的人才在美国最多,中国次之,意大利、法国等洲国家也有较多的学者数量,整体上讲其它国家与美国的差距较大。
▲情绪打算环球专家分布
▲ 情绪打算专家国家数量分布
情绪打算领域学者的 h-index 分布如下图所示,分布情形整体呈阶梯状,大部分学者的 hindex 分布在中低区域,个中 h-index 在<10 的区间人数最多,有 524 人, 占比 43.4%, 50-60 区间人数最少, 有 46 人, 占比 3.8%。
▲情绪打算领域学者 h-index 分布
各国情绪打算 TOP学者的流失落和引进是相比拟较均衡的,个中美国是情绪打算领域人才流动大国,人才输入和输出幅度领先于其他国家,且从数据来看人才流出大于人才流入。英国、加拿大和印度等国人才迁徙流量小于美国;中国人才流入略高于人才流出。人才的频繁流入流出,使得该领域的学术互换活动增加,带动了人才质量提升的同时,也促进了领域理论及技能的更新迭代, 逐渐形成一种良性循环的过程。
▲情绪打算专家迁徙图
2、 海内学者概况
AMiner 选取情绪打算领域海内专家学者绘制了学者海内分布舆图,如下图所示。通过下图我们可以创造,京津地区在情绪打算领域的人才数量最多,东部及南部沿海地区的也有较多的人才分布,比较之下,要地本地地区信情绪打算领域人才较为匮乏,这也从一定程度上解释了情绪打算领域的发展与该地区的地理位置和经济水平都是息息相关的。同时,通过不雅观察中国周边国家的学者数量情形,特殊是与日本、东南亚等亚洲国家比较,中国在情绪打算领域顶尖学者数量方面具有较为明显的上风。 图 8 是我国情绪打算领域顶尖学者最多的 10 个省份。
▲情绪打算海内学者分布
▲情绪打算学者分布海内省份 TOP10
三、 情绪打算运用近年来, Picard 领导的美国麻省理工学院多媒体实验室相继提出了近 50 种情绪打算运用项目。例如,将情绪打算运用于医疗康复,帮忙自闭症者,识别其情绪变革,理解患者的行为;在教诲中运用情绪打算,实现对学习状态的采集及剖析,辅导传授教化内容的选择及传授教化进度进行;还可以将情绪打算运用于生活中,打算机能够感知用户对音乐的喜好, 根据对情绪反应的理解判断,为用户供应更感兴趣的音乐播放等。
1、 教室传授教化
在美国,公立学校的预算限定引发大规模的西席裁员和教室拥挤不堪。西席事情韶光紧张,还要考虑和知足每个学生的需求。结果便是,那些课业困难的孩子随意马虎受到忽略。由于只要孩子不提出问题,老师就不会关注到他。
在过去三年里,有企业把面部识别技能运用到了第一线传授教化当中。在 SensorStar 实验室,他们用相机捕捉学生上课反应,并且输入到打算机里面,利用算法来确定学生把稳力是否转移。通过面部识别软件 EngageSense,打算机能够丈量微笑、皱眉和声音来测定学生教室参与度。孩子们的眼睛是专注于老师的吗? 他们是在思考还是发呆?他们是微笑还是皱着眉头?或者他们只是以为困惑?还是无聊?丈量之后,老师将会收到一份反馈报告,基于面部分析, 报告会见告老师他们的学生学习兴趣何时最高、何时最低。这样,老师能够对自己的传授教化方案做出调度,知足更多学生的需求。此外,比尔和梅林达盖茨基金会帮助了传感器手镯(sensor bracelets)的开拓,这可以用来追踪学生的参与水平。腕部设备能够发送小电流,通过在神经系统相应刺激时丈量电荷的细微变革便可以得知学生的课程愉快程度。
生理学家 Paul Ekman 将面部识别技能研究提升到了一个新的层次。他对 5000 多种面部运动进行了分类,以帮助识别人类感情。他的研究为 Emotient Inc、 Affectiva Inc 和 Eyeris 等公司供应了帮助,这些公司将生理学和数据挖掘相结合,检测人的细微表情,并对人的反应进行分类。目前为止,面部识别技能的重点是帮忙联邦司法和市场调研。不过,圣地亚哥市的研究职员也在医疗行业试用这项技能,测定孩子接管外科手术之后的疼痛程度。
2、 机器学习定制学生教室学习内容
TechCrunch 公司的员工设计了在线教诲平台,来供应一对一辅导和精熟学习( masterylearning)。这是运用创新型思维,通过实时的评估和定制化的学习办法,有效地办理本杰明提出的著名的“Sigma 2 Problem” 。深度学习系统将学生学习效果数据进行分类,并且在此根本上制订干系的传授教化内容。该系统还可以推举附加练习,并且根据学生个人能力和传授教化哀求,实时推举课程内容,调度传授教化速率 。
北卡罗来纳州州立大学研究员开拓了一种软件,通过摄像头捕捉和剖析学生面部表情,以此改变在线课程。 目前,大多数情绪打算技能还仅仅勾留在学术研究领域。 但也已经有公司开
始运用这项技能,并能成功地分辨学生表情,并根据他们的学习能力和办法,来自动调度适宜的学习内容和环境。英特尔公司正是这个中的一员。有了这些学生表情数据,可以让“Emoshape”这样的情绪打算智能系统,自动剖析情绪,并做出适当回答。这些系统具备理解决个体问题的能力,也使老师能够供应高度个性化的内容来引发学生的学习兴趣。
人工智能和大数据已经匆匆成了大部分行业的技能改造,从电子商务到交通、金融、医疗。人工智能和大数据已经在教诲方面取得进展。 只管有些反对的声音,比如说如何保护学生隐私、如何提高传授教化效率等, 但须要指出的是,这些技能的运用并不是要代替老师,而是扮演赞助老师的角色,识别学生的个体需求,以制订更加智能的传授教化方案。
3、 感情监测
为了深度挖掘人类情绪的奥秘, 美国麻省理工学院打算机科学与人工智能实验室打造了用无线旗子暗记监测感情的 EQ-Radio。在没有身体感应器和面部识别软件赞助的情形下, EQ-Radio通过丈量呼吸和心跳的眇小变革, 利用无线旗子暗记捕捉到一些肉眼不一定能察觉的人类行为,判断一个人到底处于以下四种感情中的哪一种:激动、愉快、生气或者忧伤,精确率高达 87%。美国麻省理工学院教授和该项目的卖力人 Dina Katabi 预测,这个别系会被利用于娱乐、消费者行为和康健照顾护士等方面:电影事情室和广告公司也可以用这个别系来测试不雅观众实时的反应;而在智能家居的环境中,该系统可以通过捕捉与人的心情有关的信息,调节室内温度,或者建议你该当呼吸一些新鲜空气。
现有的感情监控方法大多依赖于视听设备或者是安装在人身上的感应器,这两种技能都有缺点:面部表情并不一定符合内心状态,而安装在身上的感应器(比如胸带和心电监护仪)会造成各种不便,而且一旦它们的位置轻微移动,监测到的数据就禁绝确了。
EQ-Radio 会发送能监测生理信息的无线旗子暗记,该旗子暗记终极会反馈给设备本身。个中的算法可以剖析心跳之间的眇小变革,从而判断人们的感情。悲观感情会被剖断为“忧伤” , 而正面 且飞腾的感情会被剖断为“激动” 。只管这样的丈量会因人而异,但个中还是有内在统一性。通过理解人们处于不同的感情状态下,他们的心跳会如何变革,我们就可以对他所处的感情状态进行有效的判断。
在他们设计的实验中,参与实验者选择他们影象中最能代表激动、愉快、生气、忧伤以及毫无情绪的一段视频或音乐。在节制了这段时长两分钟的视频里的五种感情设置后, EQ-Radio可以精确地通过一个人的行为判断他处于这四种感情中的哪一种。与微软研发的基于视觉和面部表情的 Emotion API 比较, EQ-Radio 在识别喜悦、忧伤和愤怒这三个感情上精确度更高。同时,这两种系统在判断中脾气绪时的精准度差不多,由于毫无感情的脸总是更随意马虎被识别。
目前,对美国麻省理工学院打算机科学与人工智能实验室而言,最艰巨的任务便是摆脱不干系数据的滋扰。比如,为了剖析心率,他们要抑制呼吸可能带来的影响,由于呼吸时,人的肺部起伏比贰心跳时的心脏起伏要大。
▲EQ-Radio 无线旗子暗记监测
3、 医疗康复
近年来,情绪打算利用于自闭症治疗得到越来越多的关注。例如, 美国麻省理工学院情绪打算团队正在开拓天下上第一个可穿着的情绪打算技能设备:一个具有社交智能的假肢,用来实时检测自闭症儿童的情绪, 帮助机器人利用自闭症儿童独占的数据, 来评估这些互动过程中每个孩子的参与度和兴趣。 这个装置用一个小型摄影机,剖析孩子的面部表情和头部运动来推断他们的认知情绪状态。还有一种叫“galvactivator” 的工具,通过丈量穿着者的皮肤电流数据,推断孩子的愉快程度。这个像手套一样的设备可以利用发光二极管描述出人体生理性能亢奋程度的图谱。这种可视化的展现办法,能够清晰地展示出人的认知情绪水平。 NAO 机器人和个性化的机器学习在治疗自闭症患者上也表现出很大的优胜性:
人类治疗师会向孩子展示一张照片或者闪存卡片,用来表示不同的感情,以教会他们如何识别恐怖、 悲哀或喜悦的表情。治疗师随后对机器人进行编程, 向孩子们展示这些相同的感情,并且在孩子与机器人交往时不雅观察孩子。孩子们的行为供应了宝贵的反馈信息,机器人和治疗师可以根据反馈信息连续学习。
研究职员在这项研究中利用了 SoftBank Robotics NAO 类人机器人。 NAO 将近 2 英尺高,类似于装甲超级英雄,通过改变眼睛的颜色、 肢体的运动以及声音的腔调来表达不同的感情。参加这项研究的 35 名自闭症儿童中,有 17 人来自日本, 18 人来自塞尔维亚,年事从 3 岁到 13岁不等。他们在 35 分钟的会议中以各种办法对机器人做出反应,从看起来无聊和困倦,到在房间里愉快地跳来跳去,拍手,大笑或触摸机器人。研究中的大多数孩子对机器人的意见是,它不仅仅是一个玩具,该当尊重 NAO,由于它是一个真实的人。其余,人类用许多不同的办法改变自己的表情,但机器人则通过同样的办法来改变表情,这对孩子来说更加有利,由于孩子可以通过非常有条理的办法学习如何表达表情 。
麻省理工学院的研究小组意识到, 具有深度学习能力的治疗机器人能够更好感知儿童的行为的。深度学习系统利用分层的多层数据处理来处理其任务,每一个连续的层都是对原始数据抽象的表示。
只管自 20 世纪 80 年代以来深度学习的观点已经涌现,但直到最近才有足够的打算能力来实现这种人工智能。深度学习已被用于自动语音和工具识别程序中, 这种运用非常适宜办理面部、 身体和声音等多重特色的问题,从而更好地理解抽象的观点,如儿童的参与感。
对付治疗机器人,研究者构建了一个个性化框架,可以从网络的每个孩子的数据中学习。研究职员拍摄了每个孩子的脸部表情、 头部和身体动作、 姿势和手势, 记录了儿童手腕上显示器的心率、 体温和皮肤汗液反应作为数据。这些机器人的个性化深度学习网络是根据这些视频、音频和生理数据的层次, 针对孩子的自闭症诊断和能力、 文化和性别的信息构建的。研究职员将机器人对儿童行为的估计与五位人类专家的估计数字进行了比较,这些专家连续对孩子的录像和录音进行编码,以确定孩子在会议期间高兴或不安程度,是否感兴趣以及孩子的表现。比较创造,机器人对儿童行为的估计要比专家更加详细清晰。
4、 舆情监控
网络调查法、 统计规则法和文本内容挖掘是三种常常被利用的网络舆情剖析方法。大数据时期的来临使传统的舆情剖析办法发生改变,大数据时期数据量突增、 数据产生的速率极快、冗余信息占比高的特性不仅给舆情剖析带来新的发展机遇, 也带来了新的难度和寻衅。基于大略调查和统计的舆情剖析方法将无法适用于大数据环境下的网络社区文本。当前国内外对舆情剖析技能的研究也大多以大数据环境为背景,与传统舆情剖析技能比较,大数据时期网络社区的舆情剖析技能更多地集中于对数据的获取, 并采纳文本数据剖析、数据挖掘、语义剖析等技能获取舆情信息。 当前国内外的舆情剖析技能研究紧张集中于话题识别与话题跟踪、见地领袖识别以及情绪方向判别这三个方面。
话题识别与话题跟踪首先在文本中识别出新话题, 接下来在一段韶光内检测并实时跟踪话题,实现该话题的再现,研究其随韶光发展的蜕变过程。聚类方法常用于进行话题识别。在国外研究中,话题检测与跟踪(TDT)是理解社交媒体热点话题及其演化过程的主要手段。
见地领袖的创造和识别重点在于评价指标的制订以及模型的构建。例如,曹玖新等将网络社区用户看作一个个节点,根据节点之间信息的交互和传播过滤, 从用户构造、行为和情绪三个特色维度挖掘见地领袖。
情绪方向判别在舆情研究中最为常见,首先网络 web 金融领域的文本数据属性, 接下来构建金融领域的情绪词典, 末了结合语义剖析,将语义规则运用到情绪及情绪强度识别当中,提升了分类器的准确率 M。王永等人将方向剖析运用到客户评论信息挖掘当中,结合情绪词之间的依存关系打算面向产品特色的情绪方向得分,从网络评论中获取有代价的商业信息。国外针对 Twitter 的情绪方向剖析研究居多,用以获取有代价的信息和舆论导向,例如,结合措辞规则特色可以分别获取正面和负面的 Twitter 文章,反应公众的舆情态度。
四、 趋势1、 论文研究发展趋势
Trend analysis(http://trend.aminer.cn)基于 AMiner 的 2 亿篇论文数据进行深入挖掘,包括对技能来源、热度、发展趋势进行研究,进而预测未来的技能前景。技能趋势剖析描述了技能的涌现、变迁和消亡的全过程,可以帮助研究职员理解领域的研究历史和现状,快速识别研究的前沿热点问题。
下图是当前情绪打算领域的热点技能趋势剖析,通过 Trend analysis 剖析挖掘可以创造当前该领域的热点研究话题 Top10 是 Affective Computing、 Social Robot、 Emotion Recognition、 Human Computer Interaction、 Feature Extraction、 Support Vector Machine、 Facial Expression、 Human RobotInteraction、 Behavioural Sciences Computing、 Face Recognition。
▲情绪打算发展趋势
根据Trend analysis的剖析我们可以创造, 该领域当前最热门的话题是Affective Computing,从全局热度来看, Affective Computing 的话题热度虽然有所起伏, 但从 20 世纪 90 年代开始,热度迅速上升,乃至在五年内超过了此前的话题 Top 1 Emotion Recognition, 并且至今其话题热度始终保持在 Top1,论文的揭橥数量也较多; Social Robot 的研究热度跟随 Affective Computing同期上升,近几年话题热度更是超越 Emotion Recognition 成为 Top2 话题;其余,前期比较热门的 Feature Extraction 经由了一段韶光的低迷期后,也回到了 Top3 的位置。
2、 情绪打算技能预见
研究者根据情绪打算领域近十年的干系论文,利用大数据剖析、机器学习、人工智能等技能手段,建立算法模型及研发 demo 系统,剖析挖掘出该领域的技能发展热点。 技能预见图中点的大小表示该技能的热点(紧张由干系论文数量的多少决定,干系论文越多,热度越高,点越大),各技能之间的连线表示 2 个技能关键词同时在 N 篇论文中涌现过(当前 N 的取值为 5)。
▲情绪打算技能预见图
根据情绪打算技能预见图,可以得出情绪打算领域干系度最高的技能有 3 项,分别为: feature extraction、 human computer interaction 和 emotion recognition。
按照技能前沿度,可以列出干系的紧张技能关键词,以及该技能历年的变革趋势(论文揭橥数量变革趋势),及主要代表性成果。详细如下图所示 :
▲情绪打算预测热词图
图 15 中我们可以看出,情绪打算领域预测前沿度比较高的前四热词有: autism spectrumdisorder(前沿度为 1428)、 support vector machine(前沿度为 1096)、 deep learning(前沿度为 1058)和 semantic web(前沿度为 1031)。
智东西认为,如果说目前的传统打算机(包括运用现有智能打算方法的打算机)只包含了反响理性思维(Thinking)的“脑(Brain)”,那么,情绪打算将为该机器增长了具有感性思维(Feeling)的“心(Heart)”(这是运用文学办法对机器进行拟人化比喻。按认知科学讲,感性思维仍源于脑活动)。可以认为,情绪打算是在人工智能理论框架下的一个质的进步。由于从广度上讲它扩展并原谅了情绪智能,从深度上讲情绪智能在人类智能思维与反应中表示了一种更高层次的智能。情绪打算必将为打算机的未来运用展现一种全新的方向。同时,由此引发出来的理论与运用问题会是层出不穷。
本文系作者个人观点,不代表本站立场,转载请注明出处!