人工智能科普 | 常识图谱是什么?_常识_图谱
答题游戏里的题目大多不难,但涉及范围很广,知识、文学、数学、物理、化学、电视剧、动漫等等。
有不少同学答题的时候,身边守着好几个助攻,A卖力算出535+679 的结果,B卖力回答海绵宝宝住的屋子是什么形状。
就算是这样,末了还是败在了“长城到底有多长”这样的问题上。对付此,很多同学调侃说为什么不能多长一个脑袋。
本日就先容一款让大家在游戏里百战百胜的AI能力----知识图谱。
知识图谱是什么?
知识图谱(KnowledgeGraph/Vault)又称为科学知识图谱,在2012年由谷歌宣告提出,开始只是作为谷歌天下知识库的名称,后来由于这个名词太深入民气,便被泛指各种大规模天下知识库或领域知识库。
说大略点,知识图谱便是一张由知识点相互连接而成的语义网络,举个小栗子,提到贤人孔子,我们会想到他处于东周春秋末期,会想到他曾写过《论语》、《春秋》,会想到他所倡导的儒家思想、由此还会想到他的徒弟颜回……
把这一系列画出来,便是一张最大略的知识图谱
如图所示,常日我们会把图1中人物、作品、地点、称为知识图谱中的实体,每个实体可以拥有不同属性,比如师徒、好友等。
通过实体的属性可以将不同的实体建立关联关系,例如:
孔子(实体)---师徒(属性)---颜回(实体)
孔子(实体)----作品(属性)----《论语》(实体)
这些便是知识图谱中的信息抽取,包括实体抽取(NER),关系抽取,属性抽取。
构建一张完全的知识图谱,除了信息抽取之外,多源知识的自动领悟和知识加工同样不必可少。
怎么理解?先来说说多源知识的自动领悟,还是来举个小栗子,大部分同学该当都认识张学友,他不仅是个歌手,也是个演员,我们很随意马虎理解唱《吻别》的张学友,和出演《男人四十》的张学友,是同一个人。
但机器可能没那么随意马虎就判断电影数据里的张学友,便是音乐数据里的张学友。
由于电影数据和音乐数据属于不同的数据源,这时候就须要多源知识的自动领悟,将不同数据源的相同实体用自动华算法将其聚类。
知识加工实在包含2个方面,一是面向知识的表示学习,一是知识的运用。
说大略点,便是机器通过信息抽取和知识领悟,已经搜集到了关于张学友非常详尽的知识,也分清楚了唱《吻别》的张学友,便是出演《男人四十》的张学友。
当我们开始在网上搜索《吻别》这首歌曲时,涌现张学友演唱的吻别,这个从后端打算到前端呈现的过程,便是知识加工,这一个完全的循环便是知识图谱。
没有完备弄懂的同学,可以现搜一下“长城有多长”这个问题,涌现的“21196.18千米”这个精确答案,便是知识图谱。
图片来自于刘知远老师《知识图谱的构建技能综述》一文
知识图谱带你捡币带你飞
说完了知识图谱,相信很多同学对其容纳的知识广度和深度都有了不一样的认知。
但现在如果把知识图谱伪装成AI选手,让它参与答题,那么依旧不能成功捡币。
看到这里,可能很多同学就要问了,班主任把知识图谱说的那样腻害,为啥还不能成功捡币呢?
紧张缘故原由有以下2点
a 数据库的及时更新
这一点用普通的话来讲,叫做追热点。比如我们能够及时吸收并轻易接管“撒币”这个词,并沉醉于这类答题游戏。
我们接管这个新词,玩这个新游戏的时候,便是在随时随地的更新我们的知识储备。
但机器弗成,目前大部分机器更新数据库都须要人类的赞助,由于这一天然劣势,可能会让机器在应对最新的题目时出错。
不过好在这一劣势,正在被机器学习和大数据技能的快速发展给填补起来,机器学习让机器能够实时接管和容纳新的知识,由大数据承载再实时反馈给用户。
b 自然语音理解和处理
我们能够轻易理解“妈妈的妈妈的丈夫”是外公,但机器理解起来可能就没那么随意马虎了,通过干系措辞,推断出实体与实体之间的关系,是目前知识图谱研究的一大难点。
当然自然语音理解这一难点,并不仅仅存在于知识图谱中。
本文系作者个人观点,不代表本站立场,转载请注明出处!