AI产品经理必修课:常识图谱的入门与应用_常识_图谱
伴随着环球智好手机销量的首次下滑,移动互联网已经不可避免地步入了下半场。
与此同时,智能音箱销量爆发式增长,ZAO换脸APP刷屏朋友圈……人工智能技能正在越来越深刻地影响人们的日常生活。
作为人工智能领域的核心技能之一,知识图谱已经成为了AI产品经理必须节制的根本技能。
二、什么是知识图谱?1. 什么是知识?
在聊知识图谱之前,我们先大略理解下什么是知识。
下图是在Quora(国外版知乎)上关于信息与知识的比拟图。
信息是凌乱无章的点,而知识相对来说更有逻辑性。在当今这个信息爆炸的时期,知识对人们来说显然更便于理解和影象。
图一,图片出处:https://www.siilo.com/blog/information-vs-knowledge
2. 什么是知识图谱?
知识图谱(Knowledge Graph,简称KG)的观点由Google在2012年5月提出,初衷是希望借助网络多源数据构建的知识库来增强语义搜索的效率和质量。
Google知识图谱团队卖力人Amit Singhal认为,“The world is not made of strings,but is made of things”。
知识图谱的紧张浸染在于以构造化的办法来描述客不雅观天下实体间的繁芜关系。通过在信息与信息之间建立联系,人类更加随意马虎获取自己所须要的知识。
3. 维基百科关于知识图谱的先容
知识图谱是Google用于增强其搜索引擎功能的知识库。
实质上, 知识图谱旨在描述真实天下中存在的各种实体或观点及其关系,其构成了一张巨大的语义网络图,节点表示实体或观点,边则由属性或关系构成。
三、如何构建知识图谱?
知识图谱的构建紧张分为知识体系构建、知识获取、知识领悟、知识存储和检索、知识推理、知识运用六个步骤。
下面是产品视角的知识图谱构建流程图:
1. 知识体系构建(建模)
1.1 定义
知识体系构建,也称为知识建模,是指采纳什么样的办法来表达知识,其核心是构建一个本体对目标知识进行描述。
在这个本体中须要定义出知识的种别体系、每个种别下所属的观点和实体、某类观点和实体所具有的属性以及观点之间、实体之间的语义关系,同时也包括定义在这个本体上的一些推理规则。
知识图谱是随着语义网的发展而涌现的观点。语义网的核心目标是让打算机能够理解文档中的数据,以及数据和数据之间的语义关联关系,从而使得打算机可以自动化、智能化地处理这些信息。
1.2 RDF三元组
语义网技能涉及面较广,这里只先容与知识图谱数据建模紧密干系的核心观点——资源描述框架(RDF)。RDF基本数据模型包括了三个工具类型:资源(resource)、谓词(predicate)以及陈述(statements)。
资源:能够利用RDF表示的工具称之为资源,包括互联网上的实体、事宜和观点等;谓词:谓词紧张描述资源本身的特色和资源之间的关系;陈述:一条陈述包含三个部分,常日称之为RDF三元组(主题:被描述的资源,谓词:可以表示主体的属性,也可以表示主语和宾语之间的关系,宾语:属性值)。知识图谱将三元组(triple)作为知识存储和表示的基本单元。三元组的表现形式有两种:“实体—关系—实体”、“实体—属性—属性值”。
个中每个实体代表现实天下中一个独一无二的工具,并对应全局唯一的ID。
1.3 实例
下图中包含了多组三元组信息:
桃李面包作为一个实体,其属性是公司名称,属性值是桃李面包株式会社;吴志刚作为实体,与桃李面包之间是持股关系,属性值为详细持股比例;吴志刚作为实体,与盛雅莉之间是支属关系,属性值为夫妻。2. 知识获取2.1 目标
知识获取的目标是从海量的文本数据中通过信息抽取的办法获取知识,其方法根据所处理数据源的不同而不同。
2.2 数据类型
知识图谱中数据的紧张来源包括构造化数据、半构造化数据和非构造化数据(纯文本)。
个中,非构造化文本的信息抽取是构建知识图谱的核心技能。
2.3 知识获取的基本任务
实体识别:指从文本中识别实体信息;实体消歧:指肃清指定实体的歧义;关系抽取:指获取两个实体之间的语义关系;事宜抽取:指从描述事宜信息的文本中抽取出用户感兴趣的事宜信息并以构造化的形式呈现出来。3. 知识领悟知识领悟是对不同来源、不同措辞或不同构造的知识进行领悟,从而对已有知识图谱进行补充、更新和去重。
从领悟的工具来看,包括知识体系的领悟和实例的领悟;从领悟的图谱类型来看,可以分为竖直方向的领悟和水平方向的领悟。4. 知识存储知识存储便是研究采纳何种办法将已有知识图谱进行存储。
4.1 存储办法
目前知识图谱大多是基于图的数据构造,存储办法常日采取RDF格式存储和图数据库(Graph Database),前者例如Google开放的Freebase知识图谱,后者例如开源图数据库Neo4j。
4.2 质量评估
有效的质量评估可以对知识的可信度进行量化,通过舍弃置信度较低的知识来保障知识图谱的质量。
4.3 知识更新
(1)更新类型
从逻辑上看,知识图谱的更新包括观点层的更新和数据层的更新。
观点层的更新是指新增数据后得到了新的观点,须要自动将新的观点添加到知识图谱的观点层中。数据层的更新紧张是新增或更新实体、关系、属性值,对数据层进行更新须要考虑数据源的可靠性、数据的同等性等,并选择在各数据源中涌现频率高的事实和属性加入知识库。(2)更新办法
全面更新:指以更新后的全部数据为输入,从零开始构建知识图谱。增量更新:以当前新增数据为输入,向现有知识图谱中添加新增知识。相对而言,前者比较大略,但资源花费大,而后者资源花费小。
5. 知识推理
为理解决数据的不完备性和稀疏性,须要采纳推理的手段创造已有知识中隐含的知识。
目前研究重点在于挖掘两个实体之间隐含的语义关系。
两种推理方法:
基于传统逻辑规则的方法进行推理,其研究热点在于如何自动学习推理规则,以及如何办理推理过程中的规则冲突问题;基于表示学习的推理,即采取学习的办法,将传统推理过程转化为基于分布式表示的语义向量相似度打算任务。四、如何运用知识图谱?伴随着人工智能浪潮,知识图谱已经在搜索引擎、智能问答、推举等领域得到了广泛的运用。
1. 智能搜索(实体关系)
在智能搜索方面,基于知识图谱的搜索引擎,内容存储了大量的实体以及实体韶光的关系,可以根据用户问句准确地返回答案。
下图中,用户讯问马云,机器人便可以准确地给出马云的个人先容。
当存在多个同名的人时,知识图谱可以基于实体唯一ID进行消歧,帮助用户更加准确地定位答案。
2. 自动问答(实体关系推理)
在自动问答方面,可以利用知识图谱中实体及其关系进行推理得到答案。
下图中,百度“马化腾是哪里人?”百度会基于知识图谱直接给出马化腾的出生地。
3. 推举(实体关系)
在推举方面,可以利用知识图谱中实体的关系向用户推举干系的产品。
下图中,用户讯问“科大讯飞市盈率”,机器人通过判断科大讯飞是一只A股的股票,然后给出了相同属性其它实体的推举。
4. 决策支持
知识图谱能够把领域内繁芜知识通过信息抽取、数据挖掘、语音匹配、语义打算、知识推理等过程精确地描述出来,并且可以描述知识的蜕变过程和发展规律,从而为研究和决策供应准确、可追踪、可阐明、可推理的知识数据。
下图中,用户输入Bilibili,天眼查企业图谱便可以准确地返回上市公司股东、董监高、对外投资等完全信息,赞助用户进行决策。
#参考文献#
《智能问答》,段楠,周明
《知识图谱》,赵军,刘康,何世柱,陈玉博
《人工智能产品经理:人机对话系统设计逻辑探究》,朱鹏臻
《自然措辞处理实践:谈天机器人技能事理与运用》,王昊奋,邵浩等
本文由 @Alan 原创发布于大家都是产品经理,未经作者容许,禁止转载。
题图来自Unsplash,基于CC0协议。
本文系作者个人观点,不代表本站立场,转载请注明出处!