首页  思维导图  详情

知识图谱

2024-03-03 20:23:02   138  举报





AI智能生成

思维导图

大数据

算法

作者其他创作

大纲/内容

知识图谱构建技术综述_刘峤

定义

知识图谱．是结构化的语义知识库，用
于以符号形式描述物理世界中的概念及其相互关
系．其基本组成单位是“实体－关系－实体”三元组，以
及实体及其相关属性－值对，实体间通过关系相互联
结，构成网状的知识结构

3层含义

知识图谱本身是一个具有属性的实体通过
关系链接而成的网状知识库．从图的角度来看，知识
图谱在本质上是一种概念网络，其中的节点表示物
理世界的实体（或概念），而实体间的各种语义关系
则构成网络中的边．由此，知识图谱是对物理世界的
一种符号表达

知识图谱的研究价值在于，它是构建在当前
Web基础之上的一层覆盖网络（overlay network），
借助知识图谱，能够在 Web网页之上建立概念间的
链接关系，从而以最小的代价将互联网中积累的信
息组织起来，成为可以被利用的知识．

知识图谱的应用价值在于，它能够改变现有
的信息检索方式，一方面通过推理实现概念检索（相
对于现有的字符串模糊匹配方式而言）；另一方面以
图形化方式向用户展示经过分类整理的结构化知
识，从而使人们从人工过滤网页寻找答案的模式中
解脱出来

架构

逻辑结构

数据层

在知识图谱的数据层，知识以事实（fact）为单位存储在图数据库．如果以“实体－关系－实体”或者“实体－属性－性值”三元组作为事实的基本表达方式，则存储在图数据库中的所有数据将构成庞大的实体关系网络，形成知识的“图谱”．

图数据库

实体-关系-实体

实体-属性-属性值

模式层

模式层在数据层之上，是知识图谱的核心．在模式层存储的是经过提炼的知识，通常采用本体库来管理知识图谱的模式层，借助本体库对公理、规则和约束条件的支持能力来规范实体、关系以及实体的类型和属性等对象之间的联系．本体库在知识图谱中的地位相当于知识库的模具，拥有本体库的知识库冗余知识较少

本体库

技术架构

三种构建方式

自顶向下

先为知识图谱定义好本体与数据模式，再将实体加入到知识库。该构建方式需要利用一些现有的结构化知
识库作为其基础知识库

本体学习

术语抽取

概念抽取

关系抽取

实体学习

实体对齐

实体填充

自底向上（主流）

从一些开放链接数据中提取出实体，选择其中置信度较高的加入到知识库，再构建顶层的本体模式

知识抽取

实体抽取

关系抽取

属性抽取

知识融合

实体对齐（共指消岐）

实体消岐

知识加工

本体构建

知识推理

质量评估

混合构建

知识抽取

实体抽取

基于百科或垂直站点提取

基于规则与词典提取

基于统计学习提取

面向开放域提取

语义类抽取

并列相似度计算

上下位关系计算

语义类生成

属性和属性值抽取

从百科类网站中抽取

从垂直网站中进行包装器归纳

从晚网页表格中提取

利用手工定义或自动生成的模式从句子和查询日志中提取

关系抽取

人工构造语义规则以及模板的方法识别实体关系

统计学习、基于特征向量或核函数的有监督学习方法

面向开放域的信息抽取框架

知识表示

传统的知识表示方法主要是以RDF（Resource Description Framework资源描述框架）的三元组SPO（subject,property,object）来符号性描述实体间的关系。

以深度学习为代表的表示学习技术，可以将实体的语义信息表示为稠密低维实值向量，进而在低维空间中高效计算实体、关系及其之间的复杂语义关联，对知识库的构建、推理、融合以及应用均具有重要的意义

代表模型

距离模型

单层神经网络模型

双线性模型

神经张量模型

矩阵分解模型

翻译模型

知识融合

提取了知识后，由于知识来源广泛，这些知识常常呈现出分散、异构、自治的特点，还有冗余、噪音、不确定、非完备的特征，清洗数据并不能解决这些问题，所以必须对知识进行融合和验证。来自不同知识源的知识在同一框架规范下进行异构数据整合、消歧、加工推理验证、更新等步骤，达到数据、信息、方法、经验以及人的思想融合，形成高质量的知识库。在引入新的知识时，需要判断新知识是否正确，与已有知识是否一致，这里可以用到的证据是权威度、冗余度、多样性、一致性。

实体链接

实体链接（entity linking）是指对于从文本中抽取得到的实体对象，将其链接到知识库中对应的正确实体对象的操作

实体链接的基本思想是首先根据给定的实体指称项，从知识库中选出一组候选实体对象，然后通过相似度计算将指称项链接到正确的实体对象．

实体链接的一般流程是

1）从文本中通过实体抽取得到实体指称项；

2）进行实体消歧和共指消解，判断知识库中的同名实体与之是否代表不同的含义以及知识库中是否存在其他命名实体与之表示相同的含义；

实体消岐

解决同名实体产生歧义问题的技术，通过实体消岐，可以根据当前语境准确地建立实体链接

聚类法

以实体对象为中心将所有指向同一目标实体对象的指称项聚集到以该对象为中心的类别下

关键是如何定义实体对象与指称项之间的相似度，常用的定义方法有四种

空间向量模型

语义模型

社会网络模型

百科知识模型

如何对存在歧义的实体进行重要性评估，以确定推荐内容的优先级

为实体赋予权重，用于表示该实体出现的频率或先验概率

共指消解（又名对象对齐、实体匹配、实体同义）

解决多个指称项对应于同一个实体对象的问题，利用共指消解，可以将这些指称项关联（合并）到正确的实体对象

基于自然语言的共指消解

以句法分析为基础

Hobbs算法

Hobbs算法是最早的代词消解算法之一，主要思路是基于句法分析树进行搜索，因此适用于实体与代词出现在同一句子中的场景，有一定的局限性

向心理论

向心理论的基本思想是：将表达模式（utterance）视为语篇（discourse）的基本组成单元，通过识别表达模式中的实体，可以获得当前和后续语篇中的关注中心（实体），根据语义的局部连贯性和显著性，就可以在语篇中跟踪受关注的实体

基于统计学习的共指消解

分类

（待补充）

聚类

聚类法的基本思想是以实体指称项为中心，通过实体聚类实现指称项与实体对象的匹配

关键是如何确定实体间的相似性测度

两个难题

训练数据的（特征）稀疏性

难以在不同的概念上下文中建立实体关联

３）在确认知识库中对应的正确实体对象之后，将该实体指称项链接到知识库中对应实体

知识合并

在构建知识图谱时，可以从第三方知识库产品或已有结构化数据获取知识输入

1）合并外部数据库

①数据层的融合，包括实体的指称、属性、关系以及所属类别等，主要的问题是如何避免实例以及关系的冲突问题，造成不必要的冗余；

②通过模式层的融合，将新得到的本体融入已有的本体库中

开放数据集成框架（Linked data integration framework，LDIF）

①获取知识

②概念匹配

由于不同本体库中的概念表达使用的词汇可能不同，
因此需要对概念表达方式进行统一化处理；

③实体匹配

由于知识库中有些实体含义相同但是具有不
同的标识符，因此需要对这些实体进行合并处理；

④知识评估

知识融合的最后一步是对新增知识进行验证和评估，以确保知识图谱的内容一致性和准确
性，通常采用的方法是在评估过程中为新加入的知识赋予可信度值，据此进行知识的过滤和融合

2）合并关系数据库

知识加工

本体构建

为了将这些结构化的历史数据融入到知识图谱中，可以采用资源描述框架（RDF）作为数据模型．业界和学术
界将这一数据转换过程形象地称为 RDB2RDF，其实质就是将关系数据库的数据换成 RDF的三元组
数据

本体（ontology）是对概念进行建模的规范，是描述客观世界的抽象模型，以形式化方式对概念及其之间的联系给出明确定义．

本体中反映的知识是一种明确定义的共识

本体是同一领域内的不同主体之间进行交流的语义基础

本体是树状结构，相邻层次的节点（概念）之间具有严格的“IsA”关系，这种单纯的关系有助于知识推理，但却不利于表达概念的多样性

在知识图谱中，本体位于模式层，用于描述概念层次体系是知识库中知识的概念模板

基于数据驱动的本体构建过程

并列相似度计算

实体并列关系相似度是用于考察任意给定的２个实体在多大程度上属于同一概念分类的指标测度，相似度越高，表明这２个实体越有可能属于同一语义类别．所谓并列关系，是相对于纵向的概念隶属关系而言的

两种方法

模式匹配

采用预先定义实体对模式的方式，通过模式匹配取得给定关键字组合在同一语料单位中共同出现的频
率，据此计算实体对之间的相似度．

分布相似度

方法的前提假设是：在相似的上下文环境中频繁出现的实体之间具有语义上的相似性

上下位关系计算

实体上下位关系抽取是用于确定概念之间的隶属（IsA）关系，这种关系也称为上下位关系

基于语法模式（如Hearst模式）抽取IsA实体对

本体的生成

本体生成阶段的主要任务是对各层次得到的概念进行聚类，并对其进行语义类的标定（为该类中的实体指定１个或多个公共上位词）

聚类方法

跨语言知识链接的方法构建本体库

知识推理

所谓知识推理就是通过各种方法获取新的知识或者结论，这些知识和结论满足语义，其具体任务可分为可满足性、分类、实例化。目前知识推理的研究主要集中在针对知识图谱缺失关系的补足，即挖掘两个实体之间隐含的语义关系。

可满足性可体现在本体概念上，即本体可满足性是检查一个本体是否可满足某一个模型定义。例如语义类Man和Woman不可能有交集，
那么不存在一个人Mike既属于Man又属于Woman。

分类的概念可以举如下例子：如果Mother是Women的子集，由于Women是Person子集，那么可以推理得出Mother是Person的子集这个新类别关系。

实例化的例子也可以如上举得，Marry是Mother的实例，由于Mother是Women的子集，那么可知Women需创建一个新的实例。

知识推理是指从知识库中已有的实体关系数据出发，经过计算机推理，建立实体间的新关联，从而拓展和丰富知识网络．知识推理是知识图谱构建的重要手段和关键环节，通过知识推理，能够从现有知识中发现新的知识．

两大类

基于逻辑的推理

一阶谓词逻辑

一阶谓词逻辑建立在命题的基础上，在一阶谓词逻辑中，命题被分解为个体（individuals）和谓词（predication）２部分

个体是指可以客观存在的客体，可以是一个具体的事物，也可以是一个概念

谓词是用来刻画个体性质及事物关系的词

描述逻辑

描述逻辑（description logic）是一种基于对象
的知识表示的形式化工具，是一阶谓词逻辑的子集，
它是本体语言推理的重要设计基础．基于描述逻辑
的知识库一般包含TBox（terminology box）与
ABox(assertion box）

TBox 是用于描述概念之间和关系之间的关系的公理集合

ABox 是描述具体事实的公理集合

基于规则的推理

基于图的推理

基于图的推理方法主要基于神经网络模型或Path Ranking算法．

质量评估

１）受现有技术水平的限制，采用开放域信息抽取技术得到的知识元素有可能存在错误（如实体识别错误、关系抽取错误等），经过知识推理得到的知识的质量同样也是没有保障的，因此在将其加入知识库之前，需要有一个质量评估的过程

２）随着开放关联数据项目的推进，各子项目所产生的知识库产品间的质量差异也在增大，数据间的冲突日益增多，如
何对其质量进行评估，对于全局知识图谱的构建起着重要的作用

引入质量评估的意义在于：可以对知识的可信度进行量化，通过舍弃置信度较低的知识，可以保障知识库的质量．

知识更新

人类所拥有的信息和知识量都是时间的单调递增函数，因此知识图谱的内容也需要与时俱进，其构建过程是一个不断迭代更新的过程

从逻辑上看，知识库的更新包括概念层的更新和数据层的更新

概念层的更新是指新增数据后获得了新的概念，需要自动将新的概念添加到知识库的概念层中

数据层的更新主要是新增或更新实体、关系和属性值，对数据层进行更新需要考虑数据源的可靠性、数据的一致性（是否存在矛盾或冗余等问题）等多方面因素

知识图谱的内容更新有２种方式：数据驱动下的全面更新和增量更新

所谓全面更新是指以更新后的全部数据为输入，从零开始构建知识图谱．这种方式比较简单，但资源消耗大，而且需要耗费大量人力资源进行系统维护

增量更新，则是以当前新增数据为输入，向现有知识图谱中添加新增知识．这种方式资源消耗小，但目前仍需要大量人工干预（定义规则等），因此实施起来十分困难

跨语言知识图谱的构建

意义

１）由于各语种知识分布不均匀，对其进行融合可以有效地弥补单语种知识库的不足

２）可以充分利用多语种在知识表达方式上的互补性，增加知识的覆盖率和共享度

３）构建跨语言知识图谱可以比较不同语言对同一知识的表述，进而达到过滤错误信息，更新过时信息的目的

关键问题

1）跨语言本体的构建

2）跨语言知识抽取

跨语言知识抽取的主要思路是借助于丰富的源语种知识自动化抽取缺失的目标语种知识．

基于翻译的跨语言知识提取模型

该模型首先通过跨语言知识链接和属性对齐的方
式将目标语种的相关内容映射到源语种知识库中
所对应的内容，然后将相关知识翻译为目标语种，
从而实现跨语言的知识抽取

这种方法的主要问题在于：１）受到不同语种间
等价对象的数量以及源语种知识库中结构化信息
（信息框）数量的限制；２）识抽取的质量直接
受机器翻译的质量限制．

3）跨语言知识链接

知识链接是构建跨语言知识图谱需要解决的关键问题之一，其主要思想是将不同语言表示的相同
知识链接起来，包括模式层的链接和数据层的链接．

模式层链接的核心是本体映射（对齐），其内涵是如果２个本体间如果存在语义上的概念关联，则
通过语义关联实现二者之间的映射，本体映射的目的是实现知识的共享和重用

跨语言本体映射研究的目标是实现不同语言的本体库之间的本体映射，当前主流的做法是使用翻
译工具将其中一种语言的本体库翻译成另外一种语言，从而将跨语种本体映射问题转化为单语种本体
映射问题

知识图谱的应用

智能语义搜索

当用户发起查询时，搜索引擎会借助知识图谱的帮助对用户查询的关键字进行解析和推理，进而将其映射到知识图谱中的一个或一组概念之上，然后根据知识图谱中的概念层次结构，向用户返回图形化的知识结构（其中包含指向资源页面的超链接信息），这就是我们在谷歌和百度的搜索结果中看到的知识卡片．

深度问答应用

基于信息检索的问答系统

基于信息检索的问答系统的基本思路是首先将问题转变为一个基于知识库的结构化查询，从知识库中抽取与问题中实体相关的信息来生成多个候选答案，然后再从候选答案中识别出正确答案

基于语义分析的问答系统

基于语义分析的问答系统的基本思路是首先通过语义分析正确理解问题的含义，然后将问题转变为知识库的精确查询，直接找到正确答案．

移动个人助理

问题与挑战

１）在信息抽取环节，面向开放域的信息抽取方法研究还处于起步阶段，部分研究成果虽然在特定（语种、领域、主题等）数据集上取得了较好的结果，但普遍存在算法准确性和召回率低、限制条件多、扩展性不好的问题．因此，要想建成面向全球的知识图谱，第１个挑战来自开放域信息抽取，主要的问题包括实体抽取、关系抽取以及属性抽取．其中，多语种、开放领域的纯文本信息抽取问题是当前面临的重要挑战．

２）在知识融合环节，如何实现准确的实体链接是一个主要挑战．虽然关于实体消歧和共指消解技术的研究已经有很长的历史，然而迄今为止所取得的研究成果距离实际应用还有很大距离．主要的研究问题包括开放域条件下的实体消歧、共指消解、外部知识库融合和关系数据库知识融合等问题．当前受到学术界普遍关注的问题是如何在上下文信息受限（短文本、跨语境、跨领域等）条件下，准确地将从文本中抽取得到的实体正确链接到知识库中对应的实体．

３）知识加工是最具特色的知识图谱技术，同时也是该领域最大的挑战之所在．主要的研究问题包括：本体的自动构建、知识推理技术、知识质量评估手段以及推理技术的应用．目前，本体构建问题的研究焦点是聚类问题，对知识质量评估问题的研究则主要关注建立完善的质量评估技术标准和指标体系．知识推理的方法和应用研究是当前该领域最为困难，同时也是最为吸引人的问题，需要突破现有技术和思维方式的限制，知识推理技术的创新也将对知识图谱的应用产生深远影响．

４）在知识更新环节，增量更新技术是未来的发展方向，然而现有的知识更新技术严重依赖人工干预．可以预见随着知识图谱的不断积累，依靠人工制定更新规则和逐条检视的旧模式将会逐步降低比重，自动化程度将不断提高，如何确保自动化更新的有效性，是该领域面临的又一重大挑战．

５）最具基础研究价值的挑战是如何解决知识的表达、存储与查询问题，这个问题将伴随知识图谱技术发展的始终，对该问题的解决将反过来影响前面提出的挑战和关键问题．当前的知识图谱主要采用图数据库进行存储，在受益于图数据库带来的查询效率的同时，也失去了关系型数据库的优点，如ＳＱＬ语言支持和集合查询效率等．在查询方面，如何处理自然语言查询，对其进行分析推理，翻译成知识图谱可理解的查询表达式以及等价表达式等也都是知识图谱应用需解决的关键问题．

知识图谱技术综述_徐增林

定义

知识图谱是一种揭示实体之间关系的语义网络，可以对现实世界的事物及其相互关系进行形式化地描述

三元组表示形式

是实体集合，是关系集合，代表知识库中的三元组

三元组的基本形式主要包括实体1、关系、实体2和概念、属性、属性值等

实体是知识图谱中最基本的元素

概念主要是指集合、类别、对象类型、事物的种类

属性主要是指对象可能具有的属性、特征、特性、特点以及参数

属性值主要指对象指定属性的值

每个实体(概念的外延)可用一个全局唯一确定的ID来标识，每个属性-属性值对(attribute-value pair，AVP)可用来刻画实体的内在特性，而关系可用来连接两个实体，刻画它们之间的关联

按覆盖范围来分

通用知识图谱

广度，强调融合更多实体，主要应用于智能搜索领域

行业（领域）知识图谱

深度，通常需要依靠特定行业的数据来构建，具有特定的行业意义

架构

逻辑结构

数据层

数据层主要是由一系列的事实组成，而知识将以事实为单位进行存储。如果用(实体1，关系，实体2)、(实体、属性，属性值)这样的三元组来表达事实，可选择图数据库作为存储介质

模式层

模式层构建在数据层之上，主要是通过本体库来规范数据层的一系列事实表达。本体是结构化知识库的概念模板，通过本体库而形成的知识库不仅层次结构较强，并且冗余程度较小

技术结构

两种构建方式

自顶向下

先为知识图谱定义好本体与数据模式，再将实体加入到知识库。该构建方式需要利用一些现有的结构化知
识库作为其基础知识库

本体学习

术语抽取

概念抽取

关系抽取

实体学习

实体对齐

实体填充

自底向上（主流）

从一些开放链接数据中提取出实体，选择其中置信度较高的加入到知识库，再构建顶层的本体模式

知识抽取

实体抽取

关系抽取

属性抽取

知识融合

实体对齐（共指消解）

实体消岐

知识加工

本体构建

知识推理

质量评估

知识抽取

知识抽取主要是面向开放的链接数据，通过自动化的技术抽取出可用的知识单元，知识单元主要包括实体(概念的外延)、关系以及属性3个知识要素，并以此为基础，形成一系列高质量的事实表达，为上层模式层的构建奠定基础。

实体抽取（命名实体学习、命名实体识别）

从原始语料中自动识别出命名实体，最为基础关键的一步

相关方法

基于规则与词典的方法

基于统计机器学习的方法

面向开放域的方法

关系抽取

解决实体间语义链接的问题

属性抽取

知识表示

基于三元组的知识表示形式

其在计算效率、数据稀疏性等方面却面临着诸多问题

以深度学习为代表的表示学习技术

可以将实体的语义信息表示为稠密低维实值向量，进而在低维空间中高效计算实体、关系及其之间的复杂语义关联，对知识库的构建、推理、融合以及应用均具有重要的意义

代表模型

距离模型

单层神经网络模型

双线性模型

神经张量模型

矩阵分解模型

翻译模型

复杂关系模型

知识库中的实体关系类型也可分为1-to-1、1-to-N、N-to-1、N-to-N 4种类型，而复杂关系主要指的是1-to-N、N-to-1、N-to-N的3种关系类型。

多源信息融合

知识融合

知识推理

知识图谱研究综述_黄恒琪

本体与知识图谱的关系

本体描述概念及概念间的关系，是大多数知识图谱的模式层，是知识图谱的概念模型和逻辑基础。

大部分本体不包含过多的实例, 本体实例的填充通常是在本体构建完成以后进行的. 知识图谱更侧重描述实体关系, 在实体层面对本体进行大量的丰富与扩充

本体是知识图谱的抽象表达, 描述知识图谱的上层模式; 知识图谱是本体的实例化, 是基于本体的知识库.

知识表示学习研究进展_刘知远

摘要

人们构建的知识库通常被表示为网络形式，节点代表实体，连边代表实体间的关系．在网络表示
形式下，人们需要设计专门的图算法存储和利用知识库，存在费时费力的缺点，并受到数据稀疏问题的
困扰．最近，以深度学习为代表的表示学习技术受到广泛关注．表示学习旨在将研究对象的语义信息表
示为稠密低维实值向量，知识表示学习则面向知识库中的实体和关系进行表示学习．该技术可以在低维
空间中高效计算实体和关系的语义联系，有效解决数据稀疏问题，使知识获取、融合和推理的性能得到
显著提升．介绍知识表示学习的最新进展，总结该技术面临的主要挑战和可能解决方案，并展望该技术
的未来发展方向与前景．

知识表示学习简介

表示学习基本概念

表示学习的目标是，通过机器学习将研究对象的语义信息表示为稠密低维实值向量

与独热表示的区别

独热表示方案假设所有对象都是相互独立的．也就是说，在独热表示空间中，所有对象的向量都是相互正交的，通过余弦
距离或欧氏距离计算的语义相似度均为０．这显然是不符合实际情况的，会丢失大量有用信息

与独热表示相比，表示学习的向量维度较低，有助于提高计算效率，同时能够充分利用对象间的语义信息，从而有效缓解数据稀疏问题

表示学习的理论基础

表示学习得到的低维向量表示是一种分布式表示（distributed representation）．之所以如此命名，是因为孤立地看向量中的每一维，都没有明确对应的含义；而综合各维形成一个向量，则能够表示对象的语义信息

受到人脑的工作机制启发而来

现实世界中的实体是离散的，不同对象之间有明显的界限．人脑通过大量神经元上的激活和抑制存储这些对象，形成内隐世界

每个单独神经元的激活或抑制并没有明确含义，但是多个神经元的状态则能表示世间万物．受到该工
作机制的启发，分布式表示的向量可以看作模拟人脑的多个神经元，每维对应一个神经元，而向量中的
值对应神经元的激活或抑制状态

基于神经网络这种对离散世界的连续表示机制，人脑具备了高度的学习能力与智能水平．表示学习正是对人脑这一工作机制的模仿

现实世界存在层次结构，这种层次或嵌套的结构反映在人脑中，形成了神经网络的层次结构

表示学习典型应用

知识表示学习是面向知识库中实体和关系的表示学习．通过将实体或关系投影到低维向量空间，我们能够实现对实体和关系的语义信息的表示，可以高效地计算实体、关系及其之间的复杂语义关联．这对知识库的构建、推理与应用均有重要意义．

１）相似度计算．利用实体的分布式表示，我们可以快速计算实体间的语义相似度，这对于自然语言处理和信息检索的很多任务具有重要意义．

２）知识图谱补全．构建大规模知识图谱，需要不断补充实体间的关系．利用知识表示学习模型，可以预测２个实体的关系，这一般称为知识库的链接预测（link prediction），又称为知识图谱补全（knowledge graph completion）．

３）其他应用．知识表示学习已被广泛用于关系抽取、自动问答、实体链指等任务，展现出巨大的应用潜力．随着深度学习在自然语言处理各项重要任务中得到广泛应用，这将为知识表示学习带来更广阔的应用空间．

表示学习主要优点

知识表示学习实现了对实体和关系的分布式表示

１）显著提升计算效率．知识库的三元组表示实际就是基于独热表示的．如前所分析的，在这种表示方式下，需要设计专门的图算法计算实体间的语义和推理关系，计算复杂度高、可扩展性差．而表示学习得到的分布式表示，则能够高效地实现语义相似度计算等操作，显著提升计算效率．

２）有效缓解数据稀疏．由于表示学习将对象投影到统一的低维空间中，使每个对象均对应一个稠密向量，从而有效缓解数据稀疏问题，这主要体现在２个方面．一方面，每个对象的向量均为稠密有值的，因此可以度量任意对象之间的语义相似程度．而基于独热表示的图算法，由于受到大规模知识图谱稀疏特性的影响，往往无法有效计算很多对象之间的语义相似度．另一方面，将大量对象投影到统一空间的过程，也能够将高频对象的语义信息用于帮助低频对象的语义表示，提高低频对象的语义表示的精确性．

３）实现异质信息融合．不同来源的异质信息需要融合为整体，才能得到有效应用．例如，人们构造了大量知识库，这些知识库的构建规范和信息来源均有不同，例如著名的世界知识库有DBPedia，YAGO，Freebase等．大量实体和关系在不同知识库中的名称不同．如何实现多知识库的有机融合，对知识库应用具有重要意义．如果基于网络表示，该任务只能通过设计专门图算法来实现，效果较差，效率低下．而通过设计合理的表示学习模型，将不同来源的对象投影到同一个语义空间中，就能够建立统一的表示空间，实现多知识库的信息融合．此外，当我们在信息检索或自然语言处理中应用知识库时，往往需要计算查询词、句子、文档和知识库实体之间的复杂语义关联．由于这些对象的异质性，计算它们的语义关联往往是棘手问题．而表示学习亦能为异质对象提供统一表示空间，轻而易举实现异质对象之间的语义关联计算．

知识表示学习的主要方法

符号定义

子主题

距离模型

单层神经网络模型

能量模型

双线性模型

张量神经网络模型

矩阵分解模型

翻译模型（TransE模型）

主要挑战和已有解决方法（以TransE模型为代表的）

复杂关系建模

1-1，1-N，N-1，N-N

TransH模型

TransR/CTransR模型

TransD模型

TranSparse模型

TransA模型

TransG模型

KG2E模型

多源信息融合

考虑实体描述的知识表示学习模型，DKRL模型

文本与知识库融合的知识表示模型

关系路径建模

PTransE模型

面向知识图谱的知识推理研究进展_官赛萍

摘要

近年来,随着互联网技术和应用模式的迅猛发展,引发了互联网数据规模的爆炸式增长,其中包含大量有
价值的知识.如何组织和表达这些知识,并对其进行深入计算和分析备受关注.知识图谱作为丰富直观的知识表达方
式应运而生.面向知识图谱的知识推理是知识图谱的研究热点之一,已在垂直搜索、智能问答等应用领域发挥了重
要作用.面向知识图谱的知识推理旨在根据已有的知识推理出新的知识或识别错误的知识.不同于传统的知识推理,
由于知识图谱中知识表达形式的简洁直观、灵活丰富,面向知识图谱的知识推理方法也更加多样化.将从知识推理
的基本概念出发,介绍近年来面向知识图谱知识推理方法的最新研究进展.具体地,根据推理类型划分,将面向知识
图谱的知识推理分为单步推理和多步推理,根据方法的不同,每类又包括基于规则的推理、基于分布式表示的推
理、基于神经网络的推理以及混合推理.详细总结这些方法,并探讨和展望面向知识图谱知识推理的未来研究方向
和前景.

本文研究的面向知识图谱的知识推理是指根据知识图谱中已有的
知识,采用某些方法,推理出新的知识或识别知识图谱中错误的知识

知识图谱补全(knowledge graph completion,knowledge base completion)

连接预测

实体预测

关系预测

属性预测

知识图谱去噪(knowledge graph refinement,knowledge graph cleaning)

知识推理简介

基本概念

知识推理就是利用已知的知识推出新知识的过程

一般来说,知识推理包括两种知识:一种是已知的知识,另一种是由已知的知识推出的新知识.

传统的知识推理

按新判断推出的途径划分

演绎推理

是从一般到个别的推理

归纳推理

是从足够多的事例中归纳出一般性结论的推理过程

默认推理

是在直视不完全的情况下，通过假设某些条件已经具备的而进行推理

按所用知识的确定性划分

确定性推理

确定性推理所用的知识是精确的,并且推出的结论也是确定的

不确定性推理

在不确定性推理中,知识和证据都具有某种程度的不确定性

似然推理

属于概率论

近似推理（模糊推理）

属于模糊逻辑

按推理过程中推出的结论是否单调增加来划分

单调推理

单调推理中,随着推理的向前推进和新知识的加入,推出的结论单调递增,越来越接近最终目标

非单调推理

在推理过程中,随着新知识的加入,非单调推理需要否定已推出的结论,使得推理退回到前面的某一步,重新开始.

按是否运用与问题有关的启发性知识来划分

启发式推理

启发式推理在推理过程中,运用解决问题的策略、技巧和经验,加快推理

非启发式推理

非启发式推理只按照一般的控制逻辑进行推理.

按方法论的角度来划分

基于知识的推理

基于知识的推理根据已掌握的事实,通过运用知识进行推理

统计推理

统计推理根据对事物的统计信息进行推理

直觉推理

直觉推理又称为常识性推理,是根据常识进行的推理.直觉推理依赖于感知经验和具体实例,当逻辑/规则与直觉不一致时,则不考虑这些逻辑/规则

推理方法还可以根据推理的繁简不同,分为简单推理和复合推理

根据结论是否具有必然性,分为必然性推理和或然性推理

根据推理控制方向,分为正向推理、逆向推理、混合推理和双向推理

时间推理、空间推理和案例推理等推理方法

面向知识图谱的知识推理

面向知识图谱的知识推理旨在基于已有的知识图谱事实,推理新的事实或识别错误知识

形式化地说,知识图谱通常用上述(头实体,关系,尾实体)的三元组形式表达事物的属性以及事物之间的语
义关系,其中,事物和属性值作为三元组中的实体,属性和关系作为三元组中的关系.知识图谱补全实际上是给
定三元组中任意两个元素,试图推理出缺失的另外一个元素.也即:给定头实体和关系(关系和尾实体),找出与之
形成有效三元组的尾实体(头实体),也称为实体预测;同理,给定头实体和尾实体,找出与之形成有效三元组的关
系,也称为关系预测.无论实体预测还是关系预测,最后都转化为选择与给定元素形成的三元组更可能有效的实
体/关系作为推理预测结果.这种有效性可以通过规则的方式推理或通过基于特定假设的得分函数计算.而知识
图谱去噪,实际上是在判断三元组的正确与否.因此,虽然知识图谱补全专注于扩充知识图谱,而知识图谱去噪
专注于知识图谱内部已有三元组正确性的判断,但本质上都是评估三元组的有效性

基于传统方法的推理（看不懂）

基于传统规则推理的方法

基于传统规则推理的方法主要借鉴传统知识推理中的规则推理方法,在知识图谱上运用简单规则或统计特征进行推理.

基于本体推理的方法

基于本体推理的方法主要利用更为抽象化的本体层面的频繁模式、约束或路径进行推理

单步推理（看不懂）

定义

单步推理是指用直接关系即知识图谱中的事实元组进行学习和推理

方法

基于规则的推理

基于分布式表示的推理

基于神经网络的推理

混合推理

多步推理（看不懂）

定义

多步推理是在单步推理建模直接关系的基础上进一步建模间接关系,即多步关系.多步关系是一种传递性约束

方法

基于规则的推理

基于分布式表示的推理

基于神经网络的推理

混合推理

典型应用

电力领域知识图谱的构建与应用_蒲天骄、谈元鹏

知识图谱及其应用在电力系统中的应用研究综述_高海翔

知识图谱在智能电网中的应用_王琼

知识图谱在电力领域的应用与研究_刘津

电力设备健康管理知识图谱：基本概念、关键技术及研究进展_李刚

在电力行业的应用

电力调度故障处理

面向电网调度故障处理的知识图谱框架与关键技术初探_乔骥

摘要

为应对愈加复杂的电网安全运行形势，对调度知识体系进行建模、管理与应用，是提升未来电网调度智能化水平
的关键手段之一。该文提出了一种面向电网故障处理辅助决策的知识图谱应用框架，将电网调度操作环节中以大量文本
形式存在的操作规程、处置预案、调度细则等非结构化内容凝练为可表示、可操作、可推理的结构化知识网络。将知识
图谱的构建和应用设计为 5 个层次，包含基础数据层、图谱构建层、信息解析层、推理决策层和人机交互层，并基于电
网故障处理业务场景和需求，将领域知识图谱分为设备实体图谱、概念图谱、业务逻辑图谱和案例图谱等 4 类。之后，
针对各环节的功能实现，分析解决思路与关键技术，从而实现基于知识图谱的故障信息解析判别、智能辅助决策及多维
度的人机交互。最后，对未来知识图谱在电网调度智能辅助决策中的应用和挑战进行了总结和展望。

面向故障处理辅助决策的知识图谱框架

图

五个层次

基础数据层

基础数据层主要包含故障处理所涉及到的各类结构及非(半)结构化数据，作为图谱构建的基础语料

图谱构建层

图谱构建层从语料中提取相关知识，形成结构化的知识网络

信息解析层

信息解析层是对电网调度过程中接收到的实时信号进行解析和结构化表示，并从知识图谱的图数据库中匹配、检索或抽取相关数据和知识

推理决策层

推理决策层是基于长期以来积累的各类调度经验和规则，采用知识推理方法对形成的结构化故障信息进行查询、分析和处理

人机交互层

人机交互层是基于知识图谱推送友好的、可理解的结构化知识，从而进行关键及隐含信息展示与提醒、调度操作校核及历史经验回顾等

关键技术

基础数据与图谱构成

数据类型

结构化数据

电网设备拓扑结构

电网实时运行数据与历史运行数据

地理环境及气象数据

半结构化数据、非结构化数据

包含调度长期以来凝练总结的、以文本形式存储的各类调度操作规程、调度
细则与处置预案、异常处置手册、运行管理规定、历史故障分析报告等

图谱类型

设备实体图谱

设备实体图谱主要包含电网中各类一次或二次设备实体、各实体之间的连接关系以及各实体的属
性，同时设备的电压、功率、频率等属性和连接关系可根据电网实时运行数据进行更新

概念图谱

概念也称为本体，是对实体图谱的抽象，概念图谱更符合人类的思维方式，用以规范和提炼数据层的一系列事实表达，构建的规则、逻辑及案例判断需先在概念层进行操作，再映射至相应的实体图谱进行具体信息匹配

业务逻辑图谱

业务逻辑图谱是从故障处置预案、调度细则、监控处置手册等文本中抽取得到的知识，包含通用
的操作原则、原因分析、处置要点等信息，当故障发生时，可在图谱网络的知识路径中进行相关信息
查询与推理

案例图谱

案例图谱是对每次的故障信息进行记录和保存，并形成结构化的案例库，当有新的事故
发生后，可将案例在概念层进行特征提取并计算案例相似度，从而推送相似案例的处置历史及操作建议。

图谱类型

知识图谱构建技术

知识抽取

实体抽取

关系抽取

属性抽取

知识融合

实体链接

实体消岐

共指消解

知识合并

合并已有数据库（关系型数据库、XML、EXCEL、CSV等）

知识加工

本体构建

实体相似度

实体上下位关系

本体生成

知识推理

质量评估

事件抽取

对于故障处理业务，事件抽取任务以实体、关
系与属性抽取为基础，重点在于对历史故障报告和
数据中的信息进行有效抽取，从而形成结构化案例
图谱。

知识更新

概念层更新

数据层更新

全部更新

增量更新

故障信息知识解析技术

故障信息流获取

故障信息解析

故障信息知识结构化

信息匹配与知识查询

动作逻辑判断与故障信息修正

故障知识推理技术

含义

本文所指的电网故障知识推理任务是进行辅助的逻辑或决策判断，即基于电网设备
实体与概念图谱、业务逻辑图谱、历史案例图谱，根据故障信号解析后的关键信息
流，采用电网运行与控制逻辑、规则和经验知识，进行故障处理操作方式的辅助决策。

逻辑推理

逻辑推理采用逻辑表达式或逻辑方程组对知
识判断进行公式化表示，通过与、或、非等逻辑符
号进行运算来得出结论。

在故障处置过程中，逻辑符号推理的典型应用是对故障信息的解析

通过知识库中存储的设备、开关和保护的控制与动
作逻辑及关联关系，建立信号的逻辑解析模型。

规则推理

产生式规则由前件与后件构成，如果前提满足，则可得到结论或执行相应动作。规则推理属于
演绎推理，是一种较为准确、解释性很强的推理方式，故障处理中的调度操作规程、处置预案中的部
分内容，会以类似于产生式规则的方式进行编写。

案例推理

案例推理将本次电网事故与历史案例库进行相似度计算，通过历史处理经验，给出本次事件的
操作原则或建议，这种经验的总结和类比方法与人类的思维方式较为相似，属于归纳推理

基于分布式表示的知识推理

为了便于统计机器学习的语义计算和操作，出现了分布式知识表示方法(distributional representation)，
能够把知识图谱中的离散符号(实体、关系与属性)用连续型数值向量进行表示，从而高效地计算复杂语义
关联，典型的方法如 RESCAL模型、TransE、TransH等

人机交互技术（在知识图谱的助力下，人机交互技术可在以下几方面得到提升）

信息提示

信息检索与交互

辅助决策提示

风险评价

知识传承

基于知识图谱的故障处理流程

流程图

图

子主题

人工智能应用于电网调控的关键技术分析_闪鑫

摘要

电网调控运行作为电力系统运行的“决策大脑”，是集大量数据、机理分析、运行规程和专业经验相结合的综合性决策控制，与以数据驱动、知识引导为特征的新一代人工智能发展思路和演进方向十分相近。在分析新一代人工智能技术特点、电网调控运行业务场景及需求的基础上，提出了未来基于人工智能的调度控制系统设计思路、总体架构和主要功能，并从高性能计算、调控大数据、基于深度学习的电网预测及辨识、基于知识图谱的智能辅助决策以及基于语音交互的调度助手等方面，对其关键技术和潜在应用场景进行了分析。最后对未来人工智能在电网调控中的发展进行了小结和展望。

人工智能在电网调度领域的应用前景

１）基于历史数据的电网特性及行为分析

２）调控运行知识经验的学习和模拟

未来调控系统智能化的总体设计思路

智能学习系统

实时运行系统

这个也没写啥

基于迁移学习的电网故障处置知识图谱构建及实时辅助决策研究_张锐

摘要

提出了一种基于迁移学习的电网故障处置文本数据的实体识别技术，该技术可以在少量标注的情况下实现较高准确度的实体识别工作，有效地解决了电网领域小样本数据实体识别准确度较低的问题

构建了电网故障处置知识图谱，该图谱将电网调度领域多源异构数据转化为知识，可实现对多故障类型的决策支撑

基于所建立的电网故障处置知识图谱，实现了故障处置实时辅助决策功能，并嵌套进省地协同故障处置引擎应用中

知识抽取

电网运行断面数据

结构化数据

直接抽取

电网故障处置预案

半结构化数据

通过正则表达式以关键词抽取

电网调度控制管理规程

非结构化数据

深度学习

面向电网故障领域基于迁移学习的小样本文本实体识别

对《电网调度管理规程》进行预处理

1）获取可用数据。本文基于电网故障处置知识
图谱实时辅助决策研究的任务，将电网调度控制管
理规程文件转化为一条条的数据，筛选出故障及处
置的规则数据，经去重后共计 395 条数据。

2）确定实体与标签。在调规实体识别中，通
过对调规文本数据和实际应用需求的分析，确定了
文本中需要提取的关键信息：故障现象、故障处置
操作、故障情景 3 类实体。故障现象包含对各类设
备的异常情况描述；故障情景是故障现象所处情景
的补充描述；故障处置操作为相关工作人员对故
障发生后的处置操作。

实体识别模型

双向长短期记忆（bi-directional long short-term
memory，BiLSTM）网络是由前向 LSTM 和后向
LSTM 组合而成。将 2 个 LSTM 的隐藏状态进行
拼接，对前文和后文都具有记忆功能，能够捕捉双向
的语义依赖。在 BiLSTM 网络后加上条件随机场
（conditional random field，CRF）层后，模型则考虑
了上下文标签的约束关系，选择最大概率的符合语
句规则的标注序列结果。

本文基于预训练模型 ERNIE1.0 对调度规程数
据采用通用语言规则的编码，迁移至命名实体识别
下游任务的微调网络 BiLSTM-CRF 中获取调度规
程的标注结果，构建出了面向电网领域的基于迁移
学习的调规实体识别模型（ERNIE-BiLSTM-CRF）

基于故障处置的多元数据融合知识图谱构建与推理方法

知识图谱本体模型构建，自顶向下

变电站设备信息此类结构化数据

采用实体关系模型（entity-relation model，ER）对该类数据进行本体模型设计。

故障预案、调度规程等半结构化数据和非结构化数据

采用自顶向下的构建方式，目前常采用 Protégé 本体构建工具对知识图谱本体模型进行设计

多源异构数据融合的知识图谱构建

实时辅助知识推理技术

基于深度学习和知识图谱的变电站设备故障智能诊断_肖发龙

摘要

基于深度网络与知识图谱技术，提出一种关联变电站设备多模态信息的故障智能诊断方法

利用深度学习技术和知识图谱方法对采集的多模态数据进行知识提取和融合，构建一个多模态信息融合的语义知识图谱

使用 YOLOv4 算法对故障样本聚类并提取先验框参数

将多模态知识图谱和 YOLOv4 视觉检测相结合，应用到变电站场景中，实现变电站设备的自主预警诊断

将知识图谱技术与视觉检测算法相结合为智能巡检领域提供了一种新的高效决策方法

主要贡献

一是利用知识图谱对采集的信息进行统一表征和存储，构建变电站设备及设备故障的知识图谱库

二是利用 YOLOv4检测算法对无人值守变电站设备进行实时检测，将视觉检测方法和知识图谱相结合，使得机器具备与人类似的联想能力，指导精准开展隐患排查

三是提出设备四诊法( 望—视觉检测，闻—拾音检测，问—知识图谱查询，切—红外检测) ，实现变电站设备智能故障诊断

模型设计

模型分为两部分

多模态知识图谱构建及应用

YOLOv4 目标检测算法应用

实现流程

首先，利用知识图谱对采用四诊法采集的多模态场景信息和互联网信息中变电站设备的语义描述信息、属性信息和空间位置信息等进行统一表征和存储

其次，通过 YOLOv4 检测算法对变电站场景中设备进行实时检测

最后，再结合知识图谱进一步辅助检测模型去判别设备类别及是否发生故障，并提出相应防护措施及建议，实现一站式智能化决策

框架图

知识图谱搭建

自顶向下

流程

首先对已采集的信息进行整理，完成对输入语句的分词和标注，通过词向量( word to vector， word2vec ) 和翻译嵌入 ( translating embeddings，TransE) 分别对标注语料进行预训练，生成词向量并根据词向量的余弦相似度来确定实体语义相似程度，实现实体语义的对齐和消歧。

然后将预训练得到的词向量输入到基于 transformer 的双向编码表示条件随机场 ( bidirectional encoder representations from transformers conditional random fields，BEＲT-CＲF) 模型中进行领域命名实体识别，识别出信息中的关键实体以及实体状态，将抽取出来的实体映射到之前构建好的知识本体概念节点当中，从而建立起实体之间关联关系，实现本体框架与数据层之间的映射，在 BEＲT 层获取当前词的上下文信息，在 CＲF 层对上下文之间的关联关系进行更精准地推断。

最后，将当前流行的实体关系抽取模型 BEＲT 与卷积神经网络( convolutional neural networks，CNN) 进行组合，同时引入注意力机制，构建基于 BEＲT-CNNAttention ( bidirectional encoder representations from transformers-convolutional neural networks-attention) 的实体关系抽取模型分析句法中不同词的关系结构，抽取实体间的关系。

YOLOv4 检测模型

介绍了一下

实验

好像只介绍了YOLOv4的图像检测实验效果，没有知识图谱什么事啊

诊断分析如表 4 所示，结合深度学习与知识图
谱，对 4 例故障事件进行分析。首先，通过视觉检测
得到初步的检测结果; 其次，将检测结果作为查询知
识图谱的输入; 最后，通过执行 Cypher 查询，返回诊
断分析结果。

面向知识图谱构建的设备故障文本实体识别方法_田嘉鹏

摘要

电力设备在运行维护中积累了大量包含重要实体信息
的故障文本，然而文本实体边界模糊、术语较多等特点导致
传统实体识别方法训练效率低下，效果难以提升。为此，本
文提出一种新的实体识别方法 I-BRC (integrated algorithm of
BERT based BiRNN with CRF)。该方法采用字嵌入模型将文
本逐字转化为字向量序列以避免分词处理带来的误差累积；
利用循环神经网络与概率图模型对文本的序列特征信息进行
抽取；集成多个单一类型实体识别器分别独立学习不同类型
实体的特征并采用并行预训练机制提升算法训练效率；最后
利用多类型识别器对识别结果进行整合。此外，通过调整单
一类型实体识别器可以灵活机动地应对不同电力设备的实体
识别任务，避免重复训练，节省计算资源。实验表明，所提
出的 I-BRC 仅需 3 次迭代就可收敛，训练效率大幅度提升；
且该模型的 F1值、精确率、召回率分别达到了 88.0%、86.8%
与 89.2%，相比传统模型性能提升了 7.5%~29.3%，验证了本
文所提模型的有效性与可行性。

引言

准确高效地对电力设备故障文本中各类实体信息进行挖掘并加以分析，对设备维护的智能决策起到关键的作用

本文提出了一种新的实体识别算法 I-BRC (integrated algorithm of
BERT based BiRNN with CRF），其实现方法与特点如下所示

1) 采用 BERT 嵌入模型（ bidirectional encoder representation from transformers）对文本
中文字进行嵌入式表示，舍弃分词处理避免误差累积，同时可在文本中任意两个字符之间直接建
立注意力联系，能够更好的理解长句的语义。

2) 集成多个单一类型实体识别器，各自专注于不同类型实体信息的抽取，有效解决了实体边
界模糊的问题，采用并行预训练机制提升了模型训练效率，具有更高的容错率与灵活性。

3) 所有实体识别器均采用双向循环神经网络（bidirectional recurrent neural network, BiRNN）
对文本序列进行特征解析，并用条件随机场概率图模型（conditional random field，CRF）对序列
标注进行约束。

4) 利用多类型实体识别器对所有单一类型实体识别器的结果进行整合，最终抽取出设备文
本中的各类实体信息。

中文电力设备故障文本实体识别

本文将实体识别看作序列标注任务，通过自动标注文本中每个汉字字符来实现
实体信息的抽取与分类，无需事先对文本进行分词处理，有效避免了误差累积

本文采用 BIEO 序列标注法对文本中的实体进行标注。其中，B 代表该字符为一个实体的开始；I 代表该字符在实体的内部；E 代表该字符为一个实体的结束；O 则代表该字符在任意一个实体的外面。

故障文本实体识别算法与流程

本文所提出的 I-BRC 故障文本实体识别算法共包含 3 部分

BERT嵌入层

BERT 嵌入层在文本的任意两个汉字之间构建注意力联系，有效提取字与句的语义特征并将
文本转化为向量序列，使得算法能够充分理解文本信息；

多个单一类别实体识别器

单一类型实体识别器在 CRF 的约束下利用 BiRNN 层分别解析某一特定类型的实体特
征，有效应对实体类型边界模糊的问题，并在工程应用中可以模块化调整；

多类型实体识别器

多类型实体识别器利用卷积神经网络（convolutional neural network, CNN）分析不同识别器识别结果之间的逻辑关
系，并利用分类器对向量序列进行特征解析，最终识别出各类实体信息

框架图

技术介绍

BERT嵌入层结构

双向循环神经网络

随机条件场（CRF）

I-BRC算法及其训练机制

首先利用电力设备故障文本对 BERT 嵌入层模型进行无监督训练，从字与句两个层面让BERT 充分理解故障文本

其次，并行地对多个单一类型实体识别器进行预训练，识别器分别解析不同类型的实体信息以避免其他实体带来的干扰

随后，对多类型实体识别器进行训练，分析各识别器识别结果之间的逻辑关系并进行整合

最后，将训练得到的权重参数导入到 I-BRC 模型中进行微调，实现故障文本的实体识别任务

训练过程

所提实体识别方法的实验验证

面向电力业务数据的命名实体识别_李妍

摘要

电力行业内部会积累规模可观的电力业务数据，自动挖掘电力业务数据中的信息对提升相关
部门业务能力、降低电力行业内巨大运维成本有促进作用。但电力业务数据大多是非结构化数据且
体量庞大繁杂，因此针对如何将电力业务数据中非结构化文本提取出结构化信息这一问题，设计了
基于 Transformer 模型的融合词汇和二元词组特征的命名实体识别模型。在该模型中，通过使用融
合多特征的 BERT 预训练语言模型得到词嵌入表示，并使用 Transformer 模型和条件随机场作为编
码层和解码层，实现电网领域的命名实体识别。通过在电网领域文本的实验表明，所提出的模型在实
体类型识别的准确率为 93.62%，性能优于传统的命名实体识别方法，通过消融实验证明了该命名实
体识别方法的有效性。

引言

神经网络也成为实现命名实体识别的主流方法，其本质是将字符或词映射为词嵌入向量，然后将向量输入具有编码器功能的神经网络，再通过捕捉上下文特征得到每个字符或词的新的表示，最后通过解码器获得准确的标注结果。

与英文命名实体识别不同，中文没有像英文单词用空格分离的分隔符，学者们通常先对文本进行分词然后再进一步处理。

基于以上工作，本文提出一种新的融合词汇和二元词组特征的电力业务数据命名体识别（with lattice bigram-bert transformer CRF，WLB-BTC）模型。

融合词汇和二元词组特征的 NER 架构

架构图

图

流程

首先经过预处理得到电力文本中关于字符的二元词组和词汇特征

然后将这些文本送入 BERT 模型，得到带有语义特征表示的低维稠密词嵌入向量

再将所得的词嵌入向量送入具有多头自注意力机制的
Transformer 中，通过多头自注意力的建模，可以得到
文本序列在不同语义空间的表示，然后采用全连接
的前馈神经网络进行融合，通过有监督训练，可以得
到关于命名实体任务中文本的编码表示

最终采用条件随机场捕捉相邻标签的转移概率和发射概率，
解码使用维特比算法可以更高效的得到更加合理的
包含“政策原则，电力设备，机构单位”在内的命名实
体标签。

技术介绍

词嵌入层

介绍了一下BERT

基于Transformer模型的编码器

基于条件随机场的解码器

实验结果及评价

面向配电网故障处置的知识图谱研究与应用_叶欣智

摘要

知识图谱将配电网现有大量半结构化/非结构化文本数
据关联，提高配电网故障处置效率，但配电网多源异构文本
数据难以用于深度学习模型训练且电力领域文本数据的标注
成本较高。本文采用预训练方法构建深度学习模型对故障处
置数据进行命名实体识别，利用知识图谱技术对数据进行知
识存储和应用，辅助调控人员进行故障处置决策。首先，以
配网设备台账数据、故障处置数据、调度规程数据及配网缺
陷库数据为对象，提出配电网故障处置知识图谱的构建框架
和方法；然后，针对配电网可用于深度学习训练的数据量不
足的问题，采用预训练方法构建了 BERT-BiLSTM-CRF*实体
识别模型，实现了配电网领域非结构化知识的抽取；接着，
设计实验证明了本文所构建模型的有效性，模型的 F1_score
达到 86.3%，准确率 Accuracy 达到 95.16%；最后，利用 Neo4j
图数据库对知识图谱进行高度可视化管理，并给出配电网故
障处置知识图谱的应用流程，有效提高配电网调控人员故障
处置决策效率和处置效果。

引言

本文首先以配网设备台账数据、故障处置数据、调度规程数据及配网缺陷库数据为研究对象，设计配电网故障处置知识图谱的构建框架以及构建方法

然后拟构建BERT-BiLSTM-CRF*模型完成故障处置数据的知识抽取工作

最后，将抽取、整理后的结构化知识利用 Neo4j 图数据库进行信息存储、动态更新和可视化呈现，从而有效辅助配电网调控人员进行故障处置决策

配电网半结构/非结构化的多源数据

配网设备台账数据和配网缺陷库数据

半结构化数据

数据的初始格式满足构建知识图谱的三元组形式，故分别选取设备名称和缺陷
内容作为实体对象，其余部分作为附加属性添加

故障处置数据中的故障情况和故障处理经过及原因部分

非结构化的人工记录文本数据

采用BERT-BiLSTM-CRF*模型对其进行命名实体识别，对识别实体进行知识加工并整理为三元组形式

调度规程数据

非结构化数据化、具有强规则性的文本数据

根据其编写规则可采用“关键词+短文本”的形式人工构建知识图谱

配电网故障处置知识图谱的构建方法

流程

自顶向下

首先根据不同类型数据的结构化特征形成对应的概念模型和规则关系，构建模式层

然后再基于模式层从文本数据中抽取实体，构建相应的数据层

图

知识图谱构建框架

设备拓扑知识图谱可用于故障发生后的相关线路、设备查询，实现故障快速定位

缺陷库知识图谱可辅助故障原因查找，实现故障警示功能

故障预案知识图谱可指导故障发生后操作处理，提供类似历史故障的处置方案

调度规程知识图谱主要包含一般性故障处置原则、调度规则和操作流程，有利于高效、准确、合理地进行故障处置

模式层构建

配网设备台账数据、调度规程数据、故障处置数据、配电网缺陷库数据

以上四种数据的实体、关系、属性等等，给出了示例

数据层构建

配网设备台账数据、调度规程数据、故障处置数据、配电网缺陷库数据

以上四种数据的实体、关系、属性等等，给出了示例

知识抽取

知识融合

知识更新

基于BERT-BiLSTM-CRF*模型的知识抽取

传统的BiLSTM-CRF模型

BERT-BiLSTM-CRF*模型

图

原始输入层

BERT层

BiLSTM 层

Concatenate 特征串联层

CRF 层

算例分析

可视化及应用

基于知识图谱的配电网故障辅助决策研究_王骏东（不看了，太专业）

摘要

调度决策知识存在于调度规程等文本文件、数据库以
及专家经验中，调度员在故障处理时需要依赖大量的专业知
识支撑、历史和实时电网态势感知，并根据情况变化在短时
间内做出最优决策。针对调度知识复杂，调度决策实时性高
等需求，提出了一种基于知识图谱的配电网故障辅助决策方
法，利用电网调度规则、故障预案以及人工经验知识构建
包含调度知识、故障处理知识、业务流程知识的故障调度
知识图谱，构建以电网拓扑结构形成的知识表征，将故障
预案及故障处理案例以事件簇形式进行关联。结合人工智
能标记语言(artificial intelligence markup language，AIML)
和图算法，实现配电网调度故障的辅助知识问答、案例匹
配以及业务推荐等，通过故障反馈信息和实时决策场景完
成多目标的配电网重构策略生成。最后，研发了具有友好
交互性的故障调度辅助决策应用系统，并已在湖南长沙市
配电网在线投运，验证了所提推荐算法及交互策略的有效
性，表明该系统能够给调控人员提供快速、智能、准确的
辅助决策支持。

引言

配电网故障调度知识图谱设计及构建

基于知识图谱的二次设备测试自动配置方法_叶远波

摘要

随着智能变电站的发展，二次设备更新换代频繁且智能化程度不断提升，以往采用手动测试配置的方法已
难以满足工作需求。提出一种基于知识图谱的二次设备自动配置方法。首先，模拟常规测试核心流程，构建基于
测试任务的信息点、基于设备厂家的信息点检索路径以及基于测试配置信息类型的命名实体知识三类知识图谱。
然后，根据测试设备及测试功能，利用所构建的知识图谱检索需配置信息点，确定设备厂家并基于子图匹配信息
路径。采用改进的 BERT 模型计算配置信息点与描述文本之间的相似性，从而完成映射配置。此外，还加入了端
口地址配置数据字符串校验。实验仿真结果表明，基于知识图谱的二次设备测试自动配置方法合理有效，并具有
极高的准确性。

面向智能调控领域的知识图谱构建与应用_余建明

摘要

知识图谱技术作为一种能够描述客观世界中概念、实体间复杂关系的新方法，以强大的知识推理能力被广
泛关注。调度控制中心是电网运行控制的中心枢纽，为了推动智能调控建设，结合知识图谱技术以及调控领域的
具体情况，提出了面向智能调控领域的知识图谱构建方法。进而针对实际调度的需求，提出了用于支撑运行规则
电子化、故障处置、倒闸操作、对话问答等应用场景的知识图谱应用方案。最后，构建了线路故障处置知识图谱，
通过应用表明，所建立的知识图谱能够自动驱动线路故障处置流程，流程判定识别准确率较高，有效地降低了人
工处置风险。

※人工智能技术在电网调控中的应用研究_范士雄

摘要

近年来，以深度学习为代表的先进人工智能技术促进了各行业的智能化发展。电网调控作为人工智能技术应用的
重要领域之一，亟需借鉴互联网思维，充分利用人工智能技术，进一步提升电网调控业务的智能化水平。分析总结了人
工智能技术的发展脉络，重点介绍了引发新一代人工智能技术大跨越的深度学习技术。聚焦大电网调控领域，论述了其
对人工智能技术的需求分析。在此基础上，分析了人工智能技术在电网故障辨识、负荷预测、电网智能辅助决策和人机
交互应用等方面的典型应用场景。最后通过电网故障辨识算例，进行了深度学习技术在电网调控应用的探索，可为调控
业务智能化研究与发展提供有益的参考和借鉴。

知识图谱

电网智能辅助决策

当前电网调度系统在决策环节仍大量依赖于调度人员的个人经验，在实际调度环境下，调度人
员需要依从各类文本形式的稳定、保护及操作规定以及其他文本形式预案中的规程进行决策。然而，
随着电网规模不断扩大以及伴随而来的电网运行特性变化，电网调度运行控制也变得日趋复杂，进
而导致调度人员对于电网的感知能力弱化，以经验和人工分析为主的调控手段在故障处置等方面越
发不足。在上述背景下，若能借助当前成熟的人工智能技术学习文本等形式的调度业务相关知识，在
较短的时间内给出辅助性决策信息，协助调度人员进行故障处置工作，则可有效降低大电网调控决策
和系统失控风险。

客观而言，当前知识图谱技术在电网调控中应用仍处于初级阶段。电网调控知识图谱作为行业知
识图谱有其独特的专业特点，需要较强的电力专业背景才能保证所建立知识图谱的准确性和专业性。

目前关于知识图谱应用于电网调控辅助决策方面的研究与应用均较少。未来电网智能辅助决策更倾
向于依靠构建专业的调度知识图谱，更快速给出处置策略供调度人员参考，进一步提高调度人员驾驭
电网的能力。伴随电网形态和特性不断变化，电网调度机构需要通过机器学习和人工参与的方式不
断迭代提升知识图谱，从而进一步提升调度控制系统辅助决策的智能化水平。

新一代人工智能将给电力调度带来哪些改变_汤必强（报告）

电力调度

作为电力系统的“大脑”，电力调度承担着确保电力系统安全高效经济运行的职责，
其功能主要包括：预测用电负荷，安排发电任务、确定运行方式，监测和分析全系统运行状态，指挥操作、故障处理等

存在问题

一是随着新能源、可控负荷、储能等不断增加，电网运行方式的不确定性日益增加。

二是气象、市场和社会因素对新能源和负荷预测误差的影响越来越明显，电网实际
运行情况与基于传统预测方法的预测结果之间的偏差扩大。

三是“源-网-荷-储”协同运行导致各层级电网调度对象的数量呈指数级增加，监控
信息大幅增长。受制于预测误差、边界条件、优化算法等条件限制，传统的基于优
化建模的经济调度方法或求解时间过长，或难以得出结果，调度人员实时决策的压
力剧增。

四是电力市场下多方主体利益博弈加剧了电力系统运行的不确定性，多方利益平衡
和电力平衡的交集空间变小，实现电力系统最优调度决策的复杂程度增加。

基于知识图谱的调度优化决策

技术攻关人员利用知识图谱技术，构建了电网设备操作、故障处理知识库。应用了知识库的
调度自动化系统可根据电网运行数据和故障信息，主动向调度人员推送电网操作与故障处置预
案，避免人为误操作的发生。相关研究成果已在江苏、福建、冀北电力调度控制中心等得到应用，
提升了调度人员对电网事故的处置能力。团队还利用语音识别、语义理解等技术，结合调度业务
语料，开发了调度语音助手。这一工具目前已在华东电力调度控制分中心和上海、江苏电力调度
控制中心应用，丰富了电力调度人机交互手段，提升了交互效率。

借助知识图谱技术提取和凝练电力调度控制中心常年积累的系统运行数据、调度专业知识和
人工经验，再通过知识搜索和推理，优化调度策略，有助于提升调度策略的有效性和经济性。下
一步可重点在基于知识图谱的电网故障处置成果基础上，把调控领域的知识图谱应用由固定规则
判断提升到先验知识运用，并应用于日前调度计划优化编制等更复杂的调度核心业务，实现由知
识驱动的优化调度辅助决策。

基于混合增强智能的调度控制

基于群体智能的协同调度

调度自动化系统知识图谱的构建与应用_李新鹏

摘要

调度自动化系统的大部分业务知识都零散分布在系统源码、配置文件、数据库和专家的经验里，
无法形象化展示整个系统的业务逻辑。针对调度自动化系统业务关系复杂，业务种类繁多等特点，提出了
一种自底向上和自顶向下相结合的调度自动化系统知识图谱构建方法。通过知识的获取、知识的存储、知
识图谱的展示与应用 3 个步骤，解析结构化和半结构化的数据源，获得调度自动化系统基础平台以及各业
务之间的关联关系，形成系统结构和详细业务知识等信息。构建的调度自动化系统基础平台和业务逻辑知
识图谱，便于对整个系统业务关系的认知，在系统发生故障时，辅助故障分析。

引言

在电力系统中，目前未见关于知识图谱的相关报道。调度自动化系统中的很多知识都是专家的经验，或者以源码、系统文件或者数据的形式零散地分布在系统中，很少有人能够全面掌握所有的业务知识。若仅仅依靠互联网公司基于语义网络的方法，由于缺乏电力专业知识背景，导致建立的知识图谱出现业务不全、准确性不够和专业性不强的问题。

针对调度自动化系统基础平台和应用业务拓扑的特点，本文提出一种自底向上和自顶向下相结合的调度自动化系统知识图谱构建方法。首先采用自底向上的方法构建基础平台的知识图谱，其次采用自顶向下的方法构建业务逻辑知识图谱；再次确定了便于扩展的知识图谱存储结构，最后实现了调度自动化系统业务拓扑关系的可视化展示，为专业运维人员了解调度自动化系统的内部结构和故障辅助分析提供了有力支撑。

调度自动化系统的知识图谱构建方法

图

子主题

本文采用自底向上和自顶向下相结合的方法，构建 D5000 系统基础平台和详细业务逻辑的知识图谱。

D5000 系统基础平台中的业务关系相对固定，各个实体之间的关系清晰明了，只需从各个实体之间的关系总结出本体之间的关系，因而采用自底向上的方式构建知识图谱。D5000 系统的业务逻辑关系复杂，实体较多，需要先抽象出本体之间的关系，然后通过实体学习构建出最终的业务逻辑关系，因此业务逻辑的知识图谱使用自顶向下的方式进行构建。

构建基础平台知识图谱

基础平台的知识图谱采用自底向上的方法进行构建，先从基础平台的数据源中抽取所有的实体及其相关属性，对抽取的数据进行清洗，得到应用管理、进程管理、数据库表、实时库表、权限服务等实体，然后根据实体间相互关系进行分类，抽象出相应的本体关系，构建出基础平台的知识图谱。

构建业务逻辑知识图谱

构建业务逻辑的知识图谱，首先根据 D5000 系统的专家经验和知识，从系统的各个组成部分中抽象出本体和本体之间的关系，其次从各类数据源中获得所有本体的信息，最后根据本体间的关联关系，构建实体的关系，从而形成完整的知识图谱

调度自动化系统的知识图谱存储方法

结构图

子主题

本体定义表：定义了所有的本体信息以及存储各类实体信息的数据库表名。

实体表：实体表是按照本体进行分类存储的，同一类的实体存储在同一张表中。

本体关系定义表：定义不同本体之间所具有的关系

实体关系表：定义 2 个实体之间的关系。知识图谱的内容采用三元组格式＜实体 1，关系，
实体 2＞进行存储，实体 1 和实体 2 的信息存储在实体表中，关系的详细信息存储在本体关系定义
表中，该存储方式避免了在每条实体关系中都存储详细信息而出现的数据冗余或者数据不一致错误。

调度自动化系统知识图谱的应用

电力设备运检处理

电力客服智能问答

基于知识图谱的智能系统在电力行业的应用——陈勇（硕士）

摘要

1、构建电力行业知识图谱

2、设计电力行业知识问答智能系统

3、可视化的BS界面

绪论

存在的问题

1、标准化程度地，无法满足调控统筹管理的需要

2、结构化程度不高，难以自动关联数据

3、公共化程度不高

4、智能化水平不高

5、历史故障信息分析能力不足

国内外研究现状

互联网发展阶段

文档互联，提供相应版面内容供读者阅读

数据互联，提供一种交互方式，用户可以是内容的阅读着也可以是内容的制造者

语义互联，更加注重网络知识的创造者和编辑者，这样能够让网络成为用户需求理解与提供者

知识图谱，是实现语义互联网的核心技术

知识图谱构建关键技术

应用领域

电力行业的应用

关键技术相关理论研究综述

本体理论

本体的定义

本体编辑工具

Protégé 软件

本体构建方法

Methontology

Skeletal Methodolody

IDEF-5

TOVE

循环获取法

七步法（本文）

子主题

语义相似度计算

语义相似度概念

语义相似度计算对于自然语言处理有着关键性的作用，目前语义相似度
计算应用最广泛的是通过构建对应的词向量，然后使用语义距离计算公式进行计
算。而所使用的词向量则是将文本材料中的词频通过某些转换方法构建为向量的
形式，首先计算文本中字的词频应该通过分词技术将文本中的句子分成单独的词。
基于词向量计算词语空间距离的长度，并将此长度表达为对应字或词词的相似度
度量。

目前主要的词向量转换方法为 TF-IDF 方法。TF-IDF 方法是通过计算关键词的占比情况，并比较线性空间中不同单词向量的相似性，计算不同单词的向量相似性有如下方法余弦距离、欧几里得距离和概率分布距离等，本文使用的相似度计算算法是基于余弦算法的。

基于余弦算法的相似度

子主题

知识图谱的构建

知识抽取

抽取内容

实体抽取

关系抽取

属性抽取

数据格式

结构化数据

半结构化数据

非结构化数据

抽取方法

基于机器学习模型的数据抽取

基于句法分析的数据抽取

基于规则的数据抽取

知识融合

实体链接

实体消岐

共指消岐

知识合并

合并各种数据库

知识存储

知识三元组

图数据库

RDF

Web爬虫框架

Scrapy 爬虫框架

问答系统

问答系统基本发展

子主题

问答系统的主要实现方式

基于结构化数据库

基于结构化数据的问答系统实现框架所示为基于结构化数据的问答系统实现方法，主要是通过对问题分析之后，产生对应的查询语句，使用查询语句进入数据库中进行数据查询，最后输出对应的答案给用户。

子主题

基于自由文本

基于自由文本的问答系统实现框架所示为基于自由文本的问答系统实现的基本方法，首先对问题进行处理如问题分类、主题预测、关键词提取等方法，然后通过信息检索在文档库或者网络中进行对应的数据查询检索，最后通过摘要技术输出最终的答案。

子主题

基于问答对

基于问答对的问答系统实现框架所示为基于问答对的问答系统基本实现方法，首先通过将问题使用问题分类处理、关键词提取、关键词扩展等技术对问句进行处理，然后通过问题检索在数据库中的 QA 对中寻找匹配的问句，此过程是一个反复进行的过程，直到最终通过排序算法等技术反馈最佳的答案。

子主题

基本问答系统框架

AnyQ系统框架主要由 Question Analysis、Retrieval、Matching、Re-Rank 等
部分组成，是百度开源的一款面向 FAQ 集合的问答系统框架、文本语义匹配工
具 SimNet 的开源系统，问答系统框架采用了配置化、插件化的设计，各功能均
通过插件形式加入，当前共开放了 20 多种插件。开发者可以使用 AnyQ 系统快
速构建和定制适用于特定业务场景的 FAQ 问答系统，并加速迭代和升级。

AIML 是一种人工智能标记语言，它的全称是 Artificial Intelligence Markup
Language，Artificial Intelligence Markup Language 是一种创建自然语言软件代理
的 XML 语言，其主要有由 Richard Wallace 开发，并通过世界各地的自由软件社
区或基金会进行扩展和补充，最终在 1995 年开始的开发过程，持续到 2002 年最
终完善。

OpenDial主要用于开发语音对话系统，是基于 Java 的，独立于域的工具
包。OpenDial 被开发应用于执行对话管理任务，也可以用于构建完整的对话系
统，它具有的功能如语言理解，语音识别，语音合成以及多模式处理和态势感知
等。OpenDial 的目的是将逻辑和统计方法的优点结合起来进行对话建模。
OpenDial 中所有模块都连接到代表对话状态的中央信息中心（编码为贝叶斯网
络）。可以使用一组插件来连接外部组件，以进行语音识别，解析，语音合成等。

ConvLab是微软美国研究院和清华联合推出了一款开源的多领域端到端
对话系统平台，它包括一系列的可复用组件，比如传统的管道系统（pipline
systems：包括多个独立步骤的对话系统）或者端对端的神经元模型。方便研究者
可以快速使用这些可复用的组件搭建实验模型。同时，ConvLab 还提供了一批标
注好的数据集和用这些数据集训练好的的预训练模型。

同义词词林

电力行业的领域知识图谱构建

电力行业本体构建

电力行业知识抽取

电力行业知识存储

基于知识图谱的电网信息搜索引擎的设计与实现——郭蕴颖（硕士）

基于图数据库的电力系统知识图谱研究与应用——宋厚岩（硕士）

电网信息智能搜索

异构数据管理

智能辅助决策

调度运维、故障诊断、设备运检

1、这三点是相关联的工作，都是一个内容的，电力系统知识图谱目前的应用场景还较为有限，大多是对原有智能系统应用的直接扩展。

电力系统调度的主要工作有预测用电负荷、制订发电计划和运行方式、进行安全监控和安全分析、指挥操作和处理事故。

当前电网调度系统在决策环节仍大量依赖于调度人员的个人经验，在实际调度环境下，调度人员需要依从各类文本形式的稳定、保护及操作规定以及其他文本形式预案中的规程进行决策。然而，随着电网规模不断扩大以及伴随而来的电网运行特性变化，电网调度运行控制也变得日趋复杂，进而导致调度人员对于电网的感知能力弱化，以经验和人工分析为主的调控手段在故障处置等方面越发不足。在上述背景下，若能借助当前成熟的人工智能技术学习文本等形式的调度业务相关知识，在较短的时间内给出辅助性决策信息，协助调度人员进行故障处置工作，则可有效降低大电网调控决策和系统失控风险。

我找不到什么专业的东西来做呀，也找不到什么突破点，就是说技术方面可以找找，但是场景我不知道是什么，也就是说我不知道问题出在什么地方

目前总部在推的工程风险管控系统就是管这块业务，现在流行视频监控，图像识别在这一块有很大发挥空间。

对现有的电力行业系统一点都不了解，而且对知识图谱没有一个形象化的概念，这挺烦的

建设知识图谱的意义

资源优化

电网科技研究

电网数据整合

融合促进电网一张图业务

全生命周期健康管理的多知识图谱融合

促进健康管理数字化转型