知识图谱
2024-03-03 20:23:02 138 举报
AI智能生成
登录查看完整内容
思维导图
作者其他创作
大纲/内容
知识图谱.是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系.其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体间通过关系相互联结,构成网状的知识结构
知识图谱本身是一个具有属性的实体通过关系链接而成的网状知识库.从图的角度来看,知识图谱在本质上是一种概念网络,其中的节点表示物理世界的实体(或概念),而实体间的各种语义关系则构成网络中的边.由此,知识图谱是对物理世界的一种符号表达
知识图谱的研究价值在于,它是构建在当前Web基础之上的一层覆盖网络(overlay network),借助知识图谱,能够在 Web网页之上建立概念间的链接关系,从而以最小的代价将互联网中积累的信息组织起来,成为可以被利用的知识.
知识图谱的应用价值在于,它能够改变现有的信息检索方式,一方面通过推理实现概念检索(相对于现有的字符串模糊匹配方式而言);另一方面以图形化方式向用户展示经过分类整理的结构化知识,从而使人们从人工过滤网页寻找答案的模式中解脱出来
3层含义
定义
图数据库
实体-关系-实体
实体-属性-属性值
在知识图谱的数据层,知识以事实(fact)为单位存储在图数据库.如果以“实体-关系-实体”或者“实体-属性-性值”三元组作为事实的基本表达方式,则存储在图数据库中的所有数据将构成庞大的实体关系网络,形成知识的“图谱”.
数据层
本体库
模式层在数据层之上,是知识图谱的核心.在模式层存储的是经过提炼的知识,通常采用本体库来管理知识图谱的模式层,借助本体库对公理、规则和约束条件的支持能力来规范实体、关系以及实体的类型和属性等对象之间的联系.本体库在知识图谱中的地位相当于知识库的模具,拥有本体库的知识库冗余知识较少
模式层
逻辑结构
术语抽取
概念抽取
关系抽取
本体学习
实体对齐
实体填充
实体学习
先为知识图谱定义好本体与数据模式,再将实体加入到知识库。该构建方式需要利用一些现有的结构化知识库作为其基础知识库
自顶向下
实体抽取
属性抽取
知识抽取
实体对齐(共指消岐)
实体消岐
知识融合
本体构建
知识推理
质量评估
知识加工
从一些开放链接数据中提取出实体,选择其中置信度较高的加入到知识库,再构建顶层的本体模式
自底向上(主流)
混合构建
三种构建方式
基于百科或垂直站点提取
基于规则与词典提取
基于统计学习提取
面向开放域提取
并列相似度计算
上下位关系计算
语义类生成
语义类抽取
从百科类网站中抽取
从垂直网站中进行包装器归纳
从晚网页表格中提取
利用手工定义或自动生成的模式从句子和查询日志中提取
属性和属性值抽取
人工构造语义规则以及模板的方法识别实体关系
统计学习、基于特征向量或核函数的有监督学习方法
面向开放域的信息抽取框架
以深度学习为代表的表示学习技术,可以将实体的语义信息表示为稠密低维实值向量,进而在低维空间中高效计算实体、关系及其之间的复杂语义关联,对知识库的构建、推理、融合以及应用均具有重要的意义
距离模型
单层神经网络模型
双线性模型
神经张量模型
矩阵分解模型
翻译模型
代表模型
知识表示
提取了知识后,由于知识来源广泛,这些知识常常呈现出分散、异构、自治的特点,还有冗余、噪音、不确定、非完备的特征,清洗数据并不能解决这些问题,所以必须对知识进行融合和验证。来自不同知识源的知识在同一框架规范下进行异构数据整合、消歧、加工推理验证、更新等步骤,达到数据、信息、方法、经验以及人的思想融合,形成高质量的知识库。在引入新的知识时,需要判断新知识是否正确,与已有知识是否一致,这里可以用到的证据是权威度、冗余度、多样性、一致性。
实体链接(entity linking)是指对于从文本中抽取得到的实体对象,将其链接到知识库中对应的正确实体对象的操作
实体链接的基本思想是首先根据给定的实体指称项,从知识库中选出一组候选实体对象,然后通过相似度计算将指称项链接到正确的实体对象.
1)从文本中通过实体抽取得到实体指称项;
解决同名实体产生歧义问题的技术,通过实体消岐,可以根据当前语境准确地建立实体链接
以实体对象为中心将所有指向同一目标实体对象的指称项聚集到以该对象为中心的类别下
空间向量模型
语义模型
社会网络模型
百科知识模型
关键是如何定义实体对象与指称项之间的相似度,常用的定义方法有四种
聚类法
为实体赋予权重,用于表示该实体出现的频率或先验概率
如何对存在歧义的实体进行重要性评估,以确定推荐内容的优先级
解决多个指称项对应于同一个实体对象的问题,利用共指消解,可以将这些指称项关联(合并)到正确的实体对象
以句法分析为基础
Hobbs算法是最早的代词消解算法之一,主要思路是基于句法分析树进行搜索,因此适用于实体与代词出现在同一句子中的场景,有一定的局限性
Hobbs算法
向心理论的基本思想是:将表达模式(utterance)视 为 语 篇(discourse)的基本组成单元,通过识别表达模式中的实体,可以获得当前和后续语篇中的关注中心(实体),根据语义的局部连贯性和显著性,就可以在语篇中跟踪受关注的实体
向心理论
基于自然语言的共指消解
(待补充)
分类
聚类法的基本思想是以实体指称项为中心,通过实体聚类实现指称项与实体对象的匹配
关键是如何确定实体间的相似性测度
聚类
训练数据的(特征)稀疏性
难以在不同的概念上下文中建立实体关联
两个难题
基于统计学习的共指消解
共指消解(又名对象对齐、实体匹配、实体同义)
2)进行实体消歧和共指消解,判断知识库中的同名实体与之是否代表不同的含义以及知识库中是否存在其他命名实体与之表示相同的含义;
3)在确认知识库中对应的正确实体对象之后,将该实体指称项链接到知识库中对应实体
实体链接的一般流程是
实体链接
在构建知识图谱时,可以从第三方知识库产品或已有结构化数据获取知识输入
①数据层的融合,包括实体的指称、属性、关系以及所属类别等,主要的问题是如何避免实例以及关系的冲突问题,造成不必要的冗余;
②通过模式层的融合,将新得到的本体融入已有的本体库中
①获取知识
由于不同本体库中的概念表达使用的词汇可能不同,因此需要对概念表达方式进行统一化处理;
②概念匹配
由于知识库中有些实体含义相同但是具有不同的标识符,因此需要对这些实体进行合并处理;
③实体匹配
知识融合的最后一步是对新增知识进行验证和评估,以确保知识图谱的内容一致性和准确性,通常采用的方法是在评估过程中为新加入的知识赋予可信度值,据此进行知识的过滤和融合
④知识评估
开放数据集成框架(Linked data integration framework,LDIF)
1)合并外部数据库
2)合并关系数据库
知识合并
为了将这些结构化的历史数据融入到知识图谱中,可以采用资源描述框架(RDF)作为数据模型.业界和学术界将这一数据转换过程形象地称为 RDB2RDF,其实质就是将关系数据库的数据换成 RDF的三元组数据
本体(ontology)是对概念进行建模的规范,是描述客观世界的抽象模型,以形式化方式对概念及其之间的联系给出明确定义.
本体中反映的知识是一种明确定义的共识
本体是同一领域内的不同主体之间进行交流的语义基础
本体是树状结构,相邻层次的节点(概 念)之间具有严格的“IsA”关系,这种单纯的关系有助于知识推理,但却不利于表达概念的多样性
在知识图谱中,本体位于模式层,用于描述概念层次体系是知识库中知识的概念模板
实体并列关系相似度是用于考察任意给定的2个实体在多大程度上属于同一概念分类的指标测度,相似度越高,表明这2个实体越有可能属于同一语义类别.所谓并列关系,是相对于纵向的概念隶属关系而言的
采用预先定义实体对模式的方式,通过模式匹配取得给定关键字组合在同一语料单位中共同出现的频率,据此计算实体对之间的相似度.
模式匹配
方法的前提假设是:在相似的上下文环境中频繁出现的实体之间具有语义上的相似性
分布相似度
两种方法
实体上下位关系抽取是用于确定概念之间的隶属(IsA)关系,这种关系也称为上下位关系
基于语法模式(如Hearst模 式)抽取IsA实体对
本体生成阶段的主要任务是对各层次得到的概念进行聚类,并对其进行语义类的标定(为该类中的实体指定1个或多个公共上位词)
聚类方法
本体的生成
基于数据驱动的本体构建过程
跨语言知识链接的方法构建本体库
可满足性可体现在本体概念上,即本体可满足性是检查一个本体是否可满足某一个模型定义。例如语义类Man和Woman不可能有交集,那么不存在一个人Mike既属于Man又属于Woman。
分类的概念可以举如下例子:如果Mother是Women的子集,由于Women是Person子集,那么可以推理得出Mother是Person的子集这个新类别关系。
实例化的例子也可以如上举得,Marry是Mother的实例,由于Mother是Women的子集,那么可知Women需创建一个新的实例。
所谓知识推理就是通过各种方法获取新的知识或者结论,这些知识和结论满足语义,其具体任务可分为可满足性、分类、实例化。目前知识推理的研究主要集中在针对知识图谱缺失关系的补足,即挖掘两个实体之间隐含的语义关系。
知识推理是指从知识库中已有的实体关系数据出发,经过计算机推理,建立实体间的新关联,从而拓展和丰富知识网络.知识推理是知识图谱构建的重要手段和关键环节,通过知识推理,能够从现有知识中发现新的知识.
个体是指可以客观存在的客体,可以是一个具体的事物,也可以是一个概念
谓词是用来刻画个体性质及事物关系的词
一阶谓词逻辑建立在命题的基础上,在一阶谓词逻辑中,命题被分解为个体(individuals)和谓词(predication)2部分
一阶谓词逻辑
TBox 是用于描述概念之间和关系之间的关系的公理集合
ABox 是描述具体事实的公理集合
描述逻辑(description logic)是一种 基 于 对 象的知识表示的形式化工具,是一阶谓词逻辑的子集,它是本体语言推理的重要设计基础.基于描述逻辑的知识库一般包含TBox(terminology box)与ABox(assertion box)
描述逻辑
基于规则的推理
基于逻辑的推理
基于图的推理方法主要基于神经网络模型或Path Ranking算 法.
基于图的推理
两大类
1)受现有技术水平的限制,采用开放域信息抽取技术得到的知识元素有可能存在错误(如实体识别错误、关系抽取错误等),经过知识推理得到的知识的质量同样也是没有保障的,因此在将其加入知识库之前,需要有一个质量评估的过程
2)随着开放关联数据项目的推进,各子项目所产生的知识库产品间的质量差异也在增大,数据间的冲突日益增多,如何对其质量进行评估,对于全局知识图谱的构建起着重要的作用
引入质量评估的意义在于:可以对知识的可信度进行量化,通过舍弃置信度较低的知识,可以保障知识库的质量.
人类所拥有的信息和知识量都是时间的单调递增函数,因此知识图谱的内容也需要与时俱进,其构建过程是一个不断迭代更新的过程
概念层的更新是指新增数据后获得了新的概念,需要自动将新的概念添加到知识库的概念层中
数据层的更新主要是新增或更新实体、关系和属性值,对数据层进行更新需要考虑数据源的可靠性、数据的一致性(是否存在矛盾或冗余等问题)等多方面因素
从逻辑上看,知识库的更新包括概念层的更新和数据层的更新
所谓全面更新是指以更新后的全部数据为输入,从零开始构建知识图谱.这种方式比较简单,但资源消耗大,而且需要耗费大量人力资源进行系统维护
增量更新,则是以当前新增数据为输入,向现有知识图谱中添加新增知识.这种方式资源消耗小,但目前仍需要大量人工干预(定义规则等),因此实施起来十分困难
知识图谱的内容更新有2种方式:数据驱动下的全面更新和增量更新
知识更新
技术架构
架构
1)由于各语种知识分布不均匀,对其进行融合可以有效地弥补单语种知识库的不足
2)可以充分利用多语种在知识表达方式上的互补性,增加知识的覆盖率和共享度
3)构建跨语言知识图谱可以比较不同语言对同一知识的表述,进而达到过滤错误信息,更新过时信息的目的
意义
1)跨语言本体的构建
跨语言知识抽取的主要思路是借助于丰富的源语种知识自动化抽取缺失的目标语种知识.
该模型首先通过跨语言知识链接和属性对齐的方式将目标语种的相关内容映射到源语种知识库中所对应的内容,然后将相关知识翻译为目标语种,从而实现跨语言的知识抽取
这种方法的主要问题在于:1)受到不同语种间等价对象的数量以及源语种知识库中结构化信息(信息框)数量的限制;2)识抽取的质量直接受机器翻译的质量限制.
基于翻译的跨语言知识提取模型
2)跨语言知识抽取
知识链接是构建跨语言知识图谱需要解决的关键问题之一,其主要思想是将不同语言表示的相同知识链接起来,包括模式层的链接和数据层的链接.
模式层链接的核心是本体映射(对齐),其内涵是如果2个本体间如果存在语义上的概念关联,则通过语义关联实现二者之间的映射,本体映射的目的是实现知识的共享和重用
跨语言本体映射研究的目标是实现不同语言的本体库之间的本体映射,当前主流的做法是使用翻译工具将其中一种语言的本体库翻译成另外一种语言,从而将跨语种本体映射问题转化为单语种本体映射问题
3)跨语言知识链接
关键问题
跨语言知识图谱的构建
当用户发起查询时,搜索引擎会借助知识图谱的帮助对用户查询的关键字进行解析和推理,进而将其映射到知识图谱中的一个或一组概念之上,然后根据知识图谱中的概念层次结构,向用户返回图形化的知识结构(其中包含指向资源页面的超链接信息),这就是我们在谷歌和百度的搜索结果中看到的知识卡片.
智能语义搜索
基于信息检索的问答系统的基本思路是首先将问题转变为一个基于知识库的结构化查询,从知识库中抽取与问题中实体相关的信息来生成多个候选答案,然后再从候选答案中识别出正确答案
基于信息检索的问答系统
基于语义分析的问答系统的基本思路是首先通过语义分析正确理解问题的含义,然后将问题转变为知识库的精确查询,直接找到正确答案.
基于语义分析的问答系统
深度问答应用
移动个人助理
知识图谱的应用
1)在信息抽取环节,面向开放域的信息抽取方法研究还处于起步阶段,部分研究成果虽然在特定(语种、领域、主题等)数据集上取得了较好的结果,但普遍存在算法准确性和召回率低、限制条件多、扩展性不好的问题.因此,要想建成面向全球的知识图谱,第1个挑战来自开放域信息抽取,主要的问题包括实体抽取、关系抽取以及属性抽取.其中,多语种、开放领域的纯文本信息抽取问题是当前面临的重要挑战.
2)在知识融合环节,如何实现准确的实体链接是一个主要挑战.虽然关于实体消歧和共指消解技术的研究已经有很长的历史,然而迄今为止所取得的研究成果距离实际应用还有很大距离.主要的研究问题包括开放域条件下的实体消歧、共指消解、外部知识库融合和关系数据库知识融合等问题.当前受到学术界普遍关注的问题是如何在上下文信息受限(短文本、跨语境、跨领域等)条件下,准确地将从文本中抽取得到的实体正确链接到知识库中对应的实体.
3)知识加工是最具特色的知识图谱技术,同时也是该领域最大的挑战之所在.主要的研究问题包括:本体的自动构建、知识推理技术、知识质量评估手段以及推理技术的应用.目前,本体构建问题的研究焦点是聚类问题,对知识质量评估问题的研究则主要关注建立完善的质量评估技术标准和指标体系.知识推理的方法和应用研究是当前该领域最为困难,同时也是最为吸引人的问题,需要突破现有技术和思维方式的限制,知识推理技术的创新也将对知识图谱的应用产生深远影响.
4)在知识更新环节,增量更新技术是未来的发展方向,然而现有的知识更新技术严重依赖人工干预.可以预见随着知识图谱的不断积累,依靠人工制定更新规则和逐条检视的旧模式将会逐步降低比重,自动化程度将不断提高,如何确保自动化更新的有效性,是该领域面临的又一重大挑战.
5)最具基础研究价值的挑战是如何解决知识的表达、存储与查询问题,这个问题将伴随知识图谱技术发展的始终,对该问题的解决将反过来影响前面提出的挑战和关键问题.当前的知识图谱主要采用图数据库进行存储,在受益于图数据库带来的查询效率的同 时,也失去了关系型数据库的优点,如SQL语言支持 和 集 合 查 询 效 率 等.在 查 询 方 面,如何处理自然语言查询,对其进行分析推理,翻译成知识图谱可理解的查询表达式以及等价表达式等也都是知识图谱应用需解决的关键问题.
问题与挑战
知识图谱构建技术综述_刘峤
知识图谱是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述
是实体集合,是关系集合,代表知识库中的三元组
span class=\"equation-text\" contenteditable=\"false\" data-index=\"0\" data-equation=\
实体是知识图谱中最基本的元素
概念主要是指集合、类别、对象类型、事物的种类
属性主要是指对象可能具有的属性、特征、特性、特点以及参数
属性值主要指对象指定属性的值
三元组的基本形式主要包括实体1、关系、实体2和概念、属性、属性值等
每个实体(概念的外延)可用一个全局唯一确定的ID来标识,每个属性-属性值对(attribute-value pair,AVP)可用来刻画实体的内在特性,而关系可用来连接两个实体,刻画它们之间的关联
三元组表示形式
广度,强调融合更多实体,主要应用于智能搜索领域
通用知识图谱
深度,通常需要依靠特定行业的数据来构建,具有特定的行业意义
行业(领域)知识图谱
按覆盖范围来分
数据层主要是由一系列的事实组成,而知识将以事实为单位进行存储。如果用(实体1,关系,实体2)、(实体、属性,属性值)这样的三元组来表达事实,可选择图数据库作为存储介质
模式层构建在数据层之上,主要是通过本体库来规范数据层的一系列事实表达。本体是结构化知识库的概念模板,通过本体库而形成的知识库不仅层次结构较强,并且冗余程度较小
实体对齐(共指消解)
两种构建方式
知识抽取主要是面向开放的链接数据,通过自动化的技术抽取出可用的知识单元,知识单元主要包括实体(概念的外延)、关系以及属性3个知识要素,并以此为基础,形成一系列高质量的事实表达,为上层模式层的构建奠定基础。
从原始语料中自动识别出命名实体,最为基础关键的一步
基于规则与词典的方法
基于统计机器学习的方法
面向开放域的方法
相关方法
实体抽取(命名实体学习、命名实体识别)
解决实体间语义链接的问题
其在计算效率、数据稀疏性等方面却面临着诸多问题
基于三元组的知识表示形式
可以将实体的语义信息表示为稠密低维实值向量,进而在低维空间中高效计算实体、关系及其之间的复杂语义关联,对知识库的构建、推理、融合以及应用均具有重要的意义
以深度学习为代表的表示学习技术
知识库中的实体关系类型也可分为1-to-1、1-to-N、N-to-1、N-to-N 4种类型,而复杂关系主要指的是1-to-N、N-to-1、N-to-N的3种关系类型。
复杂关系模型
多源信息融合
技术结构
知识图谱技术综述_徐增林
本体描述概念及概念间的关系,是大多数知识图谱的模式层,是知识图谱的概念模型和逻辑基础。
本体与知识图谱的关系
知识图谱研究综述_黄恒琪
人们构建的知识库通常被表示为网络形式,节点代表实体,连边代表实体间的关系.在网络表示形式下,人们需要设计专门的图算法存储和利用知识库,存在费时费力的缺点,并受到数据稀疏问题的困扰.最近,以深度学习为代表的表示学习技术受到广泛关注.表示学习旨在将研究对象的语义信息表示为稠密低维实值向量,知识表示学习则面向知识库中的实体和关系进行表示学习.该技术可以在低维空间中高效计算实体和关系的语义联系,有效解决数据稀疏问题,使知识获取、融合和推理的性能得到显著提升.介绍知识表示学习的最新进展,总结该技术面临的主要挑战和可能解决方案,并展望该技术的未来发展方向与前景.
摘要
表示学习的目标是,通过机器学习将研究对象的语义信息表示为稠密低维实值向量
独热表示方案假设所有对象都是相互独立的.也就是说,在独热表示空间中,所有对象的向量都是相互正交的,通过余弦距离或欧氏距离计算的语义相似度均为0.这显然是不符合实际情况的,会丢失大量有用信息
与独热表示相比,表示学习的向量维度较低,有助于提高计算效率,同时能够充分利用对象间的语义信息,从而有效缓解数据稀疏问题
与独热表示的区别
表示学习基本概念
表示学习得到的低维向量表示是一种分布式表示(distributed representation).之所以如此命名,是因为孤立地看向量中的每一维,都没有明确对应的含义;而综合各维形成一个向量,则能够表示对象的语义信息
现实世界中的实体是离散的,不同对象之间有明显的界限.人脑通过大量神经元上的激活和抑制存储这些对象,形成内隐世界
每个单独神经元的激活或抑制并没有明确含义,但是多个神经元的状态则能表示世间万物.受到该工作机制的启发,分布式表示的向量可以看作模拟人脑的多个神经元,每维对应一个神经元,而向量中的值对应神经元的激活或抑制状态
基于神经网络这种对离散世界的连续表示机制,人脑具备了高度的学习能力与智能水平.表示学习正是对人脑这一工作机制的模仿
现实世界存在层次结构,这种层次或嵌套的结构反映在人脑中,形成了神经网络的层次结构
受到人脑的工作机制启发而来
表示学习的理论基础
知识表示学习是面向知识库中实体和关系的表示学习.通过将实体或关系投影到低维向量空间,我们能够实现对实体和关系的语义信息的表示,可以高效地计算实体、关系及其之间的复杂语义关联.这对知识库的构建、推理与应用均有重要意义.
1)相似度计算.利用实体的分布式表示,我们可以快速计算实体间的语义相似度,这对于自然语言处理和信息检索的很多任务具有重要意义.
2)知识图谱补全.构建大规模知识图谱,需要不断补充实体间的关系.利用知识表示学习模型,可以预测2个实体的关系,这一般称为知识库的链接预测(link prediction),又称为知识图谱补全(knowledge graph completion).
3)其他应用.知识表示学习已被广泛用于关系抽取、自动问答、实体链指等任务,展现出巨大的应用潜力.随着深度学习在自然语言处理各项重要任务中得到广泛应用,这将为知识表示学习带来更广阔的应用空间.
表示学习典型应用
知识表示学习实现了对实体和关系的分布式表示
1)显著提升计算效率.知识库的三元组表示实际就是基于独热表示的.如前所分析的,在这种表示方式下,需要设计专门的图算法计算实体间的语义和推理关系,计算复杂度高、可扩展性差.而表示学习得到的分布式表示,则能够高效地实现语义相似度计算等操作,显著提升计算效率.
2)有效缓解数据稀疏.由于表示学习将对象投影到统一的低维空间中,使每个对象均对应一个稠密向量,从而有效缓解数据稀疏问题,这主要体现在2个方面.一方面,每个对象的向量均为稠密有值的,因此可以度量任意对象之间的语义相似程度.而基于独热表示的图算法,由于受到大规模知识图谱稀疏特性的影响,往往无法有效计算很多对象之间的语义相似度.另一方面,将大量对象投影到统一空间的过程,也能够将高频对象的语义信息用于帮助低频对象的语义表示,提高低频对象的语义表示的精确性.
3)实现异质信息融合.不同来源的异质信息需要融合为整体,才能得到有效应用.例如,人们构造了大量知识库,这些知识库的构建规范和信息来源均有不同,例如著名的世界知识库有DBPedia,YAGO,Freebase等.大量实体和关系在不同知识库中的名称不同.如何实现多知识库的有机融合,对知识库应用具有重要意义.如果基于网络表示,该任务只能通过设计专门图算法来实现,效果较差,效率低下.而通过设计合理的表示学习模型,将不同来源的对象投影到同一个语义空间中,就能够建立统一的表示空间,实现多知识库的信息融合.此外,当我们在信息检索或自然语言处理中应用知识库时,往往需要计算查询词、句子、文档和知识库实体之间的复杂语义关联.由于这些对象的异质性,计算它们的语义关联往往是棘手问题.而表示学习亦能为异质对象提供统一表示空间,轻而易举实现异质对象之间的语义关联计算.
表示学习主要优点
知识表示学习简介
子主题
符号定义
能量模型
张量神经网络模型
翻译模型(TransE模型)
知识表示学习的主要方法
1-1,1-N,N-1,N-N
TransH模型
TransR/CTransR模型
TransD模型
TranSparse模型
TransA模型
TransG模型
KG2E模型
复杂关系建模
考虑实体描述的知识表示学习模型,DKRL模型
文本与知识库融合的知识表示模型
PTransE模型
关系路径建模
主要挑战和已有解决方法(以TransE模型为代表的)
知识表示学习研究进展_刘知远
连接预测
实体预测
关系预测
属性预测
知识推理就是利用已知的知识推出新知识的过程
基本概念
是从一般到个别的推理
演绎推理
是从足够多的事例中归纳出一般性结论的推理过程
归纳推理
是在直视不完全的情况下,通过假设某些条件已经具备的而进行推理
默认推理
按新判断推出的途径划分
确定性推理
属于概率论
似然推理
属于模糊逻辑
近似推理(模糊推理)
不确定性推理
按所用知识的确定性划分
单调推理
非单调推理
按推理过程中推出的结论是否单调增加来划分
启发式推理
非启发式推理只按照一般的控制逻辑进行推理.
非启发式推理
按是否运用与问题有关的启发性知识来划分
基于知识的推理
统计推理根据对事物的统计信息进行推理
统计推理
直觉推理
按方法论的角度来划分
时间推理、空间推理和案例推理等推理方法
传统的知识推理
font color=\"#ff0000\
面向知识图谱的知识推理
知识推理简介
基于传统规则推理的方法
基于本体推理的方法主要利用更为抽象化的本体层面的频繁模式、约束或路径进行推理
基于本体推理的方法
基于传统方法的推理(看不懂)
单步推理是指用直接关系即知识图谱中的事实元组进行学习和推理
基于分布式表示的推理
基于神经网络的推理
混合推理
方法
单步推理(看不懂)
多步推理(看不懂)
典型应用
面向知识图谱的知识推理研究进展_官赛萍
电力领域知识图谱的构建与应用_蒲天骄、谈元鹏
知识图谱及其应用在电力系统中的应用研究综述_高海翔
知识图谱在智能电网中的应用_王琼
知识图谱在电力领域的应用与研究_刘津
电力设备健康管理知识图谱:基本概念、关键技术及研究进展_李刚
为应对愈加复杂的电网安全运行形势,对调度知识体系进行建模、管理与应用,是提升未来电网调度智能化水平的关键手段之一。该文提出了一种面向电网故障处理辅助决策的知识图谱应用框架,将电网调度操作环节中以大量文本形式存在的操作规程、处置预案、调度细则等非结构化内容凝练为可表示、可操作、可推理的结构化知识网络。将知识图谱的构建和应用设计为 5 个层次,包含基础数据层、图谱构建层、信息解析层、推理决策层和人机交互层,并基于电网故障处理业务场景和需求,将领域知识图谱分为设备实体图谱、概念图谱、业务逻辑图谱和案例图谱等 4 类。之后,针对各环节的功能实现,分析解决思路与关键技术,从而实现基于知识图谱的故障信息解析判别、智能辅助决策及多维度的人机交互。最后,对未来知识图谱在电网调度智能辅助决策中的应用和挑战进行了总结和展望。
图
基础数据层主要包含故障处理所涉及到的各类结构及非(半)结构化数据,作为图谱构建的基础语料
基础数据层
图谱构建层从语料中提取相关知识,形成结构化的知识网络
图谱构建层
信息解析层是对电网调度过程中接收到的实时信号进行解析和结构化表示,并从知识图谱的图数据库中匹配、检索或抽取相关数据和知识
信息解析层
推理决策层是基于长期以来积累的各类调度经验和规则,采用知识推理方法对形成的结构化故障信息进行查询、分析和处理
推理决策层
人机交互层是基于知识图谱推送友好的、可理解的结构化知识,从而进行关键及隐含信息展示与提醒、调度操作校核及历史经验回顾等
人机交互层
五个层次
面向故障处理辅助决策的知识图谱框架
电网设备拓扑结构
电网实时运行数据与历史运行数据
地理环境及气象数据
结构化数据
包含调度长期以来凝练总结的、以文本形式存储的各类调度操作规程、调度细则与处置预案、异常处置手册、运行管理规定、历史故障分析报告等
半结构化数据、非结构化数据
数据类型
设备实体图谱主要包含电网中各类一次或二次设备实体、各实体之间的连接关系以及各实体的属性,同时设备的电压、功率、频率等属性和连接关系可根据电网实时运行数据进行更新
设备实体图谱
概念也称为本体,是对实体图谱的抽象,概念图谱更符合人类的思维方式,用以规范和提炼数据层的一系列事实表达,构建的规则、逻辑及案例判断需先在概念层进行操作,再映射至相应的实体图谱进行具体信息匹配
概念图谱
业务逻辑图谱是从故障处置预案、调度细则、监控处置手册等文本中抽取得到的知识,包含通用的操作原则、原因分析、处置要点等信息,当故障发生时,可在图谱网络的知识路径中进行相关信息查询与推理
业务逻辑图谱
案例图谱是对每次的故障信息进行记录和保存,并形成结构化的案例库,当有新的事故发生后,可将案例在概念层进行特征提取并计算案例相似度,从而推送相似案例的处置历史及操作建议。
案例图谱
图谱类型
基础数据与图谱构成
共指消解
合并已有数据库(关系型数据库、XML、EXCEL、CSV等)
实体相似度
实体上下位关系
本体生成
对于故障处理业务,事件抽取任务以实体、关系与属性抽取为基础,重点在于对历史故障报告和数据中的信息进行有效抽取,从而形成结构化案例图谱。
事件抽取
概念层更新
数据层更新
全部更新
增量更新
知识图谱构建技术
故障信息流获取
故障信息解析
故障信息知识结构化
信息匹配与知识查询
动作逻辑判断与故障信息修正
故障信息知识解析技术
本文所指的电网故障知识推理任务是进行辅助的逻辑或决策判断,即基于电网设备实体与概念图谱、业务逻辑图谱、历史案例图谱,根据故障信号解析后的关键信息流,采用电网运行与控制逻辑、规则和经验知识,进行故障处理操作方式的辅助决策。
含义
逻辑推理采用逻辑表达式或逻辑方程组对知识判断进行公式化表示,通过与、或、非等逻辑符号进行运算来得出结论。
在故障处置过程中,逻辑符号推理的典型应用是对故障信息的解析
通过知识库中存储的设备、开关和保护的控制与动作逻辑及关联关系,建立信号的逻辑解析模型。
逻辑推理
产生式规则由前件与后件构成,如果前提满足,则可得到结论或执行相应动作。规则推理属于演绎推理,是一种较为准确、解释性很强的推理方式,故障处理中的调度操作规程、处置预案中的部分内容,会以类似于产生式规则的方式进行编写。
规则推理
案例推理将本次电网事故与历史案例库进行相似度计算,通过历史处理经验,给出本次事件的操作原则或建议,这种经验的总结和类比方法与人类的思维方式较为相似,属于归纳推理
案例推理
为了便于统计机器学习的语义计算和操作,出现了分布式知识表示方法(distributional representation),能够把知识图谱中的离散符号(实体、关系与属性)用连续型数值向量进行表示,从而高效地计算复杂语义关联,典型的方法如 RESCAL模型、TransE、TransH等
基于分布式表示的知识推理
故障知识推理技术
信息提示
信息检索与交互
辅助决策提示
风险评价
知识传承
人机交互技术(在知识图谱的助力下,人机交互技术可在以下几方面得到提升)
流程图
基于知识图谱的故障处理流程
关键技术
面向电网调度故障处理的知识图谱框架与关键技术初探_乔骥
电网调控运行作为电力系统运行的“决策大脑”,是集大量数据、机理分析、运行规程和专业经验相结合的综合性决策控制,与以数据驱动、知识引导为特征的新一代人工智能发展思路和演进方向十分相近。在分析新一代人工智能技术特点、电网调控运行业务场景及需求的基础上,提出了未来基于人工智能的调度控制系统设计思路、总体架构和主要功能,并从高性能计算、调控大数据、基于深度学习的电网预测及辨识、基于知识图谱的智能辅助决策以及基于语音交互的调度助手等方面,对其关键技术和潜在应用场景进行了分析。最后对未来人工智能在电网调控中的发展进行了小结和展望。
1)基于历史数据的电网特性及行为分析
2)调控运行知识经验的学习和模拟
人工智能在电网调度领域的应用前景
智能学习系统
实时运行系统
未来调控系统智能化的总体设计思路
这个也没写啥
人工智能应用于电网调控的关键技术分析_闪鑫
提出了一种基于迁移学习的电网故障处置文本数据的实体识别技术,该技术可以在少量标注的情况下实现较高准确度的实体识别工作,有效地解决了电网领域小样本数据实体识别准确度较低的问题
构建了电网故障处置知识图谱,该图谱将电网调度领域多源异构数据转化为知识,可实现对多故障类型的决策支撑
基于所建立的电网故障处置知识图谱,实现了故障处置实时辅助决策功能,并嵌套进省地协同故障处置引擎应用中
直接抽取
电网运行断面数据
通过正则表达式以关键词抽取
半结构化数据
电网故障处置预案
深度学习
非结构化数据
电网调度控制管理规程
1)获取可用数据。本文基于电网故障处置知识图谱实时辅助决策研究的任务,将电网调度控制管理规程文件转化为一条条的数据,筛选出故障及处置的规则数据,经去重后共计 395 条数据。
2)确定实体与标签。在调规实体识别中,通过对调规文本数据和实际应用需求的分析,确定了文本中需要提取的关键信息:故障现象、故障处置操作、故障情景 3 类实体。故障现象包含对各类设备的异常情况描述;故障情景是故障现象所处情景的补充描述;故障处置操作为相关工作人员对故障发生后的处置操作。
对《电网调度管理规程》进行预处理
双向长短期记忆(bi-directional long short-term memory,BiLSTM)网 络 是 由 前 向 LSTM 和后向LSTM 组合而成。将 2 个 LSTM 的隐藏状态进行拼接,对前文和后文都具有记忆功能,能够捕捉双向的语义依赖。在 BiLSTM 网络后加上条件随机场(conditional random field,CRF)层后,模型则考虑了上下文标签的约束关系,选择最大概率的符合语句规则的标注序列结果。
本文基于预训练模型 ERNIE1.0 对调度规程数据采用通用语言规则的编码,迁移至命名实体识别下游任务的微调网络 BiLSTM-CRF 中获取调度规程的标注结果,构建出了面向电网领域的基于迁移学习的调规实体识别模型(ERNIE-BiLSTM-CRF)
实体识别模型
面向电网故障领域基于迁移学习的小样本文本实体识别
采用实体关系模型(entity-relation model,ER)对该类数据进行本体模型设计。
变电站设备信息此类结构化数据
采用自顶向下的构建方式,目前常采用 Protégé 本体构建工具对知识图谱本体模型进行设计
故障预案、调度规程等半结构化数据和非结构化数据
知识图谱本体模型构建,自顶向下
多源异构数据融合的知识图谱构建
实时辅助知识推理技术
基于故障处置的多元数据融合知识图谱构建与推理方法
基于迁移学习的电网故障处置知识图谱构建及实时辅助决策研究_张锐
基于深度网络与知识图谱技术,提出一种关联变电站设备多模态信息的故障智能诊断方法
利用深度学习技术和知识图谱方法对采集的多模态数据进行知识提取和融合,构建一个多模态信息融合的语义知识图谱
使用 YOLOv4 算法对故障样本聚类并提取先验框参数
将多模态知识图谱和 YOLOv4 视觉检测相结合,应用到变电站场景中,实现变电站设备的自主预警诊断
将知识图谱技术与视觉检测算法相结合为智能巡检领域提供了一种新的高效决策方法
一是利用知识图谱对采集的信息进行统一表征和存储,构建变电站设备及设备故障的知识图谱库
二是利用 YOLOv4检测算法对无人值守变电站设备进行实时检测,将视觉检测方法和知识图谱相结合,使得机器具备与人类似的联想能力,指导精准开展隐患排查
三是提出设备四诊法( 望—视觉检测,闻—拾音检测,问—知识图谱查询,切—红外检测) ,实现变电站设备智能故障诊断
主要贡献
多模态知识图谱构建及应用
YOLOv4 目标检测算法应用
模型分为两部分
首先,利用知识图谱对采用四诊法采集的多模态场景信息和互联网信息中变电站设备的语义描述信息、属性信息和空间位置信息等进行统一表征和存储
其次,通过 YOLOv4 检测算法对变电站场景中设备进行实时检测
最后,再结合知识图谱进一步辅助检测模型去判别设备类别及是否发生故障,并提出相应防护措施及建议,实现一站式智能化决策
框架图
实现流程
首先对已采集的信息进行整理,完成对输入语句的分词和标注,通过词向量( word to vector, word2vec ) 和 翻 译 嵌 入 ( translating embeddings,TransE) 分别对标注语料进行预训练,生成词向量并根据词向量的余弦相似度来确定实体语义相似程度,实现实体语义的对齐和消歧。
然后将预训练得到的词向量输入到基于 transformer 的双向编码 表 示 条 件 随 机 场 ( bidirectional encoder representations from transformers conditional random fields,BERT-CRF) 模型中进行领域命名实体识别,识别出信息中的关键实体以及实体状态,将抽取出来的实体映射到之前构建好的知识本体概念节点当中,从而建立起实体之间关联关系,实现本体框架与数据层之间的映射,在 BERT 层获取当前词的上下文信息,在 CRF 层对上下文之间的关联关系进行更精准地推断。
最后,将当前流行的实体关系抽取模型 BERT 与卷积神经网络( convolutional neural networks,CNN) 进行组合,同时引入注意力机制,构建基于 BERT-CNN\u0002Attention ( bidirectional encoder representations from transformers-convolutional neural networks-attention) 的实体关系抽取模型分析句法中不同词的关系结构,抽取实体间的关系。
流程
知识图谱搭建
介绍了一下
YOLOv4 检测模型
好像只介绍了YOLOv4的图像检测实验效果,没有知识图谱什么事啊
诊断分析如表 4 所示,结合深度学习与知识图谱,对 4 例故障事件进行分析。首先,通过视觉检测得到初步的检测结果; 其次,将检测结果作为查询知识图谱的输入; 最后,通过执行 Cypher 查询,返回诊断分析结果。
实验
模型设计
基于深度学习和知识图谱的变电站设备故障智能诊断_肖发龙
电力设备在运行维护中积累了大量包含重要实体信息的故障文本,然而文本实体边界模糊、术语较多等特点导致传统实体识别方法训练效率低下,效果难以提升。为此,本文提出一种新的实体识别方法 I-BRC (integrated algorithm of BERT based BiRNN with CRF)。该方法采用字嵌入模型将文本逐字转化为字向量序列以避免分词处理带来的误差累积;利用循环神经网络与概率图模型对文本的序列特征信息进行抽取;集成多个单一类型实体识别器分别独立学习不同类型实体的特征并采用并行预训练机制提升算法训练效率;最后利用多类型识别器对识别结果进行整合。此外,通过调整单一类型实体识别器可以灵活机动地应对不同电力设备的实体识别任务,避免重复训练,节省计算资源。实验表明,所提出的 I-BRC 仅需 3 次迭代就可收敛,训练效率大幅度提升;且该模型的 F1值、精确率、召回率分别达到了 88.0%、86.8%与 89.2%,相比传统模型性能提升了 7.5%~29.3%,验证了本文所提模型的有效性与可行性。
准确高效地对电力设备故障文本中各类实体信息进行挖掘并加以分析,对设备维护的智能决策起到关键的作用
1) 采 用 BERT 嵌入模型 ( bidirectional encoder representation from transformers)对文本中文字进行嵌入式表示,舍弃分词处理避免误差累积,同时可在文本中任意两个字符之间直接建立注意力联系,能够更好的理解长句的语义。
2) 集成多个单一类型实体识别器,各自专注于不同类型实体信息的抽取,有效解决了实体边界模糊的问题,采用并行预训练机制提升了模型训练效率,具有更高的容错率与灵活性。
4) 利用多类型实体识别器对所有单一类型实体识别器的结果进行整合,最终抽取出设备文本中的各类实体信息。
本文提出了一种新的实体识别算法 I-BRC (integrated algorithm of BERT based BiRNN with CRF),其实现方法与特点如下所示
引言
本文将实体识别看作序列标注任务,通过自动标注文本中每个汉字字符来实现实体信息的抽取与分类,无需事先对文本进行分词处理,有效避免了误差累积
本文采用 BIEO 序列标注法对文本中的实体进行标注。其中,B 代表该字符为一个实体的开始;I 代表该字符在实体的内部;E 代表该字符为一个实体的结束;O 则代表该字符在任意一个实体的外面。
中文电力设备故障文本实体识别
BERT 嵌入层在文本的任意两个汉字之间构建注意力联系,有效提取字与句的语义特征并将文本转化为向量序列,使得算法能够充分理解文本信息;
BERT嵌入层
单一类型实体识别器在 CRF 的约束下利用 BiRNN 层分别解析某一特定类型的实体特征,有效应对实体类型边界模糊的问题,并在工程应用中可以模块化调整;
多个单一类别实体识别器
多类型实体识别器
本文所提出的 I-BRC 故障文本实体识别算法共包含 3 部分
BERT嵌入层结构
双向循环神经网络
随机条件场(CRF)
技术介绍
首先利用电力设备故障文本对 BERT 嵌入层模型进行无监督训练,从字与句两个层面让BERT 充分理解故障文本
其次,并行地对多个单一类型实体识别器进行预训练,识别器分别解析不同类型的实体信息以避免其他实体带来的干扰
随后,对多类型实体识别器进行训练,分析各识别器识别结果之间的逻辑关系并进行整合
最后,将训练得到的权重参数导入到 I-BRC 模型中进行微调,实现故障文本的实体识别任务
训练过程
I-BRC算法及其训练机制
故障文本实体识别算法与流程
所提实体识别方法的实验验证
面向知识图谱构建的设备故障文本实体识别方法_田嘉鹏
电力行业内部会积累规模可观的电力业务数据,自动挖掘电力业务数据中的信息对提升相关部门业务能力、降低电力行业内巨大运维成本有促进作用。但电力业务数据大多是非结构化数据且体量庞大繁杂,因此针对如何将电力业务数据中非结构化文本提取出结构化信息这一问题,设计了基于 Transformer 模型的融合词汇和二元词组特征的命名实体识别模型。在该模型中,通过使用融合多特征的 BERT 预训练语言模型得到词嵌入表示,并使用 Transformer 模型和条件随机场作为编码层和解码层,实现电网领域的命名实体识别。通过在电网领域文本的实验表明,所提出的模型在实体类型识别的准确率为 93.62%,性能优于传统的命名实体识别方法,通过消融实验证明了该命名实体识别方法的有效性。
神经网络也成为实现命名实体识别的主流方法,其本质是将字符或词映射为词嵌入向量,然后将向量输入具有编码器功能的神经网络,再通过捕捉上下文特征得到每个字符或词的新的表示,最后通过解码器获得准确的标注结果。
与英文命名实体识别不同,中文没有像英文单词用空格分离的分隔符,学者们通常先对文本进行分词然后再进一步处理。
基于以上工作,本文提出一种新的融合词汇和二元词组特征的电力业务数据命名体识别(with lattice bigram-bert transformer CRF,WLB-BTC)模型。
架构图
首先经过预处理得到电力文本中关于字符的二元词组和词汇特征
然后将这些文本送入 BERT 模型,得到带有语义特征表示的低维稠密词嵌入向量
再将所得的词嵌入向量送入具有多头自注意力机制的Transformer 中,通过多头自注意力的建模,可以得到文本序列在不同语义空间的表示,然后采用全连接的前馈神经网络进行融合,通过有监督训练,可以得到关于命名实体任务中文本的编码表示
最终采用条件随机场捕捉相邻标签的转移概率和发射概率,解码使用维特比算法可以更高效的得到更加合理的包含“政策原则,电力设备,机构单位”在内的命名实体标签。
介绍了一下BERT
词嵌入层
基于Transformer模型的编码器
基于条件随机场的解码器
融合词汇和二元词组特征的 NER 架构
实验结果及评价
面向电力业务数据的命名实体识别_李妍
知识图谱将配电网现有大量半结构化/非结构化文本数据关联,提高配电网故障处置效率,但配电网多源异构文本数据难以用于深度学习模型训练且电力领域文本数据的标注成本较高。本文采用预训练方法构建深度学习模型对故障处置数据进行命名实体识别,利用知识图谱技术对数据进行知识存储和应用,辅助调控人员进行故障处置决策。首先,以配网设备台账数据、故障处置数据、调度规程数据及配网缺陷库数据为对象,提出配电网故障处置知识图谱的构建框架和方法;然后,针对配电网可用于深度学习训练的数据量不足的问题,采用预训练方法构建了 BERT-BiLSTM-CRF*实体识别模型,实现了配电网领域非结构化知识的抽取;接着,设计实验证明了本文所构建模型的有效性,模型的 F1_score达到 86.3%,准确率 Accuracy 达到 95.16%;最后,利用 Neo4j图数据库对知识图谱进行高度可视化管理,并给出配电网故障处置知识图谱的应用流程,有效提高配电网调控人员故障处置决策效率和处置效果。
本文首先以配网设备台账数据、故障处置数据、调度规程数据及配网缺陷库数据为研究对象,设计配电网故障处置知识图谱的构建框架以及构建方法
然后拟构建BERT-BiLSTM-CRF*模型完成故障处置数据的知识抽取工作
最后,将抽取、整理后的结构化知识利用 Neo4j 图数据库进行信息存储、动态更新和可视化呈现,从而有效辅助配电网调控人员进行故障处置决策
数据的初始格式满足构建知识图谱的三元组形式,故分别选取设备名称和缺陷内容作为实体对象,其余部分作为附加属性添加
配网设备台账数据和配网缺陷库数据
采用BERT-BiLSTM-CRF*模型对其进行命名实体识别,对识别实体进行知识加工并整理为三元组形式
非结构化的人工记录文本数据
故障处置数据中的故障情况和故障处理经过及原因部分
根据其编写规则可采用“关键词+短文本”的形式人工构建知识图谱
非结构化数据化、具有强规则性的文本数据
调度规程数据
配电网半结构/非结构化的多源数据
首先根据不同类型数据的结构化特征形成对应的概念模型和规则关系,构建模式层
然后再基于模式层从文本数据中抽取实体,构建相应的数据层
设备拓扑知识图谱可用于故障发生后的相关线路、设备查询,实现故障快速定位
缺陷库知识图谱可辅助故障原因查找,实现故障警示功能
故障预案知识图谱可指导故障发生后操作处理,提供类似历史故障的处置方案
调度规程知识图谱主要包含一般性故障处置原则、调度规则和操作流程,有利于高效、准确、合理地进行故障处置
知识图谱构建框架
配网设备台账数据、调度规程数据、故障处置数据、配电网缺陷库数据
以上四种数据的实体、关系、属性等等,给出了示例
模式层构建
数据层构建
配电网故障处置知识图谱的构建方法
传统的BiLSTM-CRF模型
BERT-BiLSTM-CRF*模型
原始输入层
BERT层
BiLSTM 层
Concatenate 特征串联层
CRF 层
基于BERT-BiLSTM-CRF*模型的知识抽取
算例分析
可视化及应用
面向配电网故障处置的知识图谱研究与应用_叶欣智
调度决策知识存在于调度规程等文本文件、数据库以及专家经验中,调度员在故障处理时需要依赖大量的专业知识支撑、历史和实时电网态势感知,并根据情况变化在短时间内做出最优决策。针对调度知识复杂,调度决策实时性高等需求,提出了一种基于知识图谱的配电网故障辅助决策方法,利用电网调度规则、故障预案以及人工经验知识构建包含调度知识、故障处理知识、业务流程知识的故障调度知识图谱,构建以电网拓扑结构形成的知识表征,将故障预案及故障处理案例以事件簇形式进行关联。结合人工智能标记语言(artificial intelligence markup language,AIML)和图算法,实现配电网调度故障的辅助知识问答、案例匹配以及业务推荐等,通过故障反馈信息和实时决策场景完成多目标的配电网重构策略生成。最后,研发了具有友好交互性的故障调度辅助决策应用系统,并已在湖南长沙市配电网在线投运,验证了所提推荐算法及交互策略的有效性,表明该系统能够给调控人员提供快速、智能、准确的辅助决策支持。
配电网故障调度知识图谱设计及构建
基于知识图谱的配电网故障辅助决策研究_王骏东(不看了,太专业)
随着智能变电站的发展,二次设备更新换代频繁且智能化程度不断提升,以往采用手动测试配置的方法已难以满足工作需求。提出一种基于知识图谱的二次设备自动配置方法。首先,模拟常规测试核心流程,构建基于测试任务的信息点、基于设备厂家的信息点检索路径以及基于测试配置信息类型的命名实体知识三类知识图谱。然后,根据测试设备及测试功能,利用所构建的知识图谱检索需配置信息点,确定设备厂家并基于子图匹配信息路径。采用改进的 BERT 模型计算配置信息点与描述文本之间的相似性,从而完成映射配置。此外,还加入了端口地址配置数据字符串校验。实验仿真结果表明,基于知识图谱的二次设备测试自动配置方法合理有效,并具有极高的准确性。
基于知识图谱的二次设备测试自动配置方法_叶远波
知识图谱技术作为一种能够描述客观世界中概念、实体间复杂关系的新方法,以强大的知识推理能力被广泛关注。调度控制中心是电网运行控制的中心枢纽,为了推动智能调控建设,结合知识图谱技术以及调控领域的具体情况,提出了面向智能调控领域的知识图谱构建方法。进而针对实际调度的需求,提出了用于支撑运行规则电子化、故障处置、倒闸操作、对话问答等应用场景的知识图谱应用方案。最后,构建了线路故障处置知识图谱,通过应用表明,所建立的知识图谱能够自动驱动线路故障处置流程,流程判定识别准确率较高,有效地降低了人工处置风险。
面向智能调控领域的知识图谱构建与应用_余建明
近年来,以深度学习为代表的先进人工智能技术促进了各行业的智能化发展。电网调控作为人工智能技术应用的重要领域之一,亟需借鉴互联网思维,充分利用人工智能技术,进一步提升电网调控业务的智能化水平。分析总结了人工智能技术的发展脉络,重点介绍了引发新一代人工智能技术大跨越的深度学习技术。聚焦大电网调控领域,论述了其对人工智能技术的需求分析。在此基础上,分析了人工智能技术在电网故障辨识、负荷预测、电网智能辅助决策和人机交互应用等方面的典型应用场景。最后通过电网故障辨识算例,进行了深度学习技术在电网调控应用的探索,可为调控业务智能化研究与发展提供有益的参考和借鉴。
当前电网调度系统在决策环节仍大量依赖于调度人员的个人经验,在实际调度环境下,调度人员需要依从各类文本形式的稳定、保护及操作规定以及其他文本形式预案中的规程进行决策。然而,随着电网规模不断扩大以及伴随而来的电网运行特性变化,电网调度运行控制也变得日趋复杂,进而导致调度人员对于电网的感知能力弱化,以经验和人工分析为主的调控手段在故障处置等方面越发不足。在上述背景下,若能借助当前成熟的人工智能技术学习文本等形式的调度业务相关知识,在较短的时间内给出辅助性决策信息,协助调度人员进行故障处置工作,则可有效降低大电网调控决策和系统失控风险。
客观而言,当前知识图谱技术在电网调控中应用仍处于初级阶段。电网调控知识图谱作为行业知识图谱有其独特的专业特点,需要较强的电力专业背景才能保证所建立知识图谱的准确性和专业性。
目前关于知识图谱应用于电网调控辅助决策方面的研究与应用均较少。未来电网智能辅助决策更倾向于依靠构建专业的调度知识图谱,更快速给出处置策略供调度人员参考,进一步提高调度人员驾驭电网的能力。伴随电网形态和特性不断变化,电网调度机构需要通过机器学习和人工参与的方式不断迭代提升知识图谱,从而进一步提升调度控制系统辅助决策的智能化水平。
电网智能辅助决策
知识图谱
※人工智能技术在电网调控中的应用研究_范士雄
作为电力系统的“大脑”,电力调度承担着确保电力系统安全高效经济运行的职责,其功能主要包括:预测用电负荷,安排发电任务、确定运行方式,监测和分析全系统运行状态,指挥操作、故障处理等
一是随着新能源、可控负荷、储能等不断增加,电网运行方式的不确定性日益增加。二是气象、市场和社会因素对新能源和负荷预测误差的影响越来越明显,电网实际运行情况与基于传统预测方法的预测结果之间的偏差扩大。三是“源-网-荷-储”协同运行导致各层级电网调度对象的数量呈指数级增加,监控信息大幅增长。受制于预测误差、边界条件、优化算法等条件限制,传统的基于优化建模的经济调度方法或求解时间过长,或难以得出结果,调度人员实时决策的压力剧增。四是电力市场下多方主体利益博弈加剧了电力系统运行的不确定性,多方利益平衡和电力平衡的交集空间变小,实现电力系统最优调度决策的复杂程度增加。
存在问题
技术攻关人员利用知识图谱技术,构建了电网设备操作、故障处理知识库。应用了知识库的调度自动化系统可根据电网运行数据和故障信息,主动向调度人员推送电网操作与故障处置预案,避免人为误操作的发生。相关研究成果已在江苏、福建、冀北电力调度控制中心等得到应用,提升了调度人员对电网事故的处置能力。团队还利用语音识别、语义理解等技术,结合调度业务语料,开发了调度语音助手。这一工具目前已在华东电力调度控制分中心和上海、江苏电力调度控制中心应用,丰富了电力调度人机交互手段,提升了交互效率。
借助知识图谱技术提取和凝练电力调度控制中心常年积累的系统运行数据、调度专业知识和人工经验,再通过知识搜索和推理,优化调度策略,有助于提升调度策略的有效性和经济性。下一步可重点在基于知识图谱的电网故障处置成果基础上,把调控领域的知识图谱应用由固定规则判断提升到先验知识运用,并应用于日前调度计划优化编制等更复杂的调度核心业务,实现由知识驱动的优化调度辅助决策。
基于知识图谱的调度优化决策
基于混合增强智能的调度控制
基于群体智能的协同调度
电力调度
新一代人工智能将给电力调度带来哪些改变_汤必强(报告)
调度自动化系统的大部分业务知识都零散分布在系统源码、配置文件、数据库和专家的经验里,无法形象化展示整个系统的业务逻辑。针对调度自动化系统业务关系复杂,业务种类繁多等特点,提出了一种自底向上和自顶向下相结合的调度自动化系统知识图谱构建方法。通过知识的获取、知识的存储、知识图谱的展示与应用 3 个步骤,解析结构化和半结构化的数据源,获得调度自动化系统基础平台以及各业务之间的关联关系,形成系统结构和详细业务知识等信息。构建的调度自动化系统基础平台和业务逻辑知识图谱,便于对整个系统业务关系的认知,在系统发生故障时,辅助故障分析。
在电力系统中,目前未见关于知识图谱的相关报道。调度自动化系统中的很多知识都是专家的经验,或者以源码、系统文件或者数据的形式零散地分布在系统中,很少有人能够全面掌握所有的业务知识。若仅仅依靠互联网公司基于语义网络的方法,由于缺乏电力专业知识背景,导致建立的知识图谱出现业务不全、准确性不够和专业性不强的问题。
针对调度自动化系统基础平台和应用业务拓扑的特点,本文提出一种自底向上和自顶向下相结合的调度自动化系统知识图谱构建方法。首先采用自底向上的方法构建基础平台的知识图谱,其次采用自顶向下的方法构建业务逻辑知识图谱;再次确定了便于扩展的知识图谱存储结构,最后实现了调度自动化系统业务拓扑关系的可视化展示,为专业运维人员了解调度自动化系统的内部结构和故障辅助分析提供了有力支撑。
D5000 系统基础平台中的业务关系相对固定,各个实体之间的关系清晰明了,只需从各个实体之间的关系总结出本体之间的关系,因而采用自底向上的方式构建知识图谱。D5000 系统的业务逻辑关系复杂,实体较多,需要先抽象出本体之间的关系,然后通过实体学习构建出最终的业务逻辑关系,因此业务逻辑的知识图谱使用自顶向下的方式进行构建。
本文采用自底向上和自顶向下相结合的方法,构建 D5000 系统基础平台和详细业务逻辑的知识图谱。
基础平台的知识图谱采用自底向上的方法进行构建,先从基础平台的数据源中抽取所有的实体及其相关属性,对抽取的数据进行清洗,得到应用管理、进程管理、数据库表、实时库表、权限服务等实体,然后根据实体间相互关系进行分类,抽象出相应的本体关系,构建出基础平台的知识图谱。
构建基础平台知识图谱
构建业务逻辑的知识图谱,首先根据 D5000 系统的专家经验和知识,从系统的各个组成部分中抽象出本体和本体之间的关系,其次从各类数据源中获得所有本体的信息,最后根据本体间的关联关系,构建实体的关系,从而形成完整的知识图谱
构建业务逻辑知识图谱
调度自动化系统的知识图谱构建方法
结构图
本体定义表:定义了所有的本体信息以及存储各类实体信息的数据库表名。
实体表:实体表是按照本体进行分类存储的,同一类的实体存储在同一张表中。
本体关系定义表:定义不同本体之间所具有的关系
实体关系表:定义 2 个实体之间的关系。知识图谱的内容采用三元组格式<实体 1,关系,实体 2>进行存储,实体 1 和实体 2 的信息存储在实体表中,关系的详细信息存储在本体关系定义表中,该存储方式避免了在每条实体关系中都存储详细信息而出现的数据冗余或者数据不一致错误。
调度自动化系统的知识图谱存储方法
调度自动化系统知识图谱的应用
调度自动化系统知识图谱的构建与应用_李新鹏
电力调度故障处理
电力设备运检处理
1、构建电力行业知识图谱
2、设计电力行业知识问答智能系统
3、可视化的BS界面
1、标准化程度地,无法满足调控统筹管理的需要
2、结构化程度不高,难以自动关联数据
3、公共化程度不高
4、智能化水平不高
5、历史故障信息分析能力不足
存在的问题
文档互联,提供相应版面内容供读者阅读
数据互联,提供一种交互方式,用户可以是内容的阅读着也可以是内容的制造者
语义互联,更加注重网络知识的创造者和编辑者,这样能够让网络成为用户需求理解与提供者
互联网发展阶段
知识图谱构建关键技术
应用领域
电力行业的应用
知识图谱,是实现语义互联网的核心技术
国内外研究现状
绪论
本体的定义
Protégé 软件
本体编辑工具
Methontology
Skeletal Methodolody
IDEF-5
TOVE
循环获取法
七步法(本文)
本体构建方法
本体理论
语义相似度计算对于自然语言处理有着关键性的作用,目前语义相似度计算应用最广泛的是通过构建对应的词向量,然后使用语义距离计算公式进行计算。而所使用的词向量则是将文本材料中的词频通过某些转换方法构建为向量的形式,首先计算文本中字的词频应该通过分词技术将文本中的句子分成单独的词。基于词向量计算词语空间距离的长度,并将此长度表达为对应字或词词的相似度度量。
目前主要的词向量转换方法为 TF-IDF 方法。TF-IDF 方法是通过计算关键词的占比情况,并比较线性空间中不同单词向量的相似性,计算不同单词的向量相似性有如下方法余弦距离、欧几里得距离和概率分布距离等,本文使用的相似度计算算法是基于余弦算法的。
语义相似度概念
基于余弦算法的相似度
语义相似度计算
抽取内容
数据格式
基于机器学习模型的数据抽取
基于句法分析的数据抽取
基于规则的数据抽取
抽取方法
共指消岐
合并各种数据库
知识三元组
RDF
知识存储
知识图谱的构建
Scrapy 爬虫框架
Web爬虫框架
问答系统基本发展
基于结构化数据的问答系统实现框架所示为基于结构化数据的问答系统实现方法,主要是通过对问题分析之后,产生对应的查询语句,使用查询语句进入数据库中进行数据查询,最后输出对应的答案给用户。
基于结构化数据库
基于自由文本的问答系统实现框架所示为基于自由文本的问答系统实现的基本方法,首先对问题进行处理如问题分类、主题预测、关键词提取等方法,然后通过信息检索在文档库或者网络中进行对应的数据查询检索,最后通过摘要技术输出最终的答案。
基于自由文本
基于问答对的问答系统实现框架所示为基于问答对的问答系统基本实现方法,首先通过将问题使用问题分类处理、关键词提取、关键词扩展等技术对问句进行处理,然后通过问题检索在数据库中的 QA 对中寻找匹配的问句,此过程是一个反复进行的过程,直到最终通过排序算法等技术反馈最佳的答案。
基于问答对
问答系统的主要实现方式
AnyQ系统框架主要由 Question Analysis、Retrieval、Matching、Re-Rank 等部分组成,是百度开源的一款面向 FAQ 集合的问答系统框架、文本语义匹配工具 SimNet 的开源系统,问答系统框架采用了配置化、插件化的设计,各功能均通过插件形式加入,当前共开放了 20 多种插件。开发者可以使用 AnyQ 系统快速构建和定制适用于特定业务场景的 FAQ 问答系统,并加速迭代和升级。
AIML 是一种人工智能标记语言,它的全称是 Artificial Intelligence Markup Language,Artificial Intelligence Markup Language 是一种创建自然语言软件代理的 XML 语言,其主要有由 Richard Wallace 开发,并通过世界各地的自由软件社区或基金会进行扩展和补充,最终在 1995 年开始的开发过程,持续到 2002 年最终完善。
OpenDial主要用于开发语音对话系统,是基于 Java 的,独立于域的工具包。OpenDial 被开发应用于执行对话管理任务,也可以用于构建完整的对话系统,它具有的功能如语言理解,语音识别,语音合成以及多模式处理和态势感知等。OpenDial 的目的是将逻辑和统计方法的优点结合起来进行对话建模。OpenDial 中所有模块都连接到代表对话状态的中央信息中心(编码为贝叶斯网络)。可以使用一组插件来连接外部组件,以进行语音识别,解析,语音合成等。
ConvLab是微软美国研究院和清华联合推出了一款开源的多领域端到端对话系统平台,它包括一系列的可复用组件,比如传统的管道系统(pipline systems:包括多个独立步骤的对话系统)或者端对端的神经元模型。方便研究者可以快速使用这些可复用的组件搭建实验模型。同时,ConvLab 还提供了一批标注好的数据集和用这些数据集训练好的的预训练模型。
基本问答系统框架
问答系统
同义词词林
关键技术相关理论研究综述
电力行业本体构建
电力行业知识抽取
电力行业知识存储
电力行业的领域知识图谱构建
基于知识图谱的智能系统在电力行业的应用——陈勇(硕士)
基于知识图谱的电网信息搜索引擎的设计与实现——郭蕴颖(硕士)
基于图数据库的电力系统知识图谱研究与应用——宋厚岩(硕士)
电力客服智能问答
电网信息智能搜索
异构数据管理
智能辅助决策
在电力行业的应用
1、这三点是相关联的工作,都是一个内容的,电力系统知识图谱目前的应用场景还较为有限,大多是对原有智能系统应用的直接扩展。
电力系统调度的主要工作有预测用电负荷、制订发电计划和运行方式、进行安全监控和安全分析、指挥操作和处理事故。
我找不到什么专业的东西来做呀,也找不到什么突破点,就是说技术方面可以找找,但是场景我不知道是什么,也就是说我不知道问题出在什么地方
目前总部在推的工程风险管控系统就是管这块业务,现在流行视频监控,图像识别在这一块有很大发挥空间。
对现有的电力行业系统一点都不了解,而且对知识图谱没有一个形象化的概念,这挺烦的
调度运维、故障诊断、设备运检
资源优化
电网科技研究
电网数据整合
融合促进电网一张图业务
全生命周期健康管理的多知识图谱融合
促进健康管理数字化转型
建设知识图谱的意义
0 条评论
回复 删除
下一页