首页  思维导图  详情



 



知识图谱_2知识表示学习

2024-05-18 22:40:55   1  举报





AI智能生成

内容梳理自《知识图谱发展报告2022》——“知识表示学习”部分：主要针对知识表示学习中，复杂关系建模、多源信息融合、关系路径建模、时序信息建模、模型知识增强五个方面展开介绍。

知识图谱

知识表示学习

读书笔记

模板推荐

作者其他创作

大纲/内容

一 任务定义 、目标和研究意义

知识表示

概念

是知识获取与应用的基础

知识表示学习问题

是贯穿知识图谱的构建与应用全过程的关键问题

形式

人们通常以网络的形式组织知识图谱中的知识

网络中

每个节点

代表实体

如：人名、地名、机构名、概念等

每条连边

代表实体间的关系

然而

直接应用符号表示的知识图谱

存在计算效率低、数据稀疏等诸多挑战性难题

近年来

以深度学习为代表的

表示学习技术得到了广泛研究

在自然语言处理、图像分析和语音识别领域

取得了巨大成功

表示学习

旨在

将研究对象的语义信息表示为稠密低维实值向量

在该低维向量空间中

两个对象距离越近

则说明其语义相似度越高

知识表示学习

则是面向知识图谱中的实体和关系进行表示学习

优点

显著提升计算效率

知识图谱的三元组表示

实际就是基于独热表示的

分支主题

在这种表示方式下

需要设计专门的图算法计算实体间的语义和推理关系

计算复杂度高，可扩展性差

而表示学习得到的分布式表示

则能够高效地实现语义相似度计算等操作

显著提升计算效率

有效缓解数据稀疏

由于表示学习将对象投影到统一的低维空间中

使每个对象均对应一个稠密向量

从而有效缓解数据稀疏问题

这主要体现在两个方面

① 每个对象的向量均为稠密有值的

因此可以度量任意对象之间的语义相似度

② 将大量对象投影到统一空间的过程

也能够将高频对象的语义信息用于帮助低频对象的语义表示

提高低频对象的语义表示的精确性

实现异质信息融合

不同来源的异质信息

需要融合为整体，才能得到有效应用

如：人们构造了大量知识图谱

这些知识图谱的构建规范和信息来源均有不同

大量实体和关系在不同知识图谱中的名称不同

如何实现多知识图谱的有机融合，对知识图谱应用具有重要意义

通过设计合理的表示学习模型，将不同来源的对象投影到同一个语义空间中，就能够建立统一的表示空间，实现多知识图谱的信息融合

综上

由于

知识表示学习

能够显著提升计算效率

有效缓解数据稀疏

实现异质信息融合

因此

对于知识图谱的构建、推理和应用具有重要意义

值得广受关注、深入研究

二研究内容和关键科学问题

前言

知识表示学习

概念

是面向知识图谱中实体和关系的表示学习

分支主题

通过将实体或关系投影到低维向量空间

我们能够实现对实体和关系的语义信息的表示

可高效地计算实体、关系及其之间的复杂语义关联

这对知识图谱的构建、推理与应用均有重要意义

目前 - 成就

已经在知识图谱补全、关系抽取等任务中取得了瞩目成果

但是 - 挑战

知识表示学习仍然面临很多挑战

1 复杂关系建模

说明

现有知识表示学习方法

无法有效地处理知识图谱中的【复杂关系】

复杂关系定义

关系的类型

① 1-1

② 1-N

③ N-1

指：该类型关系中的一个尾实体会平均对应多个头实体

④ N-N

研究发现

各种知识获取算法

在处理四种类型关系时的性能差异较大

在处理复杂关系时性能显著降低

如何实现表示学习对复杂关系的建模

成为知识表示学习的一个难点

2 多源信息融合

说明

知识表示学习面临的另外一个重要挑战

如何实现多源信息融合

现有的知识表示学习模型

仅利用知识图谱的三元组结构信息进行表示学习

尚有大量与知识有关的其他信息没有得到有效利用

示例

① 知识图谱中的其他信息

如：实体和关系的描述信息、类别信息等

② 知识图谱外的海量信息

如：互联网文本蕴含了大量与知识图谱实体和关系有关的信息

如何充分融合这些多源异质信息

实现知识表示学习

具有重要意义

分支主题

可以改善数据稀疏问题

提高知识表示的区分能力

3 关系路径建模

说明

在知识图谱中

【多步的关系路径】也能够反映实体之间的语义关系

示例

Lao 等人

曾提出 PathConstraint Random Walk、Path Ranking Algorithm 等算法

分支主题

利用两实体间的关系路径信息

预测它们的关系

如何突破知识表示学习孤立学习每个三元组的局限性

充分考虑关系路径信息

是知识表示学习的关键问题

4 时序信息建模

说明

当前的知识图谱的研究

主要集中在

事实不随时间变化的静态知识图谱上

而对于知识图谱的【时序动态性】则很少被研究

实际上

知识图谱的大量知识

具有时效性

随着时间发展是动态变化的

示例

如：美国总统在 2010 年是“贝拉克·奥巴马”，在 2020 年是“乔·拜登”

因此

对知识图谱中的时序信息建模是十分重要的

充分建模知识图谱富含的时序信息，利用时序分析和图神经网络等技术

对于分析图谱结构随时间的变化规律和趋势，以及知识推理都具有重要意义

5 模型知识增强

说明

语言模型

是自然语言理解的核心能力

分支主题

以预训练语言模型 BERT、GPT

为代表的最先进的深度学习方法

仍然面临鲁棒性差、可扩展性差和可解释性差等问题

此外

语义的深度理解

离不开多类型知识推理

因此

建立面向预训练语言模型的【模型知识增强机制】

是知识融合的关键科学问题

分支主题

知识表示学习

是构建结构化符号知识

到深度语言模型的桥梁

如何低成本植入结构化知识到预训练语言模型增强模型的语义理解能力

是目前知识表示学习的热点方向

三 技术方法和研究现 状

1 复杂关系建模

相关研究

研究内容

[Wang et al., 2014a]

提出融合文本信息的知识表示学习方法

利用

Word2Vec

学习维基百科正文中的词表示

TransE

学习知识图谱中的知识表示

然后利用

维基百科正文中的链接信息

让文本中实体对应的词表示

与知识图谱中的实体表示尽可能接近

DKRL [Xie et al., 2016a]

考虑知识图谱中提供的实体描述文本信息

给出了两种融合本文描述信息的模型

CBOW

将文本中的词向量简单相加作为文本表示

GCN

能够考虑文本中的词序信息

相关研究

研究内容

[Guo et al., 2015]

提出 SSE (Semantically Smooth Embedding) 模型

尝试引入实体的语义类别信息

使得来自同一类别的实体在嵌入空间更为接近

[Xie et al., 2016c]

提出融合类别的知识表示学习模型 TKRL

该模型是

第一个借助层次结构信息

将实体类别信息编码到知识表示的方法

其他融合类别信息到知识表示中的工作

[Zhang et al., 2018; Niu et al., 2020a]

视觉信息

概述

知识图谱中实体

通常包含着丰富的视觉信息

如：人物照片、动物图片、公司 Logo 等

相关研究

研究内容

IKRL [Xie et al., 2016b]

提出了一种将图像信息融入到知识图谱中来进行知识表示的学习方法

该方法

在知识补全和三元组分类任务中

均取得了不错的性能

也说明了跨模态的图像信息

对于图谱是一个有效的补充

在 IKRL 的基础上 [Mousselly-Sergieh et al., 2018]

提出了一种同时融入基于语言学和图像信息的多模态知识表示方法

并构建了

一个大规模的多模态知识表示数据集

其他工作可以参考

[Wang et al., 2019; Zhang et al., 2020a]

逻辑规则

相关研究

研究内容

[Guo et al., 2016]

提出 KALE 是将逻辑规则和知识图谱进行共同表示的典型工作

KALE

在一个统一的框架中

表示三元组和给定的逻辑规则

并获得实体和关系的向量表示

具体而言

其将三元组看成原子公式

并利用转移模型进行建模

规则被形式化为复杂公式

并利用 t 阶模糊逻辑建模

并将复合公式的真值定义为其成分真值的组合

[Guo et al., 2018]

进一步提出了基于软规则的改进方法 RUGE

多语言信息

概述

多语言知识图谱

一般都包含

几种不同语言实体中的机构性知识

并且它们对于跨语言应用

都是有用的资源

因此

多语言知识图谱的表示方法

也是值得关注的一个研究领域

相关研究

研究内容

Chen 等人提出了 MTransE [Chen et al., 2017]

是第一个将知识表示推广到多语言场景的工作

MTransE

分别在独立空间中

对实体和关系进行编码

并可以对任意实体或关系向量

进行跨语言转换

且多语言图谱的嵌入模型

保留了单语嵌入时的优良特性

IPTransE [Zhou et al., 2017]

将不同 KG 的实体和关系联合编码到一个统一的低维语义空间中

并提出了一种迭代和参数共享的方法

来提高跨语言对齐性能

[Sun et al., 2018]

提出了一种基于实体对齐的知识图谱嵌入方法

不确定信息

概述

一些具有不确定性信息的知识图谱

给每个三元组添加一个置信度

来描述三元组的不确定性

那么

不确定知识图谱表示学习任务

需要实体与关系的表示向量同时嵌入图谱的结构信息与置信度信息

相关研究

研究内容

UKGE [Chen et al., 2019]

首先关注了不确定信息的

通过引入规则作为先验知识

并利用概率软逻辑方式

[Zhang et al., 2021]

关注不确定知识图谱中长尾关系的少样本问题

提出了

基于高斯分布的度量学习方法

利用 Gaussian Embedding 方式

建模实体及关系的语义不确定性

[Boutouhami et al.,2019]

考虑知识图谱中存在不确定本体信息问题

提出了

不确定本体感知知识图谱嵌入模型 UOKGE

根据置信度分数

学习不确定本体感知知识图上的实体、类和属性的嵌入

总结

已有工作表明

多源信息融合

能够有效提升知识表示的性能

特别是可以有效处理新实体的表示问题

从目前来看

多源信息融合的知识表示学习

处于快速发展的阶段

分支主题

考虑的信息源非常有限

有大量的信息未被考虑

如音频、视频等

具有广阔的研究前景

3 关系路径建模

分析

关系路径

是指两个实体之间的多步关系

而不仅限于两个实体之间直接相连的关系

分支主题

目前许多研究方法

主要基于三元组（头实体，关系，尾实体）方式学习图嵌入表示

这类 Triplelevel 学习方法

仅从一个局部的视图 (即一跳关系邻居) 中学习实体嵌入

忽略了图谱的关系路径信息

实际上

在知识图谱中

多步关系包含了两个实体之间丰富的语义关系，有助于多步推理

相关研究

研究内容

[Lin et al.,2015a]

提出考虑关系路径的表示学习方法

以 TransE作为扩展基础

提出 Path-based TransE (PTransE) 模型

PTransE

将关系路径建模成

一组关系的组合

并给出了相加、相乘和循环网络等多种关系组合形式

为了在知识图谱中结合更多的信息 [Guo et al.,2019]

提出了循环跳跃网络模型 RSN

沿着关系路径

对实体和关系进行联合学习

RSN

将递归神经网络与残差连接相结合

以捕获知识图谱中长期依赖关系

以上方法

利用路径上关系或实体表示的数值计算结果作为关系路径的表示

存在误差传播和可解释性差的问题

[Niu et al.,2020b]

为此提出一种联合路径和规则的知识表示学习模型 RPJE

[Zhang et al., 2020b]

受到神经架构搜索（NAS）的启发

提出

将 Interstellar 作为一种处理关系路径中信息的循环架构搜索问题

以获取路径中的短期和长期信息

此外

基于图神经网络 GNN 被广泛用于知识图谱的图嵌入学习建模

其通过多层聚合方式

可实现对图中多跳依赖信息的建模

代表性方法

R-GCN [Schlichtkrull et al, 2018]、基于注意力的特征嵌入模型 [Nathani et al., 2019] 等

相关研究

研究内容

[Trivedi et al., 2017]

提出了一种知识进化算法

该算法

通过时间点过程

根据时间 t−1 的状态来估计一个事实在时间 t 时是否成立

[Jin et al., 2019]

使用一个邻域聚合器来考虑并发事件

并利用递归神经网络 (RNNs)

来捕获

时间序列的时间条件联合概率分布

[Xu et al., 2020]

提出了 ATiSE

考虑了

知识图谱在时间演化过程中的

不确定性因素

采用

多维高斯分布函数

来对图谱进行表示学习

[Liao et al., 2021]

构建了动态贝叶斯知识图嵌入模型 (DBKGE)

在联合度量空间中

动态地跟踪实体的语义表示

并对未来做出预测

采用

多维高斯分布函数

来对图谱进行表示学习

插值任务

概述

建立在一个插值任务公式上

目的是

预测一个事实在给定的时间点是否有效

也称为

时序知识图补全

相关研究

研究内容

[Leblay & Chekol, 2018]

在扩展现有的关系嵌入模型的基础上

提出了

各种考虑时间信息的方法

[Garcia-Duran et al., 2018]

将谓词序列和时间戳序列进行拼接构成一个关系序列

然后输入到 LSTM 中进行编码

用以进行时间信息感知的表示学习

[Dasgupta et al., 2018]

提出了一种基于超平面的学习知识图谱表示的方法

将时间戳转化为一种关系依赖的超平面

并将实体和关系进行映射

总结

从目前研究来看

围绕时序知识图谱的表示学习

已经成为当前图谱表示学习领域的研究热点

相关研究进展较为显著

其相关理论和技术体系还很不完善

存在许多挑战问题有待研究

5 模型知识增强

分析

目前预训练语言模型 (PLM)

主要采用互联网获取的海量通用文本语料训练得到

实现了对文本丰富语义模式的编码

但由于没有自觉运用结构化知识

依然严重缺乏知识运用和推理能力

缺乏可解释性和鲁棒性

许多学者研究了

融合结构化知识的 PLM 及其学习框架

融合方法大致分为

知识增广

知识支撑

知识约束

知识增广

概述

从输入端增强模型

有两种主流的方法

① 直接把知识加到输入

② 设计特定模块来融合原输入和相关的知识化的输入表示

目前

基于知识增广的方法

已经在不同任务上取得良好效果

如

信息检索[Guu et al., 2020]、问答系统[Xiong et al., 2019]等

知识支撑

概述

关注于对带有知识的模型本身的处理流程进行优化

两种方式

①

在模型的底部引入知识指导层来处理特征

分支主题

以便能得到更丰富的特征信息

如：使用专门的知识记忆模块来从 PLM 底部注入丰富的记忆特征

②

知识也可作为专家在模型顶层构建后处理模块

分支主题

以计算得到更准确和有效的输出

如：利用知识图谱来改进语言生成质量

知识约束

概述

利用知识构建额外的预测目标和约束函数

来增强模型的原始目标函数

示例：远程监督学习

利用知识图谱启发式标注语料作为新的目标，并广泛用于系列 NLP 任务

利用知识构建额外的预测目标

6 知识表示学习开源工具

分析

目前围绕知识图谱表示

已经有大量的模型被提出

这些模型在基准数据集上取得了很好的性能

但是这些模型算法实现在一定程度上是分散的且不系统的

分支主题

为了进一步促进这些模型的研究和开发

许多相关开源工具被提出

总结

尽管

目前开源工具包

在图谱高效训练上取得了巨大进展

但是

在处理实体超过千万级以上超大规模知识图谱时

在模型性能、训练时间、内存消耗等方面

还存在巨大挑战

7 测试基准数据集

分析

为了评测知识表示学习算法的性能

目前已经有许多测试数据集被提出

这些数据集

主要从现有公开知识图谱基础上抽取子集构造

如

以语言知识图谱 WordNet 构造的数据集

包括 WN18、WN11、WN18RR 等

以世界知识图谱 Freebase 构造的数据集

如 FB40K、FB5M、 FB86M 等

以链接知识库 Wikidata 构造的的数据集

有 Wikidata5M、Wikidata68M、 WikiKG90Mv2 等

也有部分数据集通过其他类型知识图谱构造

如

多语言知识图谱 YAGO

跨语言知识图谱 XLORE

总结

可以看出

这些测试基准数据集

覆盖了几万实体到近亿实体的不同尺度规模

可充分满足

目前的知识表示学习领域对模型算法预测准确率或训练速度的测试需要

在融合异构信息的知识表示学习方面

Wikidata5M、 WikiKG90Mv2 等数据集

也提供了实体在维基百科的描述文本信息

也有一些专门针对时序知识图谱的基准数据被提出

如 ICEWS14、 ICEWS05-15、 GDELT 等

四技术展望与发展趋势

近年来

虽然

面向知识图谱的知识表示学习领域发展迅速

相关基础理论及其应用技术趋于完备

面向不同知识类型的知识表示学习

已有工作

将知识图谱的关系划分为

1-1、1-N、N-1 和 N-N 四类

这种关系类型划分略显粗糙

无法直观地解释知识的本质类型特点

人类知识几种结构

① 树状关系

表示实体间的层次分类关系

② 二维网格关系

表示现实世界的空间信息

③ 单维顺序关系

表示实体间的偏序关系

④ 有向网络关系

表示实体间的关联或因果关系

意义

认知科学对人类知识类型的总结，有助于对知识图谱中知识类型的划分和处理

未来

有必要结合人工智能和认知科学的最新研究成果

有针对性地设计知识类型划分标准

开展面向不同复杂关系类型的知识表示学习研究

面向多源信息融合的知识表示学习

该方面的相关工作还比较有限

主要是考虑

实体描述的知识表示学习模型

文本与知识图谱融合的知识表示学习

这些模型

无论是信息来源

还是融合手段

可探索

① 融合知识图谱中实体和关系的其他信息

知识图谱中拥有关于实体和关系的丰富信息，如描述文本、层次类型等

有机融合这些信息，将显著提升知识表示学习的表示能力

② 融合互联网文本、图像、音频、视频信息

互联网海量文本、音频、视频数据是知识图谱的重要知识来源

有效地利用这些信息进行知识表示可以极大地提升现有知识表示方法的表示能力

③ 融合多知识图谱信息

人们利用不同的信息源构建了不同的知识图谱

如何对多知识图谱信息进行融合表示，对于建立统一的大规模知识图谱意义重大

考虑复杂推理模式的知识表示学习

该方面

实际上是

充分利用了两实体间的关系和关系路径之间的推理模式

来为表示学习模型提供更精确的约束信息

如：根据三元组（康熙, 父亲，雍正）和（雍正, 父亲，乾隆）构成的“康熙”和“乾隆”之间“父亲+父亲”的关系路径，再结合三元组（康熙, 祖父，乾隆），通过构建“父亲+父亲=祖父”的推理模式，提升知识表示的精确性

此外

知识图谱中还有其他形式的推理模式

如：三元组（美国，总统，奥巴马）和（奥巴马，是，美国人）之间就存在着推理关系，但是两者的头、尾实体并不完全一致

分析

若能将这些复杂推理模式考虑到知识表示学习中

将能更进一步提升知识表示的性能

在该问题中

如何总结和表示这些复杂推理模式，是关键难题

目前来看

一阶逻辑是对复杂推理模式的较佳表示方案

超大规模知识图谱的知识表示学习

现状

虽然

已经出现了 GraphVite、OpenKE、DGL-KE、 BigGraph 等知识表示学习开源工具

但是

这些工具还主要针对百万级实体规模以内的知识图谱，处理的最大知识知识图谱规模，这限制了大规模知识图谱应用潜力

目前

知识图谱的规模越来越大

如：Wikidata 已经含有了超过 9 千万实体、14.7 亿的关系

而且这种规模仍然呈现快速增长趋势

分析

如何将现有知识表示学习方法适配到千万级以上实体规模的图谱上

仍然是一个挑战

需要解决

在优化过程中大规模知识图谱的高质量负采样、模型多维并行训练机制

以及并行训练中高效内存和通信管理

大规模知识图谱的在线知识表示学习

现状

在实际中

知识图谱的规模不断扩大的，且知识信息也随着时间不短更新

如

DBpedia 每天提取维基百科的更新流，以保持其知识图谱包含最新信息

阿里的产品知识图谱需要相当频繁地更新，由于其电商平台每天都有大量的新产品上线

但是

现有的知识表示学习方法

主要是聚焦在静态的知识图谱

忽略了知识图谱的动态性

此外

大规模知识图谱稀疏性很强

初步实验表明

已有表示学习模型在大规模知识图谱上性能堪忧

特别是对低频实体和关系的表示效果较差

根据知识图谱动态更新实体和关系表示突破该问题的重要途径

因此

我们需要设计高效的在线学习方案

除了充分融合多源信息降低稀疏性之外

还可探索如何优化表示学习的方式

借鉴课程学习和迁移学习等算法思想

进一步改善知识表示的效果

 Collect

Get Started

知识图谱推理-强化学习

 Collect

Get Started

知识图谱构建技术架构

 Collect

Get Started

知识图谱技术架构

 Collect

Get Started

知识图谱





0 条评论

下一页