知识图谱_2知识表示学习
2024-05-18 22:40:55 0 举报
AI智能生成
登录查看完整内容
内容梳理自《知识图谱发展报告2022》——“知识表示学习”部分:主要针对知识表示学习中,复杂关系建模、多源信息融合、关系路径建模、时序信息建模、模型知识增强五个方面展开介绍。
作者其他创作
大纲/内容
是知识获取与应用的基础
是贯穿知识图谱的构建与应用全过程的关键问题
知识表示学习问题
概念
代表实体
如:人名、地名、机构名、概念等
每个节点
代表实体间的关系
每条连边
网络中
人们通常以网络的形式组织知识图谱中的知识
形式
存在计算效率低、数据稀疏等诸多挑战性难题
直接应用符号表示的知识图谱
然而
表示学习技术得到了广泛研究
以深度学习为代表的
取得了巨大成功
在自然语言处理、图像分析和语音识别领域
近年来
知识表示
将研究对象的语义信息表示为稠密低维实值向量
旨在
两个对象距离越近
则说明其语义相似度越高
在该低维向量空间中
表示学习
则是面向知识图谱中的实体和关系进行表示学习
实际就是基于独热表示的
需要设计专门的图算法计算实体间的语义和推理关系
计算复杂度高,可扩展性差
在这种表示方式下
分支主题
知识图谱的三元组表示
则能够高效地实现语义相似度计算等操作
显著提升计算效率
而表示学习得到的分布式表示
从而有效缓解数据稀疏问题
使每个对象均对应一个稠密向量
由于表示学习将对象投影到统一的低维空间中
因此可以度量任意对象之间的语义相似度
① 每个对象的向量均为稠密有值的
也能够将高频对象的语义信息用于帮助低频对象的语义表示
提高低频对象的语义表示的精确性
② 将大量对象投影到统一空间的过程
这主要体现在两个方面
有效缓解数据稀疏
需要融合为整体,才能得到有效应用
不同来源的异质信息
这些知识图谱的构建规范和信息来源均有不同
大量实体和关系在不同知识图谱中的名称不同
如何实现多知识图谱的有机融合,对知识图谱应用具有重要意义
通过设计合理的表示学习模型,将不同来源的对象投影到同一个语义空间中,就能够建立统一的表示空间,实现多知识图谱的信息融合
如:人们构造了大量知识图谱
实现异质信息融合
优点
知识表示学习
能够显著提升计算效率
由于
值得广受关注、深入研究
对于知识图谱的构建、推理和应用具有重要意义
因此
综上
一 任务定义 、目标和研究意义
是面向知识图谱中实体和关系的表示学习
我们能够实现对实体和关系的语义信息的表示
可高效地计算实体、关系及其之间的复杂语义关联
通过将实体或关系投影到低维向量空间
这对知识图谱的构建、推理与应用均有重要意义
已经在知识图谱补全、关系抽取等任务中取得了瞩目成果
目前 - 成就
知识表示学习仍然面临很多挑战
但是 - 挑战
前言
无法有效地处理知识图谱中的【复杂关系】
现有知识表示学习方法
说明
① 1-1
② 1-N
指:该类型关系中的一个尾实体会平均对应多个头实体
③ N-1
④ N-N
关系的类型
复杂关系
在处理复杂关系时性能显著降低
在处理四种类型关系时的性能差异较大
各种知识获取算法
研究发现
复杂关系定义
成为知识表示学习的一个难点
如何实现表示学习对复杂关系的建模
1复杂关系建模
如何实现多源信息融合
知识表示学习面临的另外一个重要挑战
仅利用知识图谱的三元组结构信息进行表示学习
尚有大量与知识有关的其他信息没有得到有效利用
现有的知识表示学习模型
如:实体和关系的描述信息、类别信息等
① 知识图谱中的其他信息
如:互联网文本蕴含了大量与知识图谱实体和关系有关的信息
② 知识图谱外的海量信息
示例
具有重要意义
实现知识表示学习
提高知识表示的区分能力
可以改善数据稀疏问题
如何充分融合这些多源异质信息
2多源信息融合
【多步的关系路径】也能够反映实体之间的语义关系
在知识图谱中
曾提出 Path\u0002Constraint Random Walk、Path Ranking Algorithm 等算法
利用两实体间的关系路径信息
预测它们的关系
说明关系路径蕴含着丰富信息
取得显著效果
Lao 等人
是知识表示学习的关键问题
充分考虑关系路径信息
如何突破知识表示学习孤立学习每个三元组的局限性
3关系路径建模
事实不随时间变化的静态知识图谱上
主要集中在
而对于知识图谱的【时序动态性】则很少被研究
当前的知识图谱的研究
随着时间发展是动态变化的
具有时效性
知识图谱的大量知识
实际上
如:美国总统在 2010 年是“贝拉克·奥巴马”,在 2020 年是“乔·拜登”
对知识图谱中的时序信息建模是十分重要的
对于分析图谱结构随时间的变化规律和趋势,以及知识推理都具有重要意义
充分建模知识图谱富含的时序信息,利用时序分析和图神经网络等技术
4时序信息建模
是自然语言理解的核心能力
语言模型
为代表的最先进的深度学习方法
以预训练语言模型 BERT、GPT
仍然面临鲁棒性差、可扩展性差和可解释性差等问题
离不开多类型知识推理
语义的深度理解
是知识融合的关键科学问题
建立面向预训练语言模型的【模型知识增强机制】
到深度语言模型的桥梁
是构建结构化符号知识
此外
是目前知识表示学习的热点方向
如何低成本植入结构化知识到预训练语言模型增强模型的语义理解能力
5模型知识增强
二研究内容和关键科学问题
看作实体间的某种平移向量
将知识图谱中的关系
在大规模知识图谱上效果明显
不能处理知识图谱中的复杂关系
缺点
由于模型简单
为了解决 TransE 模型在处理 1-N、N-1、N-N 复杂关系时的局限性
许多 【TransX】 系列模型被提出
改进
TransE
在不同的关系下拥有不同的表示
提出让一个实体
TransH
不同的关系拥有不同的语义空间
进一步认为
对每个三元组将实体利用矩阵投影到对应的关系空间中
再建立从头实体到尾实体的平移关系
TransR
来进行表示学习
通过引入注意力机制
TransAt
来传播多向语义
使用非线性函数
TransMS
扩展为流形表示
将传统的基于“点”的表示
Sphere
Hyperplane
并设计了
两种流形的设置
ManifoldE
以更好地捕获对称和非对称的关系
建模实体和关系嵌入
从复数空间上
ComplEx
将关系看做是头实体到尾实体的旋转
在复数空间上
RotatE
将实体映射到极坐标系
通过在链接预测任务上的实验表明
HAKE 能有效地在知识图中建立语义层次模型
HAKE
一种用于学习实体、关系和时间表示的模型
可通过使用高维旋转作为变换算子
捕捉到时间和多关系特征之间的丰富信息
取得优异效果
并在时序知识图谱链接预测任务
ChronoR
相关模型
提出了多种模型
从不同角度尝试解决复杂关系建模问题
在如何处理复杂关系建模的挑战问题上
在 TransE 之后
这些方法均较 TransE 有显著的性能提升
验证了这些方法的有效性
在相关数据集合上的实验表明
总结
现有知识表示学习模型如 TransE 等
需要对现有知识表示学习模型进行【多源信息融合】
等多源异质信息
文本描述、类别、属性以及图片
融合 包括
许多研究工作被提出
在融合上述信息方面
分析
含有大量对实体进行描述的文本信息
多数知识图谱中
包含着丰富的语义信息
这些文本数据
概述
研究内容
相关研究
提出融合文本信息的知识表示学习方法
学习维基百科正文中的词表示
Word2Vec
学习知识图谱中的知识表示
利用
维基百科正文中的链接信息
然后利用
与知识图谱中的实体表示尽可能接近
让文本中实体对应的词表示
考虑知识图谱中提供的实体描述文本信息
将文本中的词向量简单相加作为文本表示
CBOW
能够考虑文本中的词序信息
GCN
给出了两种融合本文描述信息的模型
预训练语言模型在各种 NLP 任务中表现出优越性能
其通过海量数据训练实现了对文本的丰富语义模式和语言信息的编码
最近几年
提出了预训练语言表示和知识表示联合学习的统一模型 KEPLER
能够将事实知识信息更好的嵌入到预训练语言模型中
联合学习
可以得到文本语义增强的知识表示
基于文本训练的预训练语言模型
通过
文本描述
来表示
层次类或类型和语义类别的关系
实体 由
有助于增强实体的语义表示
融合实体相关类别信息
提出 SSE (Semantically Smooth Embedding) 模型
使得来自同一类别的实体在嵌入空间更为接近
尝试引入实体的语义类别信息
提出融合类别的知识表示学习模型 TKRL
将实体类别信息编码到知识表示的方法
第一个借助层次结构信息
该模型是
其他融合类别信息到知识表示中的工作
实体类别
如:人物照片、动物图片、公司 Logo 等
通常包含着丰富的视觉信息
知识图谱中实体
提出了一种将图像信息融入到知识图谱中来进行知识表示的学习方法
均取得了不错的性能
在知识补全和三元组分类任务中
对于图谱是一个有效的补充
也说明了跨模态的图像信息
该方法
提出了一种同时融入基于语言学和图像信息的多模态知识表示方法
一个大规模的多模态知识表示数据集
并构建了
其他工作可以参考
视觉信息
提出 KALE 是将逻辑规则和知识图谱进行共同表示的典型工作
表示三元组和给定的逻辑规则
在一个统一的框架中
并获得实体和关系的向量表示
KALE
并利用转移模型进行建模
其将三元组看成原子公式
并利用 t 阶模糊逻辑建模
并将复合公式的真值定义为其成分真值的组合
规则被形式化为复杂公式
具体而言
进一步提出了基于软规则的改进方法 RUGE
逻辑规则
几种不同语言实体中的机构性知识
一般都包含
都是有用的资源
并且它们对于跨语言应用
多语言知识图谱
也是值得关注的一个研究领域
多语言知识图谱的表示方法
是第一个将知识表示推广到多语言场景的工作
对实体和关系进行编码
分别在独立空间中
进行跨语言转换
并可以对任意实体或关系向量
MTransE
保留了单语嵌入时的优良特性
且多语言图谱的嵌入模型
将不同 KG 的实体和关系联合编码到一个统一的低维语义空间中
来提高跨语言对齐性能
并提出了一种迭代和参数共享的方法
提出了一种基于实体对齐的知识图谱嵌入方法
多语言信息
给每个三元组添加一个置信度
来描述三元组的不确定性
一些具有不确定性信息的知识图谱
需要实体与关系的表示向量同时嵌入图谱的结构信息与置信度信息
不确定知识图谱表示学习任务
那么
首先关注了不确定信息的
通过引入规则作为先验知识
并利用概率软逻辑方式
进行置信度推断
关注不确定知识图谱中长尾关系的少样本问题
基于高斯分布的度量学习方法
提出了
建模实体及关系的语义不确定性
利用Gaussian Embedding 方式
考虑知识图谱中存在不确定本体信息问题
不确定本体感知知识图谱嵌入模型 UOKGE
学习不确定本体感知知识图上的实体、类和属性的嵌入
根据置信度分数
不确定信息
能够有效提升知识表示的性能
特别是可以有效处理新实体的表示问题
多源信息融合
已有工作表明
处于快速发展的阶段
多源信息融合的知识表示学习
考虑的信息源非常有限
如音频、视频等
有大量的信息未被考虑
具有广阔的研究前景
从目前来看
是指两个实体之间的多步关系
而不仅限于两个实体之间直接相连的关系
关系路径
主要基于三元组(头实体,关系,尾实体)方式学习图嵌入表示
仅从一个局部的视图(即一跳关系邻居) 中学习实体嵌入
忽略了图谱的关系路径信息
这类 Triple\u0002level 学习方法
目前许多研究方法
多步关系包含了两个实体之间丰富的语义关系,有助于多步推理
提出考虑关系路径的表示学习方法
提出 Path-based TransE (PTransE) 模型
以 TransE作为扩展基础
一组关系的组合
将关系路径建模成
并给出了相加、相乘和循环网络等多种关系组合形式
PTransE
提出了循环跳跃网络模型 RSN
对实体和关系进行联合学习
沿着关系路径
以捕获知识图谱中长期依赖关系
将递归神经网络与残差连接相结合
RSN
利用路径上关系或实体表示的数值计算结果作为关系路径的表示
存在误差传播和可解释性差的问题
以上方法
为此提出一种联合路径和规则的知识表示学习模型 RPJE
受到神经架构搜索(NAS)的启发
以获取路径中的短期和长期信息
将 Interstellar 作为一种处理关系路径中信息的循环架构搜索问题
提出
基于图神经网络 GNN 被广泛用于知识图谱的图嵌入学习建模
可实现对图中多跳依赖信息的建模
其通过多层聚合方式
代表性方法
受 Transformer 强大的语义编码能力启发
利用 Transformer 和预训练语言模型的关系路径编码方法
研究者提出
给出了上下文(边和路径)知识图嵌入方法
使用 Transformer 编码器获得上下文信息
最近
能够极大提升知识表示学习的区分性
提高在知识图谱补全等任务上的性能
考虑关系路径
以上关系路径建模的相关研究实验表明
目前许多相关工作还比较初步
关系路径建模
还有很多细致的考察工作需要完成
在 关系路径的可靠性计算、 关系路径的语义组合操作、 与复杂推理联合建模 等方面
特别是
目前
3 关系路径建模
主要集中在静态知识图谱上
但许多事实在时间序列中是不断变化发展,所以时序知识图谱也同样重要
目前知识图谱表示学习的研究
对时间序列中的知识进行表示学习
许多研究开始将时间信息纳入知识图谱表示学习和相关任务中
外推任务 (Extrapolation task)
插值任务 (Interpolation task)
这些工作可分为两类
围绕着时序知识图谱
旨在对未来的事实进行预测
提出了一种知识进化算法
根据时间 t−1 的状态 来估计一个事实在时间 t 时是否成立
通过时间点过程
该算法
使用一个邻域聚合器来考虑并发事件
时间序列的时间条件联合概率分布
来捕获
并利用递归神经网络(RNNs)
提出了 ATiSE
不确定性因素
知识图谱在时间演化过程中的
考虑了
来对图谱进行表示学习
多维高斯分布函数
采用
构建了动态贝叶斯知识图嵌入模型 (DBKGE)
并对未来做出预测
动态地跟踪实体的语义表示
在联合度量空间中
外推任务
建立在一个插值任务公式上
预测一个事实在给定的时间点是否有效
目的是
时序知识图补全
也称为
在扩展现有的关系嵌入模型的基础上
各种考虑时间信息的方法
将谓词序列和时间戳序列进行拼接构成一个关系序列
用以进行时间信息感知的表示学习
然后输入到 LSTM 中进行编码
提出了一种基于超平面的学习知识图谱表示的方法
将时间戳转化为一种关系依赖的超平面
并将实体和关系进行映射
从而有效计算评价分数
插值任务
已经成为当前图谱表示学习领域的研究热点
相关研究进展较为显著
围绕时序知识图谱的表示学习
从目前研究来看
存在许多挑战问题有待研究
其相关理论和技术体系还很不完善
4 时序信息建模
实现了对文本丰富语义模式的编码
主要采用互联网获取的海量通用文本语料训练得到
依然严重缺乏知识运用和推理能力
缺乏可解释性和鲁棒性
但由于没有自觉运用结构化知识
目前预训练语言模型 (PLM)
融合结构化知识的 PLM 及其学习框架
许多学者研究了
知识增广
知识支撑
知识约束
融合方法大致分为
从输入端增强模型
① 直接把知识加到输入
② 设计特定模块来融合原输入和相关的知识化的输入表示
有两种主流的方法
已经在不同任务上取得良好效果
基于知识增广的方法
如
关注于对带有知识的模型本身的处理流程进行优化
在模型的底部引入知识指导层来处理特征
以便能得到更丰富的特征信息
如:使用专门的知识记忆模块来从 PLM 底部注入丰富的记忆特征
①
知识也可作为专家在模型顶层构建后处理模块
以计算得到更准确和有效的输出
如:利用知识图谱来改进语言生成质量
②
两种方式
来增强模型的原始目标函数
利用知识构建额外的预测目标和约束函数
利用知识图谱启发式标注语料作为新的目标,并广泛用于系列 NLP 任务
利用知识构建额外的预测目标
示例:远程监督学习
5 模型知识增强
已经有大量的模型被提出
这些模型在基准数据集上取得了很好的性能
但是这些模型算法实现在一定程度上是分散的且不系统的
目前围绕知识图谱表示
许多相关开源工具被提出
为了进一步促进这些模型的研究和开发
在图谱高效训练上取得了巨大进展
目前开源工具包
尽管
还存在巨大挑战
在模型性能、训练时间、内存消耗等方面
在处理实体超过千万级以上超大规模知识图谱时
但是
6 知识表示学习开源工具
目前已经有许多测试数据集被提出
为了评测知识表示学习算法的性能
包括 WN18、WN11、WN18RR 等
以语言知识图谱 WordNet构造的数据集
如 FB40K、FB5M、FB86M 等
以世界知识图谱 Freebase构造的数据集
有 Wikidata5M、Wikidata68M、WikiKG90Mv2 等
以链接知识库 Wikidata构造的的数据集
主要从现有公开知识图谱基础上抽取子集构造
多语言知识图谱 YAGO
跨语言知识图谱 XLORE
也有部分数据集通过其他类型知识图谱构造
这些数据集
覆盖了几万实体到近亿实体的不同尺度规模
这些测试基准数据集
目前的知识表示学习领域对模型算法预测准确率或训练速度的测试需要
可充分满足
可以看出
也提供了实体在维基百科的描述文本信息
Wikidata5M、WikiKG90Mv2 等数据集
在融合异构信息的知识表示学习方面
如 ICEWS14、ICEWS05-15、 GDELT 等
也有一些专门针对时序知识图谱的基准数据被提出
7 测试基准数据集
三技术方法和研究现状
面向知识图谱的知识表示学习领域发展迅速
相关基础理论及其应用技术趋于完备
虽然
但是仍然存在许多挑战问题有待进一步研究
1-1、1-N、N-1 和 N-N 四类
将知识图谱的关系划分为
无法直观地解释知识的本质类型特点
这种关系类型划分略显粗糙
已有工作
表示实体间的层次分类关系
① 树状关系
表示现实世界的空间信息
② 二维网格关系
表示实体间的偏序关系
③ 单维顺序关系
表示实体间的关联或因果关系
④ 有向网络关系
人类知识几种结构
认知科学对人类知识类型的总结,有助于对知识图谱中知识类型的划分和处理
意义
有必要结合人工智能和认知科学的最新研究成果
有针对性地设计知识类型划分标准
开展面向不同复杂关系类型的知识表示学习研究
未来
面向不同知识类型的知识表示学习
实体描述的知识表示学习模型
文本与知识图谱融合的知识表示学习
主要是考虑
无论是信息来源
还是融合手段
这些模型
都非常有限
该方面的相关工作还比较有限
知识图谱中拥有关于实体和关系的丰富信息,如描述文本、层次类型等
有机融合这些信息,将显著提升知识表示学习的表示能力
① 融合知识图谱中实体和关系的其他信息
互联网海量文本、音频、视频数据是知识图谱的重要知识来源
有效地利用这些信息进行知识表示可以极大地提升现有知识表示方法的表示能力
② 融合互联网文本、图像、音频、视频信息
人们利用不同的信息源构建了不同的知识图谱
如何对多知识图谱信息进行融合表示,对于建立统一的大规模知识图谱意义重大
③ 融合多知识图谱信息
可探索
面向多源信息融合的知识表示学习
来为表示学习模型提供更精确的约束信息
充分利用了两实体间的关系和关系路径之间的推理模式
实际上是
知识图谱中还有其他形式的推理模式
如:三元组(美国,总统,奥巴马)和(奥巴马,是,美国人)之间就存在着推理关系,但是两者的头、尾实体并不完全一致
该方面
将能更进一步提升知识表示的性能
若能将这些复杂推理模式考虑到知识表示学习中
如何总结和表示这些复杂推理模式,是关键难题
在该问题中
一阶逻辑是对复杂推理模式的较佳表示方案
目前来看
考虑复杂推理模式的知识表示学习
已经出现了 GraphVite、OpenKE、DGL-KE、BigGraph 等知识表示学习开源工具
这些工具还主要针对百万级实体规模以内的知识图谱,处理的最大知识知识图谱规模,这限制了大规模知识图谱应用潜力
如:Wikidata 已经含有了超过 9 千万实体、14.7 亿的关系
知识图谱的规模越来越大
而且这种规模仍然呈现快速增长趋势
现状
仍然是一个挑战
如何将现有知识表示学习方法适配到千万级以上实体规模的图谱上
在优化过程中大规模知识图谱的高质量负采样、模型多维并行训练机制
以及并行训练中高效内存和通信管理
需要解决
等关键问题
超大规模知识图谱的知识表示学习
知识图谱的规模不断扩大的,且知识信息也随着时间不短更新
DBpedia 每天提取维基百科的更新流,以保持其知识图谱包含最新信息
阿里的产品知识图谱需要相当频繁地更新,由于其电商平台每天都有大量的新产品上线
在实际中
主要是聚焦在静态的知识图谱
忽略了知识图谱的动态性
现有的知识表示学习方法
大规模知识图谱稀疏性很强
已有表示学习模型在大规模知识图谱上性能堪忧
特别是对低频实体和关系的表示效果较差
根据知识图谱动态更新实体和关系表示突破该问题的重要途径
初步实验表明
除了充分融合多源信息降低稀疏性之外
借鉴课程学习和迁移学习等算法思想
进一步改善知识表示的效果
还可探索如何优化表示学习的方式
我们需要设计高效的在线学习方案
大规模知识图谱的在线知识表示学习
四技术展望与发展趋势
0 条评论
回复 删除
下一页