知识图谱_6知识融合
2024-05-19 18:05:32 0 举报
AI智能生成
为你推荐
查看更多
内容梳理自《知识图谱发展报告2022》的“知识融合”部分。在知识图谱中,知识融合是一个重要的过程,它通过融合不同来源、不同结构的知识,使知识更加完整和准确。知识融合的过程通常包括实体对齐(Entity Alignment)、属性补全(Attribute Completion)和关系预测(Relation Prediction)等步骤。通过知识融合,我们能够从数据中发现新的知识,实现跨领域的知识共享和重用。
作者其他创作
大纲/内容
以符号化的方式描述真实世界中的实体及其属性和相互关系
并将它们组织成事实三元组的结构
知识图谱概念
时至今日,知识图谱已成为各类知识驱动人工智能方法的重要资源
涵盖了包括社交网络、生物医学、地理信息、电子商务、电影音乐等众多领域
支撑语义搜索、 智能问答、推荐系统、大数据分析等智能应用
知识图谱应用
知识图谱可能由不同的机构和个人构建
同时,构建知识图谱的数据可能有各种来源
导致不同的知识图谱之间存在【多样性和异构性】
对于不同的相关领域(甚至是相同领域)
通常会存在多个不同的实体指称真实世界中的相同事物
例如:
存在的问题
任务定义
将不同知识图谱融合为一个统一、一致、简洁的形式
为使用不同知识图谱的应用间的交互建立互操作性
知识融合旨在
(也称为本体映 射)
① 本体匹配
(也称为实例匹配、实体消解)
② 实体对齐
(也称为真值推断)
③ 真值发现
④ 实体链接 等
知识融合常见的研究内容包括
① 大规模、② 异构性、③ 低资源等问题
面临的核心挑战主要包括
目标
是知识图谱研究中的一个【核心问题】
知识融合
有助于提升基于知识图谱的信息服务水平和智能化程度
推动人工智能、自然语言处理、语义网、数据库等相关领域的技术进步
具有重要的理论价值和广泛的应用前景
可以创造巨大的社会和经济效益
知识融合研究
研究意义
外框
一、任务定义、目标和研究意义
① 预先对输入的知识图谱进行清洗
② 后续步骤的准备
预处理主要包括
主要为了解决输入的质量问题
清洗
可以避免在匹配环节达到知识图谱规模的平方级复杂度
通过对索引的设计
通常使用分块(blocking)技术
在尽量不丢失可能结果的情况下使分块尽可能的小
对分块大小和数量的权衡
这里的一个关键问题是
后续步骤的准备
预处理
① 本体匹配、② 实体对齐、③ 实体链接等方面
根据匹配对象的不同,匹配一般分为
知识图谱模式层的等价或相似的类、属性或关系
侧重发现
本体匹配
指称真实世界相同个体的实例
实体对齐
链接到知识图谱中的实体节点
将自然语言文本中的实体提及 (mention)
实体链接
是匹配环节待解决的【关键科学问题】
如何从语义上消解对象之间的异构性
匹配
从不一致的数据中推测出真值
以实现多源异构知识的关联与合并
最终形成一个一致的结果
在匹配的基础上,真值推断的主要目标是
数据源的可靠性
和数据值的可信度
如何综合判断
研究的关键在于
真值判断
二、研究内容和关键科学问题
本体匹配的目标
近年来,关于本体匹配的研究进展不多
早期的一些代表性工作包括
获得了 2021 年语义网科学联盟(SWSA)颁发的十年最具影响力论文奖
是一个高度可扩展的本体匹配系统
a. 高效地匹配包含数万(甚至数十万)类别的本体
b. 利用复杂的推理和修复技术来减少逻辑不一致性的数量
c. 在匹配过程中支持用户的可视化干预
它可以
LogMap
LogMap 也将表示学习技术集成到本体匹配任务中
近年来
一个段落
1. 本体匹配
近年来,以知识图谱表示学习为基础的实体对齐方法逐渐成为主流
基于表示学习的实体对齐框架
将单个知识图谱嵌入到向量空间
基于几何运算的模型
多数方法采用
图神经网络等
也有工作使用
① 表示学习模块
使用先验知识或人工标注得到少量先验对齐进行训练
再使用常用的向量度量函数对齐实体的表示
或者寻找全局最优的集体实体对齐结果
② 对齐模块
不断选择新发现的实体对齐
来扩充训练样本
采用迭代的方式
还有一些工作
① 将不同知识图谱嵌入到统一的向量空间
② 学习不同知识图谱向量空间之间的映射关系
表示学习模块与对齐模块之间存 在两种典型的交互方式
一个段落-内容介绍
是近期的一个代表性方法
保持了对知识图谱内和知识图谱间信息的建模
其在降低模型计算复杂度的情况下
用于捕捉单个知识图谱内的结构信息
设计了一个基于关系型注意力的卷积层
Dual-AMN
具体地
设置了一组代理向量隐式地表示图谱之间的对齐关系
并通过代理匹配注意力机 制来捕捉
针对知识图谱间的对齐信息
一个段落-代表性方法
一些研究工作也尝试考虑更具挑战性的新场景
除了面向常规实体对齐场景的方法
改变了常规场景中知识图谱是静态的假设
认为图谱事实是会动态演变的
因此表示学习模型需要针对不断变化的图结构信息 对实体表示进行更新
首次提出了动态实体对齐任务
先基于拓扑无关的掩码门控机制得到静态的实体表示
再采用局部更新策略对动态过程中受影响的实体表示进行修正
DiNGAl
针对该挑战
将这部分新的对齐作为正例进行训练
从而对所有实体表示进行更新
避免了从头训练的开销
由于动态过程中也会出现新的先验对齐
一个段落-挑战性研究
而现有的实体对齐方法完全忽视了时间信息
知识图谱中的事实具有时效性
提出了面向时序知识图谱的实体对齐任务
使用开始时间戳和结束时间戳表示时间信息
并基于图神经网络将不同知识图谱中的实体、关系、时间戳嵌入到统一的向量空间中
整体框架如图 4 所示
针对该问题
用于获得实体的邻居信息
首先为关系和时间戳分配不同的正交矩阵
来区分不同邻居的重要性
然后在聚合时使用了一种时间感知的注意力机制
TEA-GNN
还将实体表示和相邻的时间表示之和进行拼接
从而得到最终的实体表示
为了进一步集成时间信息
一个段落-针对问题的解决
1)基于表示学习的实体对齐
来获得丰富的标注数据
通过付出较小的人工代价
从而提高模型的性能
基于人机协作的实体对齐方法
实体对标签的推断结构
先构建
由用户标注推断效用最大的未知实体对
并进行推断
然后
常见方法
并将它们拼接成相似度向量
计算每对实体在不同属性上的相似度
让用户标注偏序中前驱和后继总数最多的实体对
通过向量划分算法构造偏序结构
将实体对用对齐好的关系连接构成实体消解图
再基于实体对之间的关系建立概率传播模型
通过错误容忍的真值推断策略以及最优化问题选择算法来最大化收益期望
一个段落-常见方法的研究1
近年来,一些工作也尝试将深度神经网络和人机协作方法相结合
并根据深度模型输出的熵挑选出候选对齐用于标注
基于迁移学习初始化模型参数
用于度量每个实体的对齐不确定性以及对周围邻居的影响程度
提出了一种结构感知的不确定性采样策略
还设计了一种孤立实体识别器
从而减少对这部分实体采样而造成的偏差
ActiveEA
考虑到有些孤立实体在对应知识图谱内不存在可与之对齐的实体
一个段落-相关研究2
进一步探索了深度强化学习与主动学习技术的结合
整体框架 如图 5 所示
RAC 设计了 3 种查询策略
基于度数、PageRank 值和信息熵
自适应地混合 3 种查询策略
并挑选出最优查询供人工标注
RAC 采用多臂老虎机策略
考虑到不同迭代轮次中不同查询策略的重要性会有所不同,且单个查询策略不能满足所有数据集的需要
一个段落-相关研究3
有工作开始探索不利用任何标签信息的实体对齐方法
考虑到潜在的人工标注成本
将不同知识图谱中的实体映射到一个统一的向量空间中
并以此捕捉实体的语义相似度
其利用预训练语言模型
设计了一种自监督实体对齐算法
SelfKG 拉远随机采样到的负例实体对的表示
以此达到拉近潜在正例实体对的效果
为了避免利用标签信息
其只在实体所在的知识图谱中进行负例采样
为了避免随机采样出假负例
展现了将自监督学习应用于实体对齐的潜力
该方法优于众多监督方法
在基准数据集上
一个段落-相关研究4
2)基于人机协作的实体对齐
近期一些工作引入【图像模态】
并将多种模态的信息进行融合
考虑到图像特征可以在一定程度上帮助消歧
逐渐成为一个新的研究热点
基于多模态的实体对齐
较早地在实体对齐中考虑了图像特征空间
用于获得实体在不同模态下的向量表示
使用 TransE 生成结构特征
使用 VGG16 获得图像特征
其中
还额外考虑了数值型属性
并利用径向基函数(radial basis function)神经网络生成该模态的向量表示
MMEA
① 多模态知识嵌入
每个模态下的向量表示来自于不同的特征空间
MMEA 认为
设置了一个公共 特征空间
因而
不同模态下的向量表示与公共空间下的向量表示尽可能接近
并要求
不同模态信息的互补
以此实现
② 在多模态知识融合模块
主要包含两个模块
一个段落-相关研究1
使用 ResNet-152 对图像特征进行初始化
采取了类似的建模思路
以实现多模态信息融合
EVA 设计了一 种基于注意力机制的多模态加权策略
进一步地
多模态技术在无监督实体对齐场景下的可能性
仅利用图像相似度生成初始实体对的性能能够逼近有监督场景下的表现
实验结果表明
EVA 还探索了
此外
3)多模态实体对齐
2. 实体对齐
消除知识融合过程中的冲突
一般通过冲突检测、真值推断等技术
再对知识进行关联与合并
真值发现
其中有些可能是不准确的,需要推断
例如:不同数据源可能对珠穆朗玛峰的高度有不同的描述
如何处理多源数据中的冲突
其将数据来源纳入考量
迭代评估数据源的可靠性与数据值的可信度直至收敛
① 第一类是迭代方法
其通过最小化带权整体推断误差
使得真值向可靠性高的数据源所提出的值靠近
同时距离较远的数据源会在优化过程中被分配较小的权重作为其可靠性
② 第二类是优化方法
并利用贝叶斯网络等模型对随机变量及其依赖关系进行建模
其对影响数据源可靠性的潜在因素进行假设
③ 最后一类是概率图模型
常见的方法包括 3 类
需要人为设置
迭代和优化方法中的一系列计算规则以及概率图方法中的各种影响因素
由于
各种场景下的潜在数据分布与影响
常常不能真实反映
不足
近年来一些工作运用深度学习探索真值推断问题
来构建异构信息网络
基于数据源— 数据值、数据源—数据源以及真值—数据值之间的关联
即通过节点的表示来拟合节点之间边的存在性
将真值发现建模成异构信息网络的表示学习问题
来建模它们在不同目标上数据值的相似性
根据数据源的表示
来解决数据稀疏性问题
并使用 beta 分布
CASE
同时
得到网络元素的表示
利用已知真值进行半监督学习
选作真值
将与真值的表示最接近的数据值
最终
建模成二部图
将数据源和推断目标及其之间的关联
得到数据源的初始特征
基于图自编码器和数据源之间的关联性
得到带推断目标的初始特征
基于预训练文本或图像信息编码器
计算节点之间的关联性
先通过注意力机制
得到数据源、推断目标和边的信息
再使用二部图卷积网络同时聚合这些信息
预测推断目标的真值
并通过真值进行训练
最后,基于图卷积网络聚合的信息
BAT
研究快速更新数据源可靠性和实体真值的方法
此外,还有工作针对批量或流式数据
引 入了马尔可夫模型
因此
来确定
可以通过当前真值和一个固定的转移矩阵
下一时刻的真值
即
注意到同一推断目标在不同时间点的真值之间具有关联性
设计了一种线性时间的在线参数估计算法
基于卡尔曼滤波与平滑器
实现快速高效地估计真值
EvolveT
3. 真值发现
文本中的命名性实体的提及文本
需要预先识别
枚举知识图谱中可能的候选实体
然后根据该提及
并利用排序的方式
通常建立在实体识别任务之上
两种歧义性问题
“一词多义”和“多词同义”
这使得实体链接方法通常需要处理
由于自然语言的多样性和模糊性,实体的表述往往具有较高的歧义性
是指同一个实体名称可以表示多个实体的情况
链接到实体“苹果 Apple(企业)”
而非实体“苹果(水果)”
实体链接方法需要将其中的“苹果”
例如,给定自然语言文本“苹果发布了最新的手机产品 iPhone 13”
“一词多义”
是指一个实体可以用多个名称来表示的情况
都可以用来表示 “自然语言处理(领域)”这个实体
例如,“自然语言处理”和“NLP”
“多词同义”
利用字符串比较、 机器学习等方法
从给定的文本序列中识别出描述实体的单词或短语
① 实体提及识别
根据已识别出的实体提及
从海量的实体集合中选出有限数量的候选实体
基于字符串匹配
基于资源扩展别名
基于先验概率计算
可以划分为3种方法
② 候选实体生成
结合上下文语境
对实体提及和候选实体进行相似度判断
并按照相似度得分进行排序
基于统计的方法
基于深度学习的方法
可以划分为
③ 候选实体排序
在知识图谱中并不存在
部分实体
由于知识图谱的不完备性
实体提及是否链接到不存在的实体
需要判断
④ 不可链接提及预测
一个完整的实体链接方法通常包括 4 个步骤
一个段落-步骤
是由 Facebook 提出的一种两阶段零样本实体链接模型
来编码文本提及和实体描述
首先使用双向编码器
来分别获得提及和实体的表示向量
将二者的点积作为候选实体得分
并使用两个独立的 BERT
来同时编码提及和实体
接着,使用一个基于 BERT 的交叉编码器
计算出最后的实体得分并进行排序
随后接入一个线性层
作为预测的链接结果
取得分最高的候选实体
其
使用 Transformer 编码器来进行端到端的实体链接
其架构如图 7 所示
在大型语料库上进行了 预训练
虽然
在具体任务中仍需考虑额外的上下文信息
但是
现有的预训练模型(例如 BERT)
CHOLAN 认为
识别输 入句子中的提及
首先利用 BERT
为每个提及生成为知识库中的实体候选
从而预测出链接的实体
最后将实体提及、句子、实体候选以及 Wikipedia 中关于实体的描述信息拼接起来输入另一个 BERT
CHOLAN
来识别实体提及
首先利用 Wikipedia 和 CrossWikis 的超链接数量
选取排名靠前的实体作为候选实体
然后根据该概率
从提及的附近单词中选取相似度最大的几个实体作为候选实体
之后,再利用相似度度量函数
对所有候选实体进 行排序与消歧
最后, 基于先验的重要程度、上下文相似度以及文档中其他实体链接的一致性
REL
针对候选生成
将提及检测和实体消歧两个子任务的顺序进行颠倒
并将整个链接任务建模为一个开放域问答任务
利用知识图谱中实体的标题和描述来建模实体
采用 Retriever-Reader 的框架
计算文本片段和实体之间的相似性评分
快速地生成多个候选实体
Retriever 模块
以文档、文本片段和候选实体为输入
候选实体对应于提及的概率
以及该候选实体为正确实体的概率
建模出
实体链接结果
进而预测出
Reader 模块
EntQA
三个段落-近期的代表性方法
4. 实体链接
可以从 OAEI(Ontology Alignment Evaluation Initiative)网站上获得
一些常见的本体匹配工具和系统
就本体匹配而言
是一个最新的基于表示学习的实体对齐开源软件库
总体框架如图 8 所示
它使用了一个灵活的软件架构
大量现有的表示学习模型
可以较容易地集成
目前集成了 12 种代表性实体对齐方法
OpenEA
EAkit
另一个类似的开源软件库是
面向实体对齐
集成了 17 种真值推断算法
是否判断
单项选择
数值估计
支持 3 种类型任务的真值推断
CrowdTruthInference
面向真值发现
工具软件
对于知识融合也十分重要
它们提供了一个横向比较各种方法性能优劣的平台
标准的评测数据集
除了传统的 OAEI 评测数据集
也出现了一些新的数据集
随着知识融合研究的蓬勃发展
中文到英文
日语到英文
法语到英文
分别是
包含 3 个从多语言版本 DBpedia 构建的跨语言数据 集
DBP15k 数据集
DBP-WD
DBP-YG
包含两个从 DBpedia、Wikidata 和 YAGO3 抽取出的大规模数据集
DYW100k
一个新的基于多语言版本 DBpedia 的实体对齐数据集 DBP 2.0 被构建
① 面向实体对齐
AIDA CoNLL-YAGO、TAC KBP 等经典数据集以及 WNED-CWEB、WNED-WIKI 等新数据集
通过 AIDA、 AQUAINT、ACE 等评测竞赛构建了
同时也催生出
② 实体链接技术的重要性和实用性得到了工业界和学术界的广泛关注
可以从如下网站访问:http://dbgroup.cs.tsinghua.edu.cn/ligl/crowddata。
③ 另外,一批公开的面向图像、文本、数值等不同领域和任务类型的真值发现数据集
评测数据集
5. 工具软件和评测数据集
三、研究技术和研究现状
受此启发针对大规模知识图谱进行预训练成为了未来的一个潜在研究方向
大规模知识图谱的表示学习可以得到实体的通用知识信息
一定程度缓解了下游实体对齐中知识不充分的问题
如:实体缺失部分模态信息
例如在实体对齐中
可以间接帮助低资源语言的实体链接
预训练得到的高资源语言知识
同样地,在多语言实体链接中
预训练得到的知识同样可以迁移至下游诸多任务
从而在更大规模的知识图谱上开展预训练很值得研究
例如:如何利用知识融合技术对异构的知识图谱进行融合
挑战
预训练语言模型在自然语言处理领域中取得了巨大成功
知识可能会随着时间变化
得到更多准确的事实
用来补充动态知识图谱
面向流式数据的动态实体对齐和真值发现技术
未来的工作可以考虑
例如
以提高真值发现的准确性
利用动态知识图谱表示学习技术为动态真值发现提供真值的先验知识
也可以考虑
又如
知识融合的研究问题近年来也有了一些新设定
实体对齐的 DBP15K 数据集
实体链接的 TAC KBP 数据集
如
主要基于一些小规模数据集进行评测
现有的研究工作
已经显现出一定的滞后性
这些数据集的构建已有一段时间
覆盖面较窄
与真实世界存在一定的差别
同时数据集的规模较小
然而
多模态实体对齐
复杂事实真值推断
跨语言实体链接 等新任务
针对诸如
开发出规模更大、质量更高的大规模评测数据集
从而更专业、更全面地评测知识融合领域的工作
未来需要考虑如何结合现阶段的研究进展
在评测数据集方面
四、技术展望
0 条评论
回复 删除
下一页