知识图谱_4实体关系抽取
2024-05-19 17:47:31 0 举报
AI智能生成
内容梳理自《知识图谱发展报告2022》的“实体关系抽取”部分。实体关系抽取是知识图谱构建的重要环节,其主要目标是从非结构化和半结构化的文本中自动识别和抽取出实体之间的关系。这些关系包括各种各样的类型,如国籍、职务、合作关系等。实体关系抽取的应用领域广泛,包括但不限于搜索引擎、智能问答系统、推荐系统等。
作者其他创作
大纲/内容
两个或多实体之间的某种联系
定义
关系
是检测和识别出实体之间具有的某种语义关系
并将结果以结构化的形式存储
概念
“华扬联众数字技术股份有限公司于 2017 年 8 月 2 日在上海证券交易所上市。”
给定文本
<华扬联众数字技术股份有限公司,上市时间,2017 年8 月 2 日>,<华扬联众数字技术股份有限公司,上市地点,上海证券交易所上市>。
通过实体关系抽取可以得到三元组
如
实体关系抽取
任务定义、目标
等多个学科的理论和方法
自然语言处理、机器学习、逻辑推理、数据挖掘
涉及到
能得到结构化知识
不仅
也将产生积极的促进作用
对相关学科理论的完善和发展
而且
在理论方面
提供核心技术
大规模知识图谱的构建
可以为
从语法分析到语义分析的关键环节
是实现文本
智能信息服务的关键支撑
同时也是
等多个研究方向的快速发展
以知识为核心的信息检索、智能问答、人机交互和海量数据管理
将促进
互联网相关产业的进一步发展
进而推进
在应用方面
在理论及应用方面
研究意义
外框
一任务定义 、目标和研究意义
是信息抽取领域的一个经典任务
① 结构化、② 半结构化、③ 非结构实体关系抽取三类
根据抽取数据来源主要可以分为
主要针对抽取难度较大的非结构化文本展开
目前研究工作
如何用特征来表示实体之间的语义关系
主要研究
① 基于规则的方法
分为:特征向量、核函数、深度学习自动特征学习等
② 统计机器学习方法
具体研究内容包括
语义关系表征
如何处理不同类型的关系抽取数据
远程监督标注数据噪声处理
小样本关系抽取
数据隐私保护
如何从预训练语言模型中抽取知识 等
抽取数据处理
如何处理实际应用场景中的复杂关系
关系抽取
多元关系抽取
自动发现实体间的新型关系 等
文档、对话、多模态等复杂场景下的
复杂关系建模
研究内容
将自然语言表达的关系知识映射到关系三元组上
关系抽取的核心
导致关系抽取任务极具挑战性
自然语言表达具有多样性和隐含性
然而
同一种关系可以有多种表达方式
指的是
可以用 “X 的总部位于 Y”,“X 总部坐落于 Y”,“作为 X 的总部所在地,Y⋯” 等不同的文本表达方式
“总部位置”这个语义关系
例如
概述
自然语言表达的多样性
关系有时候在文本中找不到任何明确的标识,关系隐含在文本中
是指
蒂姆·库克与中国移动董事长奚国华会面商谈“合作事宜”,透露出了他将带领苹果公司进一步开拓中国市场的讯号
并没有直接给出蒂姆·库克和苹果公司的关系
但从“带领苹果公司”的表达,我们可以推断出蒂姆·库克是苹果公司的首席执行官 (CEO)
在这一段文本中
关系表达的隐含性
抽取实体之间的语义关系
关系抽取的目标
真实世界中同一对实体之间可能有多个关系
而且有的关系可以同时存在,而有的关系具有时间特性
中国和北京的关系有多个,北京坐落于中国,北京是中国的首都,北京是中国的政治中心,北京是中国的文化中心。这些关系可以同时存在
但是如果两个人本来是夫妻关系,后来离婚了,他们就不是夫妻关系了,是前妻或者前夫的关系,这个类关系具有时空性,不能单独存在
实体关系的复杂性
面临挑战
二研究内容与挑战
主要以 MUC、ACE、SemEval、KBP 等评测会议提出的任务展开
在过去的 20 多年里都有持续研究
人工标注语料、基于“特征工程”的机器学习方法
也由
利用远程监督自动标注语料、机器自动学习特征的深度学习方法
发展到
其技术方法
为实体语义关系抽取带来了新的突破
与传统的非神经网络方法相比性能显著提升
为自动构建大规模知识图谱奠定带来了曙光
受到学术界和工业界的广泛关注
深度神经网络特别是BERT、GPT 等预训练语言模型
等 研究方向上涌现出一大批新的工作
在 ① 语义关系表征 ② 抽取数据处理 ③ 复杂关系建模
近年来
说明
前言
是一种非常有效的方法
已得到研究者共识
利用神经网络自动学习表征实体语义关系的特征
目前
即:先进行实体识别后语义关系分类
主要采用流水线的方法
尝试使用卷积神经网络自动学习语义关系分类特征
陆续将关系表示涉及的句法结构等信息引入进来,进一步提升了语义关系抽取的性能
之后研究人员
相关研究
早期工作
忽视了实体识别和关系分类两个任务之间的关联性
并且不可避免地存在实体识别模块错误传递
最早提出使用联合模型捕获语义关系之间错综复杂的关联
并通过实验验证了联合抽取的可行性
针对此问题
流水线方式
实体关系联合抽取
实体语义关系表征方向上的研究热点
利用实体识别任务帮助学习更好的语义关系特征
基本出发点
等三种方法
① 序列标注 ② 表填充 ③ 序列生成
联合抽取又分为
最近几年
接一个命名实体识别序列标注网络
然后再接一个关系分类的网络
通常在循环神经网络或预训练语言模型基础上
首先使用长短记忆网络编码输入的句子
然后通过序列标注进行实体识别
最后考虑实体在依存句法树上的路径对检测到的实体进行关系分类
模型训练时利用实体标签和关系标签联合更新网络参数
针对 Miwa 等所提方法依赖依存句法分析的问题
使用注意力机制帮助捕获实体对的语义关系特征,取得了更好的效果
提出了一种新的标注策略
将实体识别和关系分类任务融入标注策略,达到联合的目的
但是该标注策略无法处理三元组重叠的问题
使用分层的强化学习标注框架来增强实体和关系之间的交互性
整个抽取的过程被分解为高层和低层并分别用于关系判定和实体抽取
第一阶段使用多任务的方式找到实体和所有可能的关系得分
第二阶段构建实体关系图建模实体和关系之间的交互
提出两阶段图的方法
对重叠关系的预测比以前的序列方法有较大的改进
实验结果显示
提出了层级二值标注框架
首先通过序列标注的方式得到头实体边界
然后每种关系使用一个二值序列标注器找到头实体在此关系中对应的尾实体
实体识别和关系抽取任务共享同一个网络编码
上述方法共同特点是
认为命名实体识别和关系抽取表示特征应该不一样,底层共享一个表示层会限制模型的表达能力
提出了两个编码器组成的模型
序列标注方法
他们将句子中的词看作矩阵的横纵坐标
实体识别转换为填充表格的对角线元素
关系分类任务是填充上三角或者下三角矩阵
然后使用分类器填充表格元素
进一步使用循环神经网络依次填充表格
建模表格之间的依赖关系
从而捕获三元组之间的交互
利用句法信息全局优化表格填充帮助更好地进行关系抽取
根据实体的位置将句子分为三段
同时预测关系和实体的类型
利用条件随机场模型建模实体类型与关系之间的依赖关系
要求每个元素只能填充一个元素
无法处理三元组重叠的问题
上述表格填充方法
提出基于多头选择的方法
单独使用序列标注层检测实体
然后允许每个词在表格中选择多个词构成三元组
从而解决了重叠三元组抽取的问题
该方法
将填充过程分成了两个阶段
存在暴露偏置问题
使用多任务学习的思路
上述方法在表填充时
使用单阶段解码
将抽取框架统一为字符对链接问题
同时解决重叠关系和暴露偏置问题
表填充方法
将联合抽取问题看作是一个序列到序列生成问题
使用带拷贝机制的编码器-解码器模型 CopyNet 解决此问题
解码时通过从原句子中拷贝实体和预测关系得到三元组
由多个词构成的实体的问题
存在着无法处理
CopyNet
相继被提出
改进序列到序列的模型
之后一系列
在其编码器端增加序列标注模块识别实体
提出新的解码策略
从而避免无法处理词构成的实体
使用生成式 Transformer 并利用对比学习的方式训练模型
进一步提升语义关系特征的有效性
使用自回归的方法解码
无法避免模型存在的暴露偏置问题
上述基于生成的方法
提出一种树状解码的策略
使得解码长度不依赖于三元组的个数
有效减轻了暴露偏置的影响
将联合抽取进一步看作是序列到集合问题
使用非自回归方法解码
彻底消除暴露偏置的存在
序列生成
1语义关系表征
是典型的“数据饥渴”模型
性能占据主导地位的神经网络实体关系抽取
需要大量高质量的标注数据
而人工标注数据费时费力、一致性差
不足
研究人员提出远程监督关系抽取
为此
先利用分段卷积神经网络学习每个句子的表示
然后使用多示例学习避免噪声的干扰
提出只选取每个包中一个句子作为包的表示会丢失信息
提出使用注意力机制对包中的示例进行加权得到包的表示向量
提取出示例之间的隐藏关联
通过对包内所有的句子做最大池化操作
设计了一种多标签损失函数
使用 Sigmoid 计算每一个类别的概率
然后判断该包是否可能包含该类别
并且针对实体对之间可能存在多种关系的问题
利用强化学习抽取包中每个句子的关系
然后使用句子中的关系帮助包中关系的确定
采用负样本学习的方法
直接找出并过滤噪声样本
可以减轻数据的噪声
但是包中句子中很多其他有益的信息未被关注到
基于多示例学习的方法
以句子为单位,使用示例对比学习的方法挖掘其中丰富的语义信息
主要针对错误正样本展开
由于知识库的不完备性
远程监督还面临着错误负样本类噪声
上述方法
研究者也从正样本-未标注样本学习角度展开了关系抽取的研究
相关研究 1
为高效收集训练数据开启了新的纪元
仍难以通过远程监督机制来得到训练实例
但是真实场景中长尾知识而言
远程监督
首次将小样本学习引入到关系抽取
构建了小样本关系抽取数据集 FewRel
等方法相继被提出来完成该任务
之后
增加领域迁移和“以上都不是”检测任务
提出了 FewRel 2.0 数据集
在 FewRel 基础上
无法直接获取数据
很多领域的数据隐私性要求极高
另外
数据管理与隐私保护的要求日益严格
针对真实应用场景中
需要暴露大量数据
而现有方法的训练过程
同时
提出了联邦远程监督关系抽取任务
通过跨平台之间的协作,缓解联邦远程监督关系抽取中的数据噪声问题
利用懒惰多示例学习算法
降低联邦学习中的通信开销
并利用基于集成蒸馏的联邦训练框架
相关研究 2
主要面向非结构化文本
传统的实体关系抽取研究
随着大规模预训练语言模型的快速发展
除包含的语言学知识外
还包含了事实性的知识
研究者认为预训练的语言模型 (如 BERT 等) 中
当作一个现成的、开放的知识库
可以将预训练语言模型
因此
对语言模型记忆知识的能力进行了探测
针对该问题提出了语言模型分析(LAMA)任务
并基于多个知识源手工创建了单个词语的完形填空数据集
认为 LAMA 只是测量了语言模型所知道的下限
并提出了更高级的方法来生成更高效的查询
进一步挖掘模型提取知识的能力
使用了一种更具有难度的闭卷问答任务
让模型先在相关数据集上微调
在微调过程中模型需要学习如何挖掘之前预训练获得的知识并加以利用
不仅存储了大量的知识
并且可将这些知识迁移到下游任务中
预训练语言模型
实验表明
加入了一个实体记忆模块和事实记忆模块
在 BERT 架构基础上
来增强文本表示
通过加入对实体、关系和三元组事实知识的编码信息
模块化地将模型中存储的事实知识分离出来
在一定程度上
相关研究 3
2抽取数据处理
主要处理的是简单关系
传统的关系抽取
试图提取涉及多个实体或在特定约束下的更复杂关系
复杂关系抽取
包括:文档级、多元关系、跨文档、增量式、多模态抽取等多个研究点
目前呈现百花齐放状态
该方向的研究
提出了一个人工标注的大规模文档级语义关系抽取数据集 DocRED
利用以边为中心的图神经网络建模跨句之间的实体交互
使用图神经网络学习文档地潜在结构
逐步汇总多跳信息进行语义关系推理
一个图用于特征传播
另外一个用于关系推理
使用两个图网络结构来实现语义关系抽取
研究者也开始尝试直接使用大规模语言模型建模文档
除了使用图网络外
代替用于多标签分类的全局阈值
提出自适应阈值
找到有助于确定关系的相关上下文特征
并直接利用预训练模型的自注意力得分
主要关注文档中的二元关系
近年来也有工作探索多元关系抽取
提出基于图 LSTM 的关系抽取网络抽取多个句子中存在的多元关系
提出多尺度神经结构进行多元关系抽取
所用方法同时考虑了不同尺度的文本跨度和不同子关系的学习表示
提出了一个新的跨文档抽取任务
并发布了数据集 CodRED
探索了如何在实际的医疗对话中抽取出症状、检查、手术、一般信息及其相应的状态
一般假设有预先定义好的封闭关系集合
现有关系抽取任务设定
无法被有效获取
实体间的新型关系
提出基于关系原型表示的持续关系抽取方法
在预定义关系数据集上预训练
完成未标记数据聚类
然后通过最小化标记数据和未标记数据上的联合目标
最后进行增量式学习
提出基于小样本学习的方法
同时利用文本和面部图像进行社会关系抽取
并发布了由四部经典名著和相应的电视剧组成的多模态数据
构造了一个多模态的关系分类数据集
给定图像和单句及两个实体进行关系分类
并验证了可以通过视觉信息帮助纯文本的关系分类
3 复杂关系建模
三技术方法和研究现状
已经成为了信息抽取和自然语言处理的重要分支
技术研究蓬勃发展
得益于系列国际权威评测和会议的推动
消息理解系列会议(MUC,Message Understanding Conference),自动内容抽取评测(ACE,Automatic Content Extraction),文本分析会议系列评测(TAC,Text Analysis Conference)
一方面
使其同时得到了研究界和工业界的广泛关注
也是因为实体关系抽取技术的重要性和实用性
另一方面
也大幅度推进了中文信息处理研究的发展
迫使研究人员面向实际应用需求
开始重视之前未被发现的研究难点和重点
实体关系抽取技术自身的发展
本文认为实体关系抽取的发展方向如下(四个方面)
纵观实体关系抽取研究发展的态势和技术现状
需要用一个巨大的训练集训练的
在这 N*K 个样本上学习并预测
测试时只给出 N-way K-shot
小样本学习设定
不存在巨大的训练集
① 真实场景下的小样本学习
迫切需要利用小样本实现模型在新类别关系上的快速训练模型
② 还需要考虑如何自动发现新类别
真实应用中
从 GPT3 开始,预训练-提示 (Prompt) 学习范式受到研究者的关注
将下游任务也建模成语言模型任务
只给出几条或几十条样本作为训练集
借助与大规模预训练语言模型中蕴含的大量知识
在
取得了不错的小样本学习效果
该范式
可摆脱指数级的预训练参数量对巨大计算资源的需求
高效的利用预训练模型
Prompt
此外,相对于传统的Pretrain+Finetune 范式
Prompt范式
本文认为实体关系抽取发展方向之一是:利用预训练—提示学习范式进行高效的新类别/开放类别上的小样本学习
基于上述分析
开放类别语义标签自动生成与新类别的挂载
提示学习中关系抽取任务模板的设计与自动学习
预训练-提示学习范式进行实体关系抽取的理论分析
具体包括
1 新类别/开放类别上的小样本学习能力
有监督学习
或 远程监督学习
主要是基于
需要将大规模的标注数据集中暴露给模型
此类模型
性能较好的实体关系抽取模型
在金融、医疗、安全、军事等应用场景中
但是
是目前技术在真实应用场景中落地的主要挑战之一
如何实现数据隐私保护下的实体关系抽取模型高效训练
本文认为实体关系抽取的发展方向之一是:数据隐私保护下的关系可信抽取
数据隐私保护下的大规模实体关系抽取数据自动生成
含噪数据下的实体关系抽取模型鲁棒性训练
数据隐私保护下的实体关系抽取模型高效训练
2 数据隐私保护下的关系可信抽取
主要针对的是纯文本数据
具有多样的布局且包含丰富的信息
以富文本文档的形式呈现包含大量的多模态信息
而常见的文档
如:人可以同时利用视觉和听觉信息理解说话人的情感、可以通过视觉信息补全文本中的缺失信息等
人脑的感知和认知过程是跨越多种感官信息的融合处理
也应该是针对多模态的富文档
实体关系抽取技术的进一步发展
从认知科学的角度来说
本文认为实体关系抽取的发展方向之一是:多模态信息的融合
面向关系的多模态预训练模型的设计
多模态信息抽取框架中跨模态对齐任务设计
多模态信息的提取和表示
3 多模态关系抽取
以数据驱动的方式得到各种语义关系的统计模式
依靠深度学习
比较容易利用证据和事实
其优势在于能从大量的原始数据中学习相关特征
忽略了怎样融合专家知识
现有的神经网络实体关系抽取方法
到一定准确率之后,就很难再改进
单纯依靠神经网络进行实体关系抽取
很多决策的时候同时要使用先验知识以及证据
从人类进行知识获取来看
是模拟人脑进行信息抽取的关键挑战
数据驱动和知识驱动结合
本文认为信息抽取的发展方向之一是:构建数据驱动和知识驱动融合抽取技术
神经符号学习信息抽取框架的构建
学习神经网络到逻辑符号的对应关系
神经网络对于符号计算过程进行模拟
4 数据驱动和知识驱动融合
四发展趋势
0 条评论
回复 删除
下一页