首页  思维导图  详情



 



知识图谱_4实体关系抽取

2024-05-19 17:47:31   1  举报





AI智能生成

内容梳理自《知识图谱发展报告2022》的“实体关系抽取”部分。实体关系抽取是知识图谱构建的重要环节，其主要目标是从非结构化和半结构化的文本中自动识别和抽取出实体之间的关系。这些关系包括各种各样的类型，如国籍、职务、合作关系等。实体关系抽取的应用领域广泛，包括但不限于搜索引擎、智能问答系统、推荐系统等。

知识图谱

实体关系抽取

读书笔记

模板推荐

作者其他创作

大纲/内容

一任务定义、目标和研究意义

任务定义、目标

关系

定义

两个或多实体之间的某种联系

实体关系抽取

概念

是检测和识别出实体之间具有的某种语义关系

并将结果以结构化的形式存储

如

给定文本

“华扬联众数字技术股份有限公司于 2017 年 8 月 2 日在上海证券交易所上市。”

通过实体关系抽取可以得到三元组

<华扬联众数字技术股份有限公司，上市时间，2017 年8 月 2 日>，<br><华扬联众数字技术股份有限公司，上市地点，上海证券交易所上市>。

研究意义

在理论及应用方面

在理论方面

实体关系抽取

涉及到

自然语言处理、机器学习、逻辑推理、数据挖掘

等多个学科的理论和方法

不仅

能得到结构化知识

而且

对相关学科理论的完善和发展

也将产生积极的促进作用

在应用方面

实体关系抽取

可以为

大规模知识图谱的构建

提供核心技术

是实现文本

从语法分析到语义分析的关键环节

同时也是

智能信息服务的关键支撑

将促进

以知识为核心的信息检索、智能问答、人机交互和海量数据管理

等多个研究方向的快速发展

进而推进

互联网相关产业的进一步发展

二研究内容与挑战

研究内容

实体关系抽取

是信息抽取领域的一个经典任务

根据抽取数据来源主要可以分为

① 结构化、② 半结构化、③ 非结构实体关系抽取三类

目前研究工作

主要针对抽取难度较大的非结构化文本展开

语义关系表征

主要研究

如何用特征来表示实体之间的语义关系

具体研究内容包括

① 基于规则的方法

② 统计机器学习方法

分为：特征向量、核函数、深度学习自动特征学习等

抽取数据处理

主要研究

如何处理不同类型的关系抽取数据

具体研究内容包括

远程监督标注数据噪声处理

小样本关系抽取

数据隐私保护

如何从预训练语言模型中抽取知识等

复杂关系建模

主要研究

如何处理实际应用场景中的复杂关系

具体研究内容包括

文档、对话、多模态等复杂场景下的

关系抽取

多元关系抽取

自动发现实体间的新型关系等

面临挑战

自然语言表达的多样性

关系抽取的核心

将自然语言表达的关系知识映射到关系三元组上

然而

自然语言表达具有多样性和隐含性

导致关系抽取任务极具挑战性

概述

指的是

同一种关系可以有多种表达方式

例如

“总部位置” 这个语义关系

可以用 “X 的总部位于 Y”，“X 总部坐落于 Y”，“作为 X 的总部所在地，Y⋯” 等不同的文本表达方式

关系表达的隐含性

概述

是指

关系有时候在文本中找不到任何明确的标识，关系隐含在文本中

例如

蒂姆·库克与中国移动董事长奚国华会面商谈“合作事宜”，透露出了他将带领苹果公司进一步开拓中国市场的讯号

在这一段文本中

并没有直接给出蒂姆·库克和苹果公司的关系

但从“带领苹果公司”的表达，我们可以推断出蒂姆·库克是苹果公司的首席执行官 (CEO)

实体关系的复杂性

关系抽取的目标

抽取实体之间的语义关系

然而

真实世界中同一对实体之间可能有多个关系

而且有的关系可以同时存在，而有的关系具有时间特性

例如

中国和北京的关系有多个，北京坐落于中国，北京是中国的首都，北京是中国的政治中心，北京是中国的文化中心。这些关系可以同时存在

但是如果两个人本来是夫妻关系，后来离婚了，他们就不是夫妻关系了，是前妻或者前夫的关系，这个类关系具有时空性，不能单独存在

三<br><br>技术方法和研究现状<br>

前言

实体关系抽取

在过去的 20 多年里都有持续研究

主要以 MUC、ACE、SemEval、KBP 等评测会议提出的任务展开

其技术方法

也由

人工标注语料、基于“特征工程”的机器学习方法

发展到

利用远程监督自动标注语料、机器自动学习特征的深度学习方法

说明

深度神经网络特别是 BERT、GPT 等预训练语言模型

为实体语义关系抽取带来了新的突破

与传统的非神经网络方法相比性能显著提升

为自动构建大规模知识图谱奠定带来了曙光

受到学术界和工业界的广泛关注

近年来

在 ① 语义关系表征 ② 抽取数据处理 ③ 复杂关系建模

等研究方向上涌现出一大批新的工作

1 语义关系表征

概述

目前

利用神经网络自动学习表征实体语义关系的特征

是一种非常有效的方法

已得到研究者共识

早期工作

主要采用流水线的方法

即：先进行实体识别后语义关系分类

已得到研究者共识

相关研究

Zeng 等[Zeng et al., 2014]

尝试使用卷积神经网络自动学习语义关系分类特征

之后研究人员

陆续将关系表示涉及的句法结构等信息引入进来，进一步提升了语义关系抽取的性能

流水线方式

忽视了实体识别和关系分类两个任务之间的关联性

并且不可避免地存在实体识别模块错误传递

针对此问题

Li 等 [Li & Ji, 2014]

最早提出使用联合模型捕获语义关系之间错综复杂的关联

并通过实验验证了联合抽取的可行性

相关研究

Miwa 等 [Miwa & Bansal, 2016] 等

首先使用长短记忆网络编码输入的句子

然后通过序列标注进行实体识别

最后考虑实体在依存句法树上的路径对检测到的实体进行关系分类

模型训练时利用实体标签和关系标签联合更新网络参数

Katiyar 等 [Katiyar & Cardie, 2017]

针对 Miwa 等所提方法依赖依存句法分析的问题

使用注意力机制帮助捕获实体对的语义关系特征，取得了更好的效果

Zheng 等 [Zheng et al., 2017]

提出了一种新的标注策略

将实体识别和关系分类任务融入标注策略，达到联合的目的

但是该标注策略无法处理三元组重叠的问题

Takanobu 等 [Takanobu et al., 2019]

使用分层的强化学习标注框架来增强实体和关系之间的交互性

整个抽取的过程被分解为高层和低层并分别用于关系判定和实体抽取

Fu 等 [Fu et al., 2019]

提出两阶段图的方法

第一阶段使用多任务的方式找到实体和所有可能的关系得分

第二阶段构建实体关系图建模实体和关系之间的交互

实验结果显示

对重叠关系的预测比以前的序列方法有较大的改进

Wei 等 [Wei et al., 2020]

提出了层级二值标注框架

首先通过序列标注的方式得到头实体边界

然后每种关系使用一个二值序列标注器找到头实体在此关系中对应的尾实体

上述方法共同特点是

实体识别和关系抽取任务共享同一个网络编码

Zhong 等 [Zhong & Chen, 2021]

认为命名实体识别和关系抽取表示特征应该不一样，底层共享一个表示层会限制模型的表达能力

提出了两个编码器组成的模型

表填充方法

相关研究

最早由 Miwa 等 [Miwa & Sasaki, 2014] 提出

他们将句子中的词看作矩阵的横纵坐标

实体识别转换为填充表格的对角线元素

关系分类任务是填充上三角或者下三角矩阵

然后使用分类器填充表格元素

Gupta 等 [Gupta et al., 2016]

进一步使用循环神经网络依次填充表格

建模表格之间的依赖关系

从而捕获三元组之间的交互

Zhang 等 [Zhang et al., 2017]

利用句法信息全局优化表格填充帮助更好地进行关系抽取

Adel 等 [Adel & Schütze, 2017]

根据实体的位置将句子分为三段

同时预测关系和实体的类型

利用条件随机场模型建模实体类型与关系之间的依赖关系

上述表格填充方法

要求每个元素只能填充一个元素

无法处理三元组重叠的问题

受序列标注方法的启发，Bekoulis 等 [Bekoulis et al., 2018]

提出基于多头选择的方法

该方法

单独使用序列标注层检测实体

然后允许每个词在表格中选择多个词构成三元组

从而解决了重叠三元组抽取的问题

上述方法在表填充时

使用多任务学习的思路

将填充过程分成了两个阶段

存在暴露偏置问题

Wang 等 [Wang et al., 2020]

使用单阶段解码

将抽取框架统一为字符对链接问题

同时解决重叠关系和暴露偏置问题

序列生成

相关研究

最早由 Zeng 等 [Zeng et al., 2018b] 提出

将联合抽取问题看作是一个序列到序列生成问题

使用带拷贝机制的编码器-解码器模型 CopyNet 解决此问题

解码时通过从原句子中拷贝实体和预测关系得到三元组

CopyNet

存在着无法处理

由多个词构成的实体的问题

之后一系列

改进序列到序列的模型

相继被提出

Zeng 等 [Zeng et al., 2020a]

在其编码器端增加序列标注模块识别实体

Nayak 等 [Nayak & Ng, 2020]

提出新的解码策略

从而避免无法处理词构成的实体

Ye 等 [Ye et al., 2020]

使用生成式 Transformer 并利用对比学习的方式训练模型

进一步提升语义关系特征的有效性

上述基于生成的方法

使用自回归的方法解码

无法避免模型存在的暴露偏置问题

为此，Zhang 等 [Zhang et al., 2020a]

提出一种树状解码的策略

使得解码长度不依赖于三元组的个数

有效减轻了暴露偏置的影响

Sui 等 [Sui et al., 2021]

将联合抽取进一步看作是序列到集合问题

使用非自回归方法解码

彻底消除暴露偏置的存在

2 抽取数据处理

概述

目前

性能占据主导地位的神经网络实体关系抽取

是典型的“数据饥渴”模型

不足

需要大量高质量的标注数据

而人工标注数据费时费力、一致性差

为此

研究人员提出远程监督关系抽取

相关研究 3

Wan 等 [Wan et al., 2021]

提出基于小样本学习的方法

同时利用文本和面部图像进行社会关系抽取

并发布了由四部经典名著和相应的电视剧组成的多模态数据

Zheng 等 [Wan et al., 2021]

构造了一个多模态的关系分类数据集

给定图像和单句及两个实体进行关系分类

并验证了可以通过视觉信息帮助纯文本的关系分类

四发展趋势

前言

实体关系抽取

技术研究蓬勃发展

已经成为了信息抽取和自然语言处理的重要分支

说明

一方面

得益于系列国际权威评测和会议的推动

如

消息理解系列会议（MUC，Message Understanding Conference），自动内容抽取评测（ACE，Automatic Content Extraction），文本分析会议系列评测（TAC，Text Analysis Conference）

另一方面

也是因为实体关系抽取技术的重要性和实用性

使其同时得到了研究界和工业界的广泛关注

实体关系抽取技术自身的发展

也大幅度推进了中文信息处理研究的发展

迫使研究人员面向实际应用需求

开始重视之前未被发现的研究难点和重点

纵观实体关系抽取研究发展的态势和技术现状

本文认为实体关系抽取的发展方向如下（四个方面）

1 新类别/开放类别上的小样本学习能力

目前

小样本学习设定

需要用一个巨大的训练集训练的

测试时只给出 N-way K-shot

在这 N*K 个样本上学习并预测

真实应用中

① 真实场景下的小样本学习

不存在巨大的训练集

② 还需要考虑如何自动发现新类别

迫切需要利用小样本实现模型在新类别关系上的快速训练模型

Prompt 范式

从 GPT3 开始，预训练-提示 (Prompt) 学习范式受到研究者的关注

该范式

将下游任务也建模成语言模型任务

在

只给出几条或几十条样本作为训练集

借助与大规模预训练语言模型中蕴含的大量知识

此外，相对于传统的 Pretrain+Finetune 范式

Prompt

可摆脱指数级的预训练参数量对巨大计算资源的需求

高效的利用预训练模型

基于上述分析

本文认为实体关系抽取发展方向之一是：利用预训练—提示学习范式进行高效的新类别/开放类别上的小样本学习

具体包括

开放类别语义标签自动生成与新类别的挂载

提示学习中关系抽取任务模板的设计与自动学习

预训练-提示学习范式进行实体关系抽取的理论分析

2 数据隐私保护下的关系可信抽取

目前

性能较好的实体关系抽取模型

主要是基于

有监督学习

或远程监督学习

此类模型

需要将大规模的标注数据集中暴露给模型

但是

在金融、医疗、安全、军事等应用场景中

数据管理与隐私保护的要求日益严格

因此

如何实现数据隐私保护下的实体关系抽取模型高效训练

是目前技术在真实应用场景中落地的主要挑战之一

基于上述分析

本文认为实体关系抽取的发展方向之一是：数据隐私保护下的关系可信抽取

具体包括

数据隐私保护下的大规模实体关系抽取数据自动生成

含噪数据下的实体关系抽取模型鲁棒性训练

数据隐私保护下的实体关系抽取模型高效训练

3 多模态关系抽取

目前

关系抽取

主要针对的是纯文本数据

而常见的文档

具有多样的布局且包含丰富的信息

以富文本文档的形式呈现包含大量的多模态信息

从认知科学的角度来说

人脑的感知和认知过程是跨越多种感官信息的融合处理

如：人可以同时利用视觉和听觉信息理解说话人的情感、可以通过视觉信息补全文本中的缺失信息等

实体关系抽取技术的进一步发展

也应该是针对多模态的富文档

基于上述分析

本文认为实体关系抽取的发展方向之一是：多模态信息的融合

具体包括

面向关系的多模态预训练模型的设计

多模态信息抽取框架中跨模态对齐任务设计

多模态信息的提取和表示

4 数据驱动和知识驱动融合

现有的神经网络实体关系抽取方法

依靠深度学习

以数据驱动的方式得到各种语义关系的统计模式

其优势在于能从大量的原始数据中学习相关特征

比较容易利用证据和事实

但是

忽略了怎样融合专家知识

说明

单纯依靠神经网络进行实体关系抽取

到一定准确率之后，就很难再改进

从人类进行知识获取来看

很多决策的时候同时要使用先验知识以及证据

数据驱动和知识驱动结合

是模拟人脑进行信息抽取的关键挑战

基于上述分析

本文认为信息抽取的发展方向之一是：构建数据驱动和知识驱动融合抽取技术

具体包括

神经符号学习信息抽取框架的构建

学习神经网络到逻辑符号的对应关系

神经网络对于符号计算过程进行模拟

 Collect

Get Started

知识图谱技术架构

 Collect

Get Started

知识图谱 | 中医领域实体关系抽取-级联模型

 Collect

Get Started

知识图谱

 Collect

Get Started

关系抽取界面简洁设计





0 条评论

下一页