首页  思维导图  详情



 



知识图谱_5事件知识获取

2024-05-19 20:11:58   0  举报





AI智能生成

内容梳理自《知识图谱发展报告2022》的“事件知识获取”部分：重点介绍事件抽取、事件表示学习及事理图谱构建的相关研究工作。

知识图谱

事件知识获取

读书笔记

事件抽取

事件表示学习

模板推荐

作者其他创作

大纲/内容

一任务定义、目标和研究意义

前言

信息抽取任务

随着互联网信息爆炸式的增长越来越凸显其重要性

事件抽取

旨在

将无结构化文本中

人们感兴趣的事件以及事件所涉及到的时间、地点、人物等元素

准确地抽取出来并以结构化的形式存储下来

以供

自动文摘、人机对话、情感分析、话题检测

等自然语言处理上层技术的使用和用户方便的查看

本章

重点介绍

事件抽取、事件表示学习及事理图谱构建的相关研究工作

任务定义

概述

根据美国国家标准技术研究所组织 ACE 的定义

事件的构成

① 事件触发词（Trigger）

② 描述事件结构的元素（Argument）

事件抽取任务

事件类型识别

触发词

是能够触动事件发生的词

是决定事件类型的最重要特征词

一般情况下

事件类型识别任务需要预先给定待抽取的事件类型

对于每一个检测到的事件

还需给其一个统一的标签以标识出它的事件类型

举例

ACE 2005/2007 定义了 8 种事件类别以及 33 种子类别

事件元素识别

事件的元素

是指事件的参与者

举例

ACE

为每种类型的事件制定了模板

模板的每个槽值对应着事件的元素

公开评测和数据集

国际评测和 相关语料资源

背景

说明

最早开始信息抽取评测的是

由美国国防高级研究计划委员会资助的 MUC 会议（1987~1998）连续举办七届

正是有了 MUC 会议的大力支持

信息抽取的研究达到了高潮

随后 MUC 会议停办

两年后美国国家标准技术研究所组织 ACE 会议

MUC 会议

不仅举办论文宣读，poster 展示等形式的学术交流活动

还额外组织多国参加消息理解评测比赛

ACE 会议

目前该会议已经成功举办八次信息抽取评测（2000~2008）

MUC

每一届 MUC 会议

都会针对某个特定的场景

提供训练语料和测试语料

并且还组织大量人力标注语料

供参赛者进行训练和测试

在最开始的四届评测中（MUC-1 到 MUC-4）

只提供英文语料

随着非英语系国家的加入

MUC 会议逐渐认识到多国语言的重要性，在第五届评测会议（MUC-5）中增加了对日文的评测

作为全世界使用人数最多的汉语未能入选 MUC 会议应该算是一种遗憾

因此第六届评测会议（MUC6）中增加了中文的评测

从已发表的研究来看

MUC-6 语料使用的最多

一方面是因为中文语料的引入

另一方面是因为有了前五届的积累，语料的标注愈发正规和成熟

ACE

两年后

ACE 会议接力 MUC 会议

继续组织信息抽取的评测

ACE 会议

从早期只有英语、阿拉伯语和中文的语料发展到现在融合了西班牙语系的评测语料

虽有补充

但每年补充的语料幅度不大

ACE 2005 年的中文评测语料仅有 633 篇文章，共计 30 万词左右

而ACE 2007 语料并没有任何的增加，基本上是沿用 2005 的语料

其他

卡耐基梅隆大学

标注了 485 个电子板报构成的学术报告通知数据集：其中包含报告人、时间、地点等相关信息

国内的北京语言大学

也标注了 4 类突发事件（地震、火灾、中毒、恐怖袭击）文本，每类事件标注 20 篇文本，共计 80 篇突发性事件语料

评价方法

MUC 的

MUC会议，对系统总体性能的评价

是通过衡量该系统的各个子任务的抽取结果来反映的

MUC的评价指标

准确率 (Precision, P)

召回率 (Recall, R)

F值 ( F-Measure )

MUC会议的评价标准

相对而言比较简单、直观、透明、易于理解

ACE 的

ACE

在 MUC 的基础上采用了基于错误代价的评价策略

对系统的各部分错误赋予一定的权重分值

且不同的错误对应不同的权重分值

然后从最大分值中减去错误的分值

通过对各个子任务分值的叠加得到系统整体性能的分值

因此系统的各个子任务都会影响最后的得分

如：事件识别与跟踪 (VDR) 的评价体系中，ACE 官方认为事件元素识别的还会对系统的影响最大，因此，赋予，事件元素识别错误的惩罚分值也最高

该评价体系

还可单独看评价当前测试模块的结果，不考虑其他模块的影响

其中

由此可以看出，系统的得分有两部分计算所得

① 一部分取决于

事件属性的识别

② 另一部分取决于

事件元素的识别

只是这两部分所占最后总分的权重会有所不同

二研究内容和关键科学问题

内容

事件知识获取

是自然语言处理领域

一项非常具有挑战性的工作

当前的研究热点

已经不局限于对于句子级事件类型的识别以及元素的抽取

其研究内容变得越来越丰富

包括但不限于

篇章级事件抽取、事件表示学习、事件/事理知识库构建、事件预测等研究任务

三技术方法和研究现状

1 事件模式归纳

说明

通常情况下

事件抽取任务的事件类型以及每种事件类型对应的事件论元角色是预先定义好的

如：ACE 2005 评测共包括了 8 大类 33 小类事件，每类事件都定义了一定数量的事件论元角色

然而

通过人工归纳并定义事件类型及其所含事件论元角色

不仅需要各个领域的专家知识

还需要耗费非常大的时间和人力成本

因此

如何自动发现新的事件类型以及定义相应的事件论元角色

有着重大的社会价值和巨大的挑战性

本章介绍

自动归纳事件类型及事件论元角色的研究

包括

任务定义以及相关解决方法

这种任务一般被称为

事件模式自动归纳

概述

事件模式自动归纳

简称

事件模式归纳（Event Schema Induction）

指从无标注的文本中

学习复杂事件及其实体角色的高级表示任务

分类

① 模板型事件模式自动归纳

主要建模事件的类型及对应的事件论元角色

归纳出的事件模式

可用于指导事件抽取

② 叙述型事件模式自动归纳

主要建模事件之间的关系

狭义上讲

模板型事件模式

即描述某类事件的通用模板

包括

该类事件的事件类型

其对应的事件论元角色

如

对于“选举”事件的事件模式来说

事件类型为

“选举”

相应的事件论元角色包括

“日期”、“地点”、“胜者”、“败者”、“职位”

基于概率图的事件模式归纳

一个段落

概率图模型

概念

（Probabilistic Graphical Model）

是指

利用图表达概率相关关系的一类模型方法

来表示模型相关的一些变量的联合概率分布

是一种比较通用的

对于不确定性知识的表示和处理方法

贝叶斯网络、马尔科夫模型、主题模型等基于概率图的方法

也应用于各种自然语言处理问题中

研究方法

基于端到端的概率模型

可以对隐含的事件结构进行建模

将事件类型及事件论元角色建模并表示为概率模型的隐变量

进一步对事件类型的隐含表示进行较好的建模可以得出不同类型事件的聚类

在解决事件模式归纳任务时，

很多学者借鉴了主题模型的方法，加以利用和改进后应用到这一任务上

主题模型

概念

（Topic Model）

是

以无监督学习的方式

对文章的隐含语义结构进行聚类的统计方法

其常被用于

文本收集、文本分类与聚类、降维等研究中

常见的主题模型

隐含狄利克雷分布

一个段落

主题模型

主要探索语料中主题与词分布的关系

隐含狄利克雷分布

采用贝叶斯流派的思想

认为模型中需要估计的参数

不是常数

而是服从狄利克雷分布的随机变量

在观测语料库中的样本后

再对

先验的狄利克雷先验分布的参数加以修正

进而

得到后验分布

整个语料库的生成过程

可以看为

对语料库中的每一篇文档

获取到主题分布和词分布

然后从主题分布和词分布中

对主题和词进行采样

隐含狄利克雷分布方法

需要求得主题分布和词分布的期望

所以可通过吉布斯采样等方法

不断迭代计算获得主题分布和词分布的期望值

在给定主题数量这个超参数的前提下

主题模型背景下的文档聚类

可以很好地根据文章主题

将文档分成不同的类型

简单来说

主题模型假设语料库中

每个文档的主题

服从一定的分布

而对于每个主题

每个词语也服从一定的分布

因而

可通过文章中词语出现的概率

计算其属于某种主题的概率

类似地

对于事件模式

可以类比认为语料库中文本所包含的事件类型也服从一定的分布

每个事件类型中

每个事件论元同样服从一定的分布

由此

事件模式归纳任务

可以看为对事件类型、事件论元词等分布的期望计算过程

一个段落

受启发于上述主题模型

Chambers 等人 [Chambers & Jurafsky 2011]

在 2011 年尝试将朴素的隐含狄利克雷分布方法用于聚类事件

尽管在其研究工作中证明基于词汇距离的层次聚类在聚合事件的效果上会更佳

但这种尝试为事件模式归纳工作打开了思路

2013年Cheung 等人 [Cheung et al. 2013]

将隐马尔科夫模型引入框架归纳（frame induction）研究工作

将框架、事件、事件参与者看做隐变量并学习其中的转移过程

同年，Chambers [Chambers 2013]

首次将基于概率图生成模型的方法应用于事件模式归纳

通过实体的共指将事件论元链条化

并同时考虑语料中词汇的词法与句法关系

使生成模型首先选择谓词而后预测其他的事件论元

实现了比隐马尔科夫更好的性能并且只需要更少的训练数据

但是其上述工作

只采用了实体的核心词（head word）来代表实体

然而忽略了

同样会传递重要信息的对实体修饰限制的形容词等词

所以 Nguyen 等人 [Nguyen et al. 2015]

在其 2015 年的工作中认为，前人工作仅仅依靠实体核心词进行事件类型或事件论元角色聚类的方法 ——会导致一些语义不明确的词汇所对应类型难以区分

如：“士兵”在 “袭击”事件中

可能存在 “士兵”是施事者

也有可能是受事者的上下文

因此引入实体核心词周围的上下文——来实现对实体的消歧

近年来

深度神经网络的广泛应用

也同样吸引了事件模式归纳工作的学者

Liu 等人 [Liu et al. 2019]

在 2019 年将基于神经网络的方法引入概率图模型

利用预训练语言模型和神经变分推断

并同时考量了新闻数据集中天然存在的冗余报道

提升了事件模式自动归纳的连贯性和模式匹配指标

基于表示学习的事件模式归纳

一个段落

内容引入

在深度学习被广泛应用的当下

神经网络拥有强大的表示能力

可以表示任意的文本

因此

通过神经网络

可以对词语、事件或文本

进行稠密的向量表示

基于词语、事件或文本等的表示

可实现事件类型和事件论元角色的聚类（自动归纳）

相关研究

在向量化表示前

早期的一些研究基于词语共现的统计学方法

例如：在 2013 年 Balasubramanian 等人 [Balasubramanian et al. 2013]

通过 Open IEv5 工具抽取得到关系三元组（元素 1，关系，元素 2）

并通过共现统计得到事件模式

在向量化表示被提出后

自然语言的向量化表示

在比较文本之间的相似度、计算文本间的相关性的效果上

相比独热编码有着显著提升

而对于聚类同类事件

将事件和事件论元通过向量表示后计算事件或者是事件论元之间的相似度

是很直观的想法

同时

同一事件中的各种论元在这一事件中共现

不同事件中同一论元也可能多次存在

因此

所有论元作为节点

若在同一事件共现

则可形成节点间的边

进而可以组成一张图

如

对上述图结构进行分割

每个分割后结构可视为一个事件模式

不同事件中同一论元也可能多次存在

在这样的思路下， Sha 等人 [Sha et al. 2016]

于 2016 年借用图像分割的归一化分割的方法实现对事件论元节点的聚类

此外模型通过词嵌入以及点互信息计算实体间的内部相关性

并通过句中的存在性约束同时抽取模式和槽信息

在自然语言处理的多年发展过程中

语言学家等领域专家

对自然语言建立了相对完备的知识库

其中包括了

谓词的各种语义角色信息

Huang 等人 2016 年 [Huang et al. 2016]

利用流水线式的方法结合上述外部知识库和自然语言处理工具等

实现触发词与事件论元的联合聚类

并通过距离度量选择中心词作为事件类型名并从外部信息中选择事件论元角色名

事件图模式归纳

一个段落

事件图模式

是

在 2020 年由 Li 等人 [Li et al. 2020]

提出的一个新研究任务

既往的事件模式归纳

仅仅关心同一个事件类型下的事件模式

然而在实际的文字信息尤其是新闻信息

会包括多于一种类型的事件

而同篇文章中的不同类型的事件会共享一些事件论元

事件图模式

即针对两种事件类型构建一篇文档的事件模式路径的有向无环图

图中存在

两个事件类型节点

分别指向其事件中存在的事件论元节点

若干事件论元节点

它们之间通过一些关系连接

继而

从一个事件类型节点出发，到另一个事件类型节点停止

可以得到若干路径

Li 等人 [Li et al. 2020]

首先使用现有的信息抽取工具或者是人工标注的方式

得到实体、实体间的关系，事件以及事件论元，进行实例图的构建

然后经过处理

得到显著的且连贯的路径

接着训练一个路径语言模型 (Path Language Model)

实现对某一路径进行打分

某一路径的得分构成：自身得分和邻居路径得分的加权

最后对于两个不同的事件类型

他们选取路径得分前 K% 的路径来构成两个事件类型之间的图模式

Li 等人 [Li et al. 2021]

在 2021 年进一步提出时间复杂事件模式的新概念

一种基于图的模式表示

包括事件、时间元素、时间连接和事件论元关系

并且他们发布了一个新的事件图模式学习的语料库

人工事件图模式的黄金标准

最后通过模式匹配和实例图的复杂度进行内在评估

证明了他们的概率图模式与线性表示相比拥有更高的质量

2 事件识别和抽取

句子级事件识别和抽取方法

四个主要阶段

（1）早期发展阶段（上世纪 90 年代之前）

以语言学家或领域专家手动编写规则和模板为基础的

【基于知识工程的方法】的信息抽取

代表人物

Riloff、Yangarber

（2）90 年代初到 2005 年

这段时间研究者们

在不断反思基于规则的信息抽取系统的弊端：很难胜任大规模复杂类型数据集上的信息抽取任务

因此

【基于统计和机器学习的方法】被提出

并开始在信息抽取领域广泛使用

（3）2005 年开始

以 Heng Ji 为代表的一系列信息抽取研究

集中在【跨文档事件抽取】方面的研究

这种方法为信息抽取系统

引入了更多的背景知识和语义知识

使得该系统功能更加丰富和智能

（4）为了克服限定域事件抽取类型、数目有限且需要固定的模板槽等局限性

2007 年华盛顿大学 OrenEtzioni 等人

提出了【开放域信息抽取】方法

基于模式匹配方法的事件抽取

模式

是对信息表述的一种描述性抽取规则

分为

平面模式

主要是基于词袋（bag-of-words）等字符串特征构成模式

由于不考虑相关句子结构和语义特征，因此被称为平面模式

结构模式

是相对于平面模式而言

该模式更多的考虑了句子的结构信息，融入句法分析特征

采用模式匹配方法的事件抽取系统工作流程基本上要分两个步骤

① 模式的获取

② 模式的匹配

在模式的挖掘和构建过程中

非常重要的是：要找到高质量的模式

使得挖掘回来的模式

既能：准确地召回事件所涉及的事件元素

又：不过多的引入噪声

在应用该方法进行抽取前

会将挖掘回来的模式进行打分排序

质量高的模式会获得一个更高的分数

从而在进行匹配时会优先进行匹配

该方法

如果需要获得比较高的召回率

需要挖掘出尽可能多的模式

并且将大部分的模式都用于事件元素的抽取

但是这样做的副作用

排在后面的质量不是特别高的模式

在提高了召回率的同时

也会抽取出一些无关的噪声数据

从而降低了事件元素抽取的准确率

相关研究

提出者

提出的系统或模板

内容

Riloff 1993 年 [Riloff 2013]

提出了 AutoSlog 系统

背景

基于知识工程的信息抽取系统在当时看来虽然取得了很大的成功

但是其中有一个很大的问题：这种方法过于依赖人工构造的领域词典

然而这些领域词典的构建过程并不是十分简单甚至会花费大量人力物力

因此

AutoSlog 系统

通过 13 个启发式方法获得 13 个模板

然后再用这些模板去匹配文本

从而自动构建出领域词典

值得一提的

AutoSlog 系统是世界上第一个使用机器学习方法进行信息抽取系统模式获取的系统

Kim 和 Moldovan 1995 年 [Kim & Moldovan 1995]

提出了 PALKA 系统

这套系统

也是基于人工标注语料的信息抽取模式学习系统

成功的融入了 WordNet 词典语义信息

从而使其更加擅长处理开放域信息抽取问题

而不仅仅局限于特定域的信息抽取

Riloff 和 Shoen1995 年 [Riloff &Shoen 1995]

在 AutoSlog 系统的基础上 提出了 AutoSlog-TS 系统

这个系统与 AutoSlog 系统最大的不同或改进就在于，

AutoSlog 系统

需要人工标注的语料作为训练语料

然而构建这种语料时也是需要大量时间的

而 AutoSlog-TS 系统

不需要人工标注的语料

它仅仅需要人工把语料进行一个分类即可，最终的结果与AutoSlog 系统相当，却节省了大量人工标注工作量

Joyce Yue Chai 1998 年 [Joyce 1998]

提出了 TIMES 系统

是一个基于 WordNet 和标注语料的信息抽取模式学习系统

优

WordNet 与人工标注语料共同使用确实起到了很好的效果

其系统抽取结果要好于以往的信息抽取系统

并且对于特定域与开放域语料均可以处理

缺

但是由于需要作为输入的外部资源过多

也限制了其应用

Yangarber 2001 年 [Yangarber 2017]

提出了 ExDisco 系统

这个系统是基于种子模式的自举信息抽取模式学习系统

系统

首先给定一个初始化的手工构造质量较高的种子模板

然后根据已有的模板在语料库上增量式的学习新的模板

经过几轮迭代后就获得了大量高质量模板

姜吉发 2004 年 [姜吉发 2004]

在其博士论文中使用了一种称之为“GenPAM”的模板学习方法

优势

完全的无指导学习模板

对于标注语料几乎没有需求

步骤

这里人工干预的部分在于

给出要抽取的事件类型、事件元素及其所属角色

最后再人工地对模板的抽取质量进行评价

经过以上步骤

事件抽取模板便可以自动学习出来

这对于模式学习来讲，大大减少了人工工作量

基于机器学习方法的事件抽取

背景

随着各大企业逐渐认识到信息抽取的重要作用，以及它们对信息产业的迫切需求，大力推动了相关领域语料库的构建

有了这些语料库后

人们开始将研究重点转向基于统计和机器学习的方法进行信息抽取

一些经典的统计模型被引入

这些模型有

隐马尔科夫模型（Hidden Markov Model，HMM）、朴素贝叶斯模型（Naïve Bayes Model, NBC）、最大熵模型（Maximum Entropy Model，ME）、最大熵隐马尔科夫模型（Maximum Entropy Hidden Markov Model， MEMM）、支持向量机模型（Support Vector Machine，SVM）等

这种基于统计模型的机器学习方法

将信息抽取看成是分类问题

其重点在于

挑选合适的特征使得分类器更加准确

另外

核（kernel）的引入

也使得分类器的效果有了很大的提升

也有研究者分析和开发新的核

相关研究

H. L. Chieu 和 H. T. Ng 2002 年 [Chieu & Ng 2002]

在进行事件元素抽取的研究中，大胆尝试引入【最大熵分类器】，将事件元素的识别看成是一个分类问题

这套系统在 MUC 2002 评测中讨论发表会事件和工作交接事件抽取任务中获得了较好的结果

Chieu 在他的分类器中

采用了 unigram、bigram、命名实体、短语等简单特征

最终在卡内基梅隆大学标注的语料库上进行实验验证，取得了 86.9%的 F 值，超过了当时的最好结果

Ralph Grishman [Grishman 2005]

参加了 ACE 2005 的事件抽取任务评测，在参赛的系统中他们使用了【最大熵模型】

他们的系统共有四个模块（即四个分类器）

（1）基于事件触发词分类的事件类型识别模块

（2）事件元素识别模块

（3）事件元素角色识别模块

（4）整合已有的事件类型识别模块，事件元素识别模块，事件元素识别模块，并依据各个模块的输出结果最终判定输入的句子是否为事件

Ahn 2006 年 [Ahn 2006]

在提出了进行事件触发词及类别识别和事件元素识别这两个事件抽取主要任务的研究中，尝试性地在其事件抽取系统中【整合了 Timbl 和 MegaM 两种机器学习方法】

Ahn 把事件类型识别看成事件触发词的识别

首先

对输入的句子进行分词（就英文而言只需根据空格分词），对每一个词抽取相关的词法特征、上下文词特征、WordNet 词典特征以及上下文相关实体及其类型等特征

然后

使用 MegaM 分类器

对当前词进行二元分类来判断其是否是触发词

如果当前词被判定为触发词

则使用多元分类器 Timbl 指定当前词所属的事件类别及子类别

Ahn 的系统在 ACE2005 英文语料库上进行测试

实验结果显示事件类别识别的 F 值达到了 60.1%

这一结果超过了分别单独使用 MegaM 和 Timbl 分类器的方法

另外，针对事件元素识别任务

这套系统

把句子中出现的每一个实体

都看作是候选事件元素，抽取与实体相关的词法特征、事件属性特征、实体的修饰特征、依存句法路径特征等

并为每一种事件

训练一个分类模型，专门用来确定事件元素的角色。

该系统在ACE 2005 英文语料上进行事件元素识别的测试

结果为：F 值达到了 57.3%。

Z. Chen 2009 年 [Chen 2009]

打破原有的将事件抽取看做分类问题的思维模式

而是将事件类型识别及元素识别看做序列标注问题，采用【最大熵隐马尔科夫模型】（MEMM）

选择一般特征和中文独有的特征

在 ACE 2005 中文语料上测试

其 F-Measure 高于当前最好的中文事件抽取系统

基于跨文档方法的信息抽取

背景

传统的基于模式匹配的方法与基于统计机器学习的方法

实际上都是在做句子级的信息抽取，这里很少考虑篇章和丰富的背景知识

相关研究

在基于“One Trigger Sense for Cluster” 和“One Argument Role for Cluster”的思想基础上

Heng Ji [Heng & Grishman 2008]

于 2008 年提出了跨文档事件抽取系统框架

在这个框架下

对于一个句子级的抽取结果

不仅要考虑当前的置信度

还要考虑与这个待抽取文本相关的文本对它的影响

作者共设置了 9 条推理规则定量的度量相关文本对当前抽取结果的影响

从而帮助人们修正原有的句子级事件抽取结果

这个系统最后在 ACE 2005 英文语料上进行评测

事件类型识别最终 F 值达到 67.3%

事件元素识别最终 F 值达到 46.2%

均超过了目前最好的英文事件抽取系统

后继研究

Heng Ji 的这项研究一经发表后，引起了很多人的关注

后来学者借鉴她成功的引入篇章和背景知识的思想

相继出现了

跨语言事件抽取系统 [Heng 2009]

跨文本事件抽取的改进 [Liao & Grishman 2010]

跨实体事件抽取系统 [Hong et al. 2011] 等相关研究

开放域事件抽取

背景

为了解决大规模语料信息抽取的问题

开放域事件抽取任务被首次提出

其主要抽取的是事件三元组（施事，事件词，受事）

相关研究

华盛顿大学人工智能研究组

做出了很多杰出的工作

并且开发出了一系列开源信息系统：TextRunner，WOE 和 ReVerb 等

TextRunner

是第一个对于关系名称进行抽取的开放域信息抽取系统

它

首先利用启发式规则从语料库中获取句法特征

然后训练分类器判断两个元组之间是否存在某种语义关系

再利用海量互联网数据帮助评估抽取到的三元组是否正确

WOE

充分利用 Wikipedia 中大量人工填写的 InfoBox 信息，从中获取大量训练语料

从而训练信息抽取器抽取更多的信息三元组

ReVerb

在 TextRunner 基础上提出了句法和词汇的限制条件

进而提高了三元组的抽取精度，使其更加实用

并且值得一提的是

ReVerb 用动词词组描述两个元组之间的语义关系

这非常符合事件的定义

篇章级事件识别和抽取方法

背景与必要性

篇章级事件抽取任务的目标

在文档中识别预先指定类型的事件及相对应的事件元素

近年来

随着

金融、法律、公共卫生等各个领域数字化进程的发展

文档级事件抽取

已成为这些领域业务发展的越来越重要的加速器

以金融领域为例

持续的经济增长见证了数字化金融文本的爆炸式增长

例如：对特定股票市场中的大量金融公告文档进行文档级事件抽取， 能够帮助人们提取有价值的结构化信息，预知风险并及时发现获利机会

同时

为促进信息检索和文章摘要等下游应用的发展

对文档级的事件抽取技术展开研究也是必不可少的

相关研究

近年来

事件时序关系抽取

在自然语言处理领域引起了广泛关注

该任务的一个标准数据集

是基于 TimeML 标准标注的TimeBank（TB）语料

在此之后，一系列的时序关系数据集被收集起来

包括但不限于

Bethard 等人 [Bethard et al. 2007]

利用动词从句对 TB 的扩展

TempEval1-3 数据集

TimeBank-Dense（TB-Dense）数据集

EventTimeCorpus 数据集

MATRES 数据集

同时包含时序关系和其他类型关系的多标注数据集

如：包含事件共指关系和因果关系

现有的标注方法

均采用

事件在时序上的区间表示

令

分别表示两个事件对应的事件区间

在两个区间之间共包含 13 种时序关系

如：之前（Before）、之后（After）、包含（Includes）、被包含（Is included）和同时（SImultinous）等

为了进一步缓解标注负担

一些工作经常仅使用 13 种关系约简后的集合

子事件关系获取

子事件关系

① A 是一个复杂的活动序列

大部分由相同 (或兼容的) 代理（agent）执行

② B 是活动序列中的一个

③ B 与 A 发生在同一时间和地点

这种关系

使得不同的事件间

形成了一个典型的事件序列（或脚本）

常用评价指标

BLANC

精确率（P，precision）

召回率（R，recall）

F1 值

常用评估语料

HiEve 语料

HiEve 语料：关注于新闻故事中的子事件关系

由于新闻故事中

包含大量表示不同时空粒度的真实事件

其叙述通常描述一些粗糙的具有空间、时间粒度的现实世界事件及其子事件

Glava𝑠̌ 等人 [Glava𝑠̌et al. 2014]

基于新闻故事，提出了 HiEve 语料

一个识别事件之间时空包容关系的语料库

在 HiEve 中

叙事被表示为

基于时空包容关系 (即父事件-子事件关系) 的事件层次

事件关系主要包含

① 父子事件关系（SUPERSUB）

表示事件对中的第一个事件在空/时间上包含第二个事件

② 子父事件关系（SUBSUPER）

和父子事件关系对称

③ 共指关系（COREF）

表示两个事件指称表示了现实世界中的同一事件

④ 无关系（NORELATION）

表示两个事件既无空时包含，也无共指关系

语料中包含了

100 篇文档

1354 个句子，33273 个词

IC 语料

Hovy 等人 [Hovy et al. 2013]

标注了一个情报系统(intelligence community, IC)语料库

在 IC 中

包含

暴力事件领域 (爆炸、杀戮、战争等) 的文本

鉴于部分共指类型的稀疏性

语料中注释了事件完全共指、子事件和成员关系的实例

SeRI 语料

除了新闻领域等限定域， Ge 等人[Ge et al. 2018]

基于英文维基百科中特有的关系模板（partof）及规则

构建一个 SeRI 语料

在 SeRI 中

包含了 3917 篇事件文章

共 7373 个候选子事件对

共包含三种关系

① 父子事件关系

② 子父事件关系

③ 无关系

可以用做从百科全书中

挖掘子事件关系的模型的训练及评估语料

4 事件表示学习

说明

背景

由于传统的 One-hot 高维特征表示方式

会使得事件特征异常稀疏

从而不利于后续的研究和应用

因此

Ding 等人提出了两种全新的事件表示方式

第一种离散模型

是基于语义词典对事件元素，进行泛化，进而缓解事件的稀疏性

第二种连续向量空间模型

则为每一个事件学习一个低维、稠密、实数值的向量进行表示

从而使得相似的事件具有相似的向量表示，在向量空间中相邻

离散模型

内容介绍

由于历史上发生的事件大多数都很难以再次发生

因此会导致事件具有严重的稀疏性

离散模型的目标是

对同一事件的不同表达进行归一和泛化

如：“微软以 72 亿美元价格吞并诺基亚移动手机业务”和 “微软出资 72 亿美元收购诺基亚移动手机业务”

表达的是同一事件

为了完成这一目的

可以利用几个广泛应用的语义词典

WordNet、HowNet 和 VerbNet 等

对事件元素进行泛化

泛化过程

① 首先，从 WordNet 中找到事件的施事者和受事者中名词的上位词将其泛化

如：利用“微软”的上位词是“IT 公司”将其替换掉

② 随后，找到事件元素中的动词，并用 VerbNet 中该动词所属类别的名词替换掉改动词，从而对其进行泛化

如：“增加”在 VerbNet 中所属的动词类别名称为 multiply

一个事件泛化的完整例子

给定句子“Instant view: Private sector adds 114,000 jobs in July.”，可以抽取出事件（Privatesector, adds, 114,000 jobs）将其泛化后的结果是（sector, multiply class, 114,000job）

局限性

① WordNet，VerbNet 等语义词典词覆盖有限

很多词难以在语义词典中找到相应记录

② 对于词语的泛化具体到哪一级不明确

对于不同应用可能会有不同要求，很难统一

此外

即使对事件进行了泛化

还是无法解决 One-hot 的特征表示带来的维度灾难（curse of dimensionality）问题

如：假设词典中有 10,000,000 个词

那么就需要用 10,000,000 维特征表示一个词

由此带来的特征稀疏问题

会导致后续的应用难以取得较好结果

并且超高维度的特征空间

也会消耗大量的实验时间和空间存储

增加了计算成本

分布式表示

引入

Bengio 首先提出了为词汇学习一个分布式表示（即 word embedding）

用低维、稠密、实数值向量表示一个词汇

为了学习这样一个词汇向量

Bengio 训练一个神经网络模型

将该词汇的大规模上下文语义信息都融入到词汇向量中

由于语义上相似的两个词汇应该会有相似的上下文

因此，相似的词汇也应该会学习到相似的词汇向量

事件的分布式表示学习与 词汇的分布式表示学习的异同

同

动机是一样的

Ding 等人提出学习低维、稠密、实数值事件向量表示

从而相似的事件在向量空间中具有相邻的位置

该任务

与知识库中的多元关系数据分布式表示学习

相近似

关系数据的分布式表示学习

是为关系三元组 (e1, R, e2) 学习一个连续向量

其中

e1 和 e2 是命名实体

R 是这两个命名实体之间的关系类型

异

① 知识库中的关系类型数量有限

因此

大多数关系数据的分布式表示学习模型

都将某一个特定关系类型用一个矩阵或者张量建模学习

然而

抽取的是开放式事件元组

因此

事件类型是开放的，也就是无限的

这样就导致无法用一个矩阵或张量建模某一个事件类型

为了解决这一问题， Ding 等人 [Ding et al. 2015]

将事件词 P 也表示成与施事者 O1和受事者 O2 具有相同纬度的向量，从而摆脱了事件类型无限多的限制

② 关系的表示学习目的是能够指出两个命名实体 (e1, e2) 是否具有某一确定的关系 R

当 R 是一个正定矩阵时

命名实体是可以互换位置的，也就是说这时候关系是没有方向性的

然而

事件元素都是有特定角色的，其具有很强的方向性

谁是事件的施事方，谁是受事方是不可随便变化的，一旦改变则事件就完全不同

基于张量神经网络

引入

Ding 等人 [Ding et al. 2015]

设计了一个全新的张量神经网络来学习事件的结构化向量表示

事件的每一个元素及其所扮演的角色都会被显式地建模学习

概念介绍

张量神经网络

（Neural Tensor Network， NTN）

输入是词向量

输出是事件向量

可以利用 Mikolov 提出的 Word2Vec 模型中的 skip-gram 算法

从大规模的新闻语料中学习到最初始的词向量（维度为 d = 100）

由于事件元素可能会包含多个词汇

可采用各个词汇向量的平均值

来生成最终的事件元素初始向量

这样做的好处是

可以让无论是短语还是单一词汇都具有同样维度的向量表示

如：诺基亚移动手机业务和诺基亚

 Collect

Get Started

知识图谱的表示

 Collect

Get Started

知识图谱

 Collect

Get Started

知识图谱

 Collect

Get Started

知识图谱





0 条评论

下一页