知识图谱_5事件知识获取
2024-05-19 20:11:58 0 举报
AI智能生成
为你推荐
查看更多
内容梳理自《知识图谱发展报告2022》的“事件知识获取”部分:重点介绍事件抽取、事件表示学习及事理图谱构建的相关研究工作。
作者其他创作
大纲/内容
随着互联网信息爆炸式的增长越来越凸显其重要性
信息抽取任务
准确地抽取出来并以结构化的形式存储下来
人们感兴趣的事件以及事件所涉及到的时间、地点、人物等元素
将无结构化文本中
等自然语言处理上层技术的使用和用户方便的查看
自动文摘、人机对话、情感分析、话题检测
以供
旨在
事件抽取
事件抽取、事件表示学习及事理图谱构建的相关研究工作
重点介绍
本章
前言
① 事件触发词(Trigger)
② 描述事件结构的元素(Argument)
事件的构成
根据美国国家标准技术研究所组织 ACE 的定义
概述
是能够触动事件发生的词
是决定事件类型的最重要特征词
触发词
事件类型识别任务需要预先给定待抽取的事件类型
一般情况下
还需给其一个统一的标签以标识出它的事件类型
对于每一个检测到的事件
ACE 2005/2007 定义了 8 种事件类别以及 33 种子类别
举例
事件类型识别
是指事件的参与者
事件的元素
为每种类型的事件制定了模板
模板的每个槽值对应着事件的元素
ACE
事件元素识别
事件抽取任务
由美国国防高级研究计划委员会资助的MUC 会议(1987~1998)连续举办七届
最早开始信息抽取评测的是
信息抽取的研究达到了高潮
正是有了 MUC 会议的大力支持
两年后美国国家标准技术研究所组织 ACE 会议
随后 MUC 会议停办
说明
不仅举办论文宣读,poster 展示等形式的学术交流活动
还额外组织多国参加消息理解评测比赛
MUC 会议
目前该会议已经成功举办八次信息抽取评测(2000~2008)
ACE 会议
背景
提供训练语料和测试语料
都会针对某个特定的场景
供参赛者进行训练和测试
并且还组织大量人力标注语料
每一届 MUC 会议
只提供英文语料
在最开始的四届评测中(MUC-1 到 MUC-4)
MUC 会议逐渐认识到多国语言的重要性,在第五届评测会议(MUC-5)中增加了对日文的评测
随着非英语系国家的加入
因此第六届评测会议(MUC\u00026)中增加了中文的评测
作为全世界使用人数最多的汉语未能入选 MUC 会议应该算是一种遗憾
一方面是因为中文语料的引入
另一方面是因为有了前五届的积累,语料的标注愈发正规和成熟
MUC-6 语料使用的最多
从已发表的研究来看
MUC
继续组织信息抽取的评测
ACE 会议接力 MUC 会议
两年后
从早期只有英语、阿拉伯语和中文的语料发展到现在融合了西班牙语系的评测语料
ACE 2005 年的中文评测语料仅有 633 篇文章,共计 30 万词左右
而ACE 2007 语料并没有任何的增加,基本上是沿用 2005 的语料
但每年补充的语料幅度不大
虽有补充
标注了 485 个电子板报构成的学术报告通知数据集:其中包含报告人、时间、地点等相关信息
卡耐基梅隆大学
也标注了 4 类突发事件(地震、火灾、中毒、恐怖袭击)文本,每类事件标注 20 篇文本,共计 80 篇突发性事件语料
国内的北京语言大学
其他
国际评测和相关语料资源
是通过衡量该系统的各个子任务的抽取结果来反映的
MUC会议,对系统总体性能的评价
F值 ( F-Measure )
MUC的评价指标
相对而言比较简单、直观、透明、易于理解
MUC会议的评价标准
MUC的
对系统的各部分错误赋予一定的权重分值
且不同的错误对应不同的权重分值
然后从最大分值中减去错误的分值
在 MUC 的基础上采用了基于错误代价的评价策略
因此系统的各个子任务都会影响最后的得分
如:事件识别与跟踪 (VDR) 的评价体系中,ACE 官方认为事件元素识别的还会对系统的影响最大,因此,赋予,事件元素识别错误的惩罚分值也最高
通过对各个子任务分值的叠加得到系统整体性能的分值
还可单独看评价当前测试模块的结果,不考虑其他模块的影响
该评价体系
其中
事件属性的识别
① 一部分取决于
事件元素的识别
② 另一部分取决于
只是这两部分所占最后总分的权重会有所不同
由此可以看出,系统的得分有两部分计算所得
ACE的
评价方法
公开评测和数据集
任务定义
外框
一任务定义 、目标和研究意义
一项非常具有挑战性的工作
是自然语言处理领域
已经不局限于对于句子级事件类型的识别以及元素的抽取
当前的研究热点
篇章级事件抽取、事件表示学习、事件/事理知识库构建、事件预测等研究任务
包括但不限于
其研究内容变得越来越丰富
事件知识获取
内容
二研究内容和关键科学问题
事件抽取任务的事件类型以及每种事件类型对应的事件论元角色是预先定义好的
如:ACE 2005 评测共包括了 8 大类 33 小类事件,每类事件都定义了一定数量的事件论元角色
通常情况下
不仅需要各个领域的专家知识
还需要耗费非常大的时间和人力成本
通过人工归纳并定义事件类型及其所含事件论元角色
然而
有着重大的社会价值和巨大的挑战性
如何自动发现新的事件类型以及定义相应的事件论元角色
因此
任务定义以及相关解决方法
包括
事件模式自动归纳
这种任务一般被称为
自动归纳事件类型及事件论元角色的研究
本章介绍
事件模式归纳(Event Schema Induction)
简称
学习复杂事件及其实体角色的高级表示任务
指从无标注的文本中
主要建模事件的类型及对应的事件论元角色
可用于指导事件抽取
归纳出的事件模式
① 模板型事件模式自动归纳
主要建模事件之间的关系
② 叙述型事件模式自动归纳
分类
即描述某类事件的通用模板
该类事件的事件类型
其对应的事件论元角色
“选举”
事件类型为
“日期”、“地点”、“胜者”、“败者”、“职位”
相应的事件论元角色包括
对于“选举”事件的事件模式来说
如
模板型事件模式
狭义上讲
(Probabilistic Graphical Model)
来表示模型相关的一些变量的联合概率分布
利用图表达概率相关关系的一类模型方法
是指
对于不确定性知识的表示和处理方法
是一种比较通用的
也应用于各种自然语言处理问题中
贝叶斯网络、马尔科夫模型、主题模型等基于概率图的方法
概念
可以对隐含的事件结构进行建模
将事件类型及事件论元角色建模并表示为概率模型的隐变量
进一步对事件类型的隐含表示进行较好的建模可以得出不同类型事件的聚类
基于端到端的概率模型
研究方法
概率图模型
很多学者借鉴了主题模型的方法,加以利用和改进后应用到这一任务上
在解决事件模式归纳任务时,
(Topic Model)
对文章的隐含语义结构进行聚类的统计方法
以无监督学习的方式
是
文本收集、文本分类与聚类、降维等研究中
其常被用于
隐含狄利克雷分布
常见的主题模型
主题模型
一个段落
主要探索语料中主题与词分布的关系
不是常数
而是服从狄利克雷分布的随机变量
认为模型中需要估计的参数
先验的狄利克雷先验分布的参数加以修正
再对
得到后验分布
进而
在观测语料库中的样本后
采用贝叶斯流派的思想
获取到主题分布和词分布
对语料库中的每一篇文档
对主题和词进行采样
然后从主题分布和词分布中
可以看为
需要求得主题分布和词分布的期望
隐含狄利克雷分布方法
不断迭代计算获得主题分布和词分布的期望值
所以可通过吉布斯采样等方法
整个语料库的生成过程
可以很好地根据文章主题
将文档分成不同的类型
主题模型背景下的文档聚类
在给定主题数量这个超参数的前提下
服从一定的分布
每个文档的主题
主题模型假设语料库中
每个词语也服从一定的分布
而对于每个主题
计算其属于某种主题的概率
可通过文章中词语出现的概率
因而
简单来说
可以类比认为语料库中文本所包含的事件类型也服从一定的分布
每个事件论元同样服从一定的分布
每个事件类型中
对于事件模式
可以看为对事件类型、事件论元词等分布的期望计算过程
事件模式归纳任务
由此
类似地
尽管在其研究工作中证明基于词汇距离的层次聚类在聚合事件的效果上会更佳
但这种尝试为事件模式归纳工作打开了思路
在 2011 年尝试将朴素的隐含狄利克雷分布方法用于聚类事件
Chambers 等人[Chambers & Jurafsky 2011]
将框架、事件、事件参与者看做隐变量并学习其中的转移过程
将隐马尔科夫模型引入框架归纳(frame induction)研究工作
2013年Cheung 等人[Cheung et al. 2013]
通过实体的共指将事件论元链条化
并同时考虑语料中词汇的词法与句法关系
使生成模型首先选择谓词而后预测其他的事件论元
实现了比隐马尔科夫更好的性能并且只需要更少的训练数据
首次将基于概率图生成模型的方法应用于事件模式归纳
同年,Chambers[Chambers 2013]
只采用了实体的核心词(head word)来代表实体
同样会传递重要信息的对实体修饰限制的形容词等词
然而忽略了
但是其上述工作
可能存在“士兵”是施事者
也有可能是受事者的上下文
如:“士兵”在“袭击”事件中
因此引入实体核心词周围的上下文——来实现对实体的消歧
在其 2015 年的工作中认为,前人工作仅仅依靠实体核心词进行事件类型或事件论元角色聚类的方法——会导致一些语义不明确的词汇所对应类型难以区分
所以 Nguyen 等人[Nguyen et al. 2015]
也同样吸引了事件模式归纳工作的学者
深度神经网络的广泛应用
近年来
利用预训练语言模型和神经变分推断
并同时考量了新闻数据集中天然存在的冗余报道
提升了事件模式自动归纳的连贯性和模式匹配指标
在 2019 年将基于神经网络的方法引入概率图模型
Liu 等人 [Liu et al. 2019]
受启发于上述主题模型
基于概率图的事件模式归纳
可以表示任意的文本
神经网络拥有强大的表示能力
在深度学习被广泛应用的当下
进行稠密的向量表示
可以对词语、事件或文本
通过神经网络
可实现事件类型和事件论元角色的聚类(自动归纳)
基于词语、事件或文本等的表示
内容引入
早期的一些研究基于词语共现的统计学方法
通过 Open IEv5 工具抽取得到关系三元组(元素 1,关系,元素 2)
并通过共现统计得到事件模式
例如:在 2013 年 Balasubramanian 等人 [Balasubramanian et al. 2013]
在向量化表示前
相比独热编码有着显著提升
在比较文本之间的相似度、计算文本间的相关性的效果上
自然语言的向量化表示
是很直观的想法
将事件和事件论元通过向量表示后计算事件或者是事件论元之间的相似度
而对于聚类同类事件
同一事件中的各种论元在这一事件中共现
不同事件中同一论元也可能多次存在
同时
则可形成节点间的边
进而可以组成一张图
若在同一事件共现
每个分割后结构可视为一个事件模式
对上述图结构进行分割
所有论元作为节点
此外模型通过词嵌入以及点互信息计算实体间的内部相关性
并通过句中的存在性约束同时抽取模式和槽信息
于 2016 年借用图像分割的归一化分割的方法实现对事件论元节点的聚类
在这样的思路下,Sha 等人 [Sha et al. 2016]
在向量化表示被提出后
对自然语言建立了相对完备的知识库
谓词的各种语义角色信息
其中包括了
语言学家等领域专家
利用流水线式的方法结合上述外部知识库和自然语言处理工具等
实现触发词与事件论元的联合聚类
并通过距离度量选择中心词作为事件类型名并从外部信息中选择事件论元角色名
Huang 等人 2016 年 [Huang et al. 2016]
在自然语言处理的多年发展过程中
相关研究
基于表示学习的事件模式归纳
提出的一个新研究任务
在 2020 年由 Li 等人 [Li et al. 2020]
仅仅关心同一个事件类型下的事件模式
会包括多于一种类型的事件
而同篇文章中的不同类型的事件会共享一些事件论元
然而在实际的文字信息尤其是新闻信息
既往的事件模式归纳
分别指向其事件中存在的事件论元节点
两个事件类型节点
它们之间通过一些关系连接
若干事件论元节点
图中存在
可以得到若干路径
从一个事件类型节点出发,到另一个事件类型节点停止
继而
即针对两种事件类型构建一篇文档的事件模式路径的有向无环图
事件图模式
得到实体、实体间的关系,事件以及事件论元,进行实例图的构建
首先使用现有的信息抽取工具或者是人工标注的方式
得到显著的且连贯的路径
然后经过处理
实现对某一路径进行打分
某一路径的得分构成:自身得分和邻居路径得分的加权
接着训练一个路径语言模型 (Path Language Model)
他们选取路径得分前 K% 的路径来构成两个事件类型之间的图模式
最后对于两个不同的事件类型
Li 等人[Li et al. 2020]
包括事件、时间元素、时间连接和事件论元关系
一种基于图的模式表示
在 2021 年进一步提出时间复杂事件模式 的新概念
人工事件图模式的黄金标准
并且他们发布了一个新的事件图模式学习的语料库
证明了他们的概率图模式与线性表示相比拥有更高的质量
最后通过模式匹配和实例图的复杂度进行内在评估
Li 等人 [Li et al. 2021]
事件图模式归纳
1 事件模式归纳
【基于知识工程的方法】的信息抽取
以语言学家或领域专家手动编写规则和模板为基础的
Riloff、Yangarber
代表人物
(1)早期发展阶段(上世纪 90 年代之前)
在不断反思基于规则的信息抽取系统的弊端:很难胜任大规模复杂类型数据集上的信息抽取任务
这段时间研究者们
并开始在信息抽取领域广泛使用
【基于统计和机器学习的方法】被提出
(2)90 年代初到 2005 年
集中在【跨文档事件抽取】方面的研究
以 Heng Ji 为代表的一系列信息抽取研究
引入了更多的背景知识和语义知识
使得该系统功能更加丰富和智能
这种方法为信息抽取系统
(3)2005 年开始
提出了【开放域信息抽取】方法
2007 年华盛顿大学 OrenEtzioni 等人
(4)为了克服限定域事件抽取类型、数目有限且需要固定的模板槽等局限性
四个主要阶段
是对信息表述的一种描述性抽取规则
主要是基于词袋(bag-of-words)等字符串特征构成模式
由于不考虑相关句子结构和语义特征,因此被称为平面模式
平面模式
是相对于平面模式而言
该模式更多的考虑了句子的结构信息,融入句法分析特征
结构模式
分为
① 模式的获取
② 模式的匹配
采用模式匹配方法的事件抽取系统工作流程基本上要分两个步骤
模式
既能:准确地召回事件所涉及的事件元素
又:不过多的引入噪声
使得挖掘回来的模式
非常重要的是:要找到高质量的模式
会将挖掘回来的模式进行打分排序
质量高的模式会获得一个更高的分数
从而在进行匹配时会优先进行匹配
在应用该方法进行抽取前
需要挖掘出尽可能多的模式
并且将大部分的模式都用于事件元素的抽取
如果需要获得比较高的召回率
在提高了召回率的同时
也会抽取出一些无关的噪声数据
从而降低了事件元素抽取的准确率
排在后面的质量不是特别高的模式
但是这样做的副作用
该方法
在模式的挖掘和构建过程中
提出的系统或模板
提出者
基于知识工程的信息抽取系统在当时看来虽然取得了很大的成功
但是其中有一个很大的问题:这种方法过于依赖人工构造的领域词典
然而这些领域词典的构建过程并不是十分简单甚至会花费大量人力物力
通过 13 个启发式方法获得 13 个模板
然后再用这些模板去匹配文本
从而自动构建出领域词典
AutoSlog 系统
AutoSlog 系统是世界上第一个使用机器学习方法进行信息抽取系统模式获取的系统
值得一提的
提出了AutoSlog 系统
Riloff 1993 年[Riloff 2013]
也是基于人工标注语料的信息抽取模式学习系统
从而使其更加擅长处理开放域信息抽取问题
而不仅仅局限于特定域的信息抽取
成功的融入了 WordNet 词典语义信息
这套系统
提出了 PALKA 系统
Kim 和 Moldovan 1995 年 [Kim & Moldovan 1995]
需要人工标注的语料作为训练语料
然而构建这种语料时也是需要大量时间的
不需要人工标注的语料
它仅仅需要人工把语料进行一个分类即可,最终的结果与AutoSlog 系统相当,却节省了大量人工标注工作量
而 AutoSlog-TS 系统
这个系统与 AutoSlog 系统最大的不同或改进就在于,
在 AutoSlog 系统的基础上提出了 AutoSlog-TS 系统
Riloff 和 Shoen1995 年 [Riloff &Shoen 1995]
是一个基于 WordNet 和标注语料的信息抽取模式学习系统
WordNet 与人工标注语料共同使用确实起到了很好的效果
其系统抽取结果要好于以往的信息抽取系统
并且对于特定域与开放域语料均可以处理
优
也限制了其应用
但是由于需要作为输入的外部资源过多
缺
提出了 TIMES 系统
Joyce Yue Chai 1998 年 [Joyce 1998]
这个系统是基于种子模式的自举信息抽取模式学习系统
首先给定一个初始化的手工构造质量较高的种子模板
然后根据已有的模板在语料库上增量式的学习新的模板
经过几轮迭代后就获得了大量高质量模板
系统
提出了 ExDisco 系统
Yangarber 2001 年[Yangarber 2017]
对于标注语料几乎没有需求
完全的无指导学习模板
优势
给出要抽取的事件类型、事件元素及其所属角色
最后再人工地对模板的抽取质量进行评价
这里人工干预的部分在于
事件抽取模板便可以自动学习出来
这对于模式学习来讲,大大减少了人工工作量
经过以上步骤
步骤
在其博士论文中使用了一种称之为“GenPAM”的模板学习方法
姜吉发 2004 年[姜吉发 2004]
基于模式匹配方法的事件抽取
人们开始将研究重点转向基于统计和机器学习的方法进行信息抽取
有了这些语料库后
随着各大企业逐渐认识到信息抽取的重要作用,以及它们对信息产业的迫切需求,大力推动了相关领域语料库的构建
这些模型有
一些经典的统计模型被引入
将信息抽取看成是分类问题
挑选合适的特征使得分类器更加准确
其重点在于
这种基于统计模型的机器学习方法
也使得分类器的效果有了很大的提升
也有研究者分析和开发新的核
核(kernel)的引入
另外
在进行事件元素抽取的研究中,大胆尝试引入【最大熵分类器】,将事件元素的识别看成是一个分类问题
这套系统在 MUC 2002 评测中讨论发表会事件和工作交接事件抽取任务中获得了较好的结果
采用了 unigram、bigram、命名实体、短语等简单特征
最终在卡内基梅隆大学标注的语料库上进行实验验证,取得了 86.9%的 F 值,超过了当时的最好结果
Chieu 在他的分类器中
H. L. Chieu 和 H. T. Ng 2002 年[Chieu & Ng 2002]
参加了 ACE 2005 的事件抽取任务评测,在参赛的系统中他们使用了【最大熵模型】
(1)基于事件触发词分类的事件类型识别模块
(2)事件元素识别模块
(3)事件元素角色识别模块
(4)整合已有的事件类型识别模块,事件元素识别模块,事件元素识别模块,并依据各个模块的输出结果最终判定输入的句子是否为事件
他们的系统共有四个模块(即四个分类器)
Ralph Grishman [Grishman 2005]
在提出了进行事件触发词及类别识别和事件元素识别这两个事件抽取主要任务的研究中,尝试性地在其事件抽取系统中【整合了 Timbl 和 MegaM 两种机器学习方法】
对输入的句子进行分词(就英文而言只需根据空格分词),对每一个词抽取相关的词法特征、上下文词特征、WordNet 词典特征以及上下文相关实体及其类型等特征
首先
对当前词进行二元分类来判断其是否是触发词
则使用多元分类器 Timbl 指定当前词所属的事件类别及子类别
如果当前词被判定为触发词
使用 MegaM 分类器
然后
Ahn 把事件类型识别看成事件触发词的识别
实验结果显示事件类别识别的 F 值达到了 60.1%
这一结果超过了分别单独使用 MegaM 和 Timbl 分类器的方法
Ahn 的系统在 ACE2005 英文语料库上进行测试
都看作是候选事件元素,抽取与实体相关的词法特征、事件属性特征、实体的修饰特征、依存句法路径特征等
把句子中出现的每一个实体
训练一个分类模型,专门用来确定事件元素的角色。
并为每一种事件
结果为:F 值达到了 57.3%。
该系统在ACE 2005 英文语料上进行事件元素识别的测试
另外,针对事件元素识别任务
Ahn 2006 年 [Ahn 2006]
打破原有的将事件抽取看做分类问题的思维模式
而是将事件类型识别及元素识别看做序列标注问题,采用【最大熵隐马尔科夫模型】(MEMM)
选择一般特征和中文独有的特征
其 F-Measure 高于当前最好的中文事件抽取系统
在 ACE 2005 中文语料上测试
Z. Chen 2009 年 [Chen 2009]
基于机器学习方法的事件抽取
传统的基于模式匹配的方法与基于统计机器学习的方法
实际上都是在做句子级的信息抽取,这里很少考虑篇章和丰富的背景知识
于 2008 年提出了跨文档事件抽取系统框架
对于一个句子级的抽取结果
不仅要考虑当前的置信度
还要考虑与这个待抽取文本相关的文本对它的影响
在这个框架下
从而帮助人们修正原有的句子级事件抽取结果
作者共设置了 9 条推理规则定量的度量相关文本对当前抽取结果的影响
事件类型识别最终 F 值达到 67.3%
事件元素识别最终 F 值达到 46.2%
均超过了目前最好的英文事件抽取系统
这个系统最后在 ACE 2005 英文语料上进行评测
Heng Ji [Heng & Grishman 2008]
在基于“One Trigger Sense for Cluster”和“One Argument Role for Cluster”的思想基础上
Heng Ji 的这项研究一经发表后,引起了很多人的关注
跨语言事件抽取系统 [Heng 2009]
跨文本事件抽取的改进 [Liao & Grishman 2010]
跨实体事件抽取系统 [Hong et al. 2011] 等相关研究
相继出现了
后来学者借鉴她成功的引入篇章和背景知识的思想
后继研究
基于跨文档方法的信息抽取
为了解决大规模语料信息抽取的问题
其主要抽取的是事件三元组(施事,事件词,受事)
开放域事件抽取任务被首次提出
做出了很多杰出的工作
并且开发出了一系列开源信息系统:TextRunner,WOE 和 ReVerb 等
华盛顿大学人工智能研究组
是第一个对于关系名称进行抽取的开放域信息抽取系统
首先利用启发式规则从语料库中获取句法特征
然后训练分类器判断两个元组之间是否存在某种语义关系
再利用海量互联网数据帮助评估抽取到的三元组是否正确
它
TextRunner
充分利用 Wikipedia 中大量人工填写的 InfoBox 信息,从中获取大量训练语料
从而训练信息抽取器抽取更多的信息三元组
WOE
进而提高了三元组的抽取精度,使其更加实用
在 TextRunner 基础上提出了句法和词汇的限制条件
ReVerb 用动词词组描述两个元组之间的语义关系
这非常符合事件的定义
并且值得一提的是
ReVerb
开放域事件抽取
句子级事件识别和抽取方法
在文档中识别预先指定类型的事件及相对应的事件元素
篇章级事件抽取任务的目标
金融、法律、公共卫生等各个领域数字化进程的发展
随着
已成为这些领域业务发展的越来越重要的加速器
文档级事件抽取
例如:对特定股票市场中的大量金融公告文档进行文档级事件抽取,能够帮助人们提取有价值的结构化信息,预知风险并及时发现获利机会
持续的经济增长见证了数字化金融文本的爆炸式增长
以金融领域为例
对文档级的事件抽取技术展开研究也是必不可少的
为促进信息检索和文章摘要等下游应用的发展
背景与必要性
都是在做句子级的信息抽取
很少考虑篇章和丰富的背景知识
实际上
Heng Ji 于 2008 年提出了跨文档事件抽取系统框架
.......
相关研究1
为每种类型的事件及事件元素训练单独的分类器
并通过上下文来增强模型性能
以学习事件类型识别及事件元素抽取策略
该结构
此外,最近的部分工作探索了采用 Pipeline 框架来解决文档级事件抽取任务
以提取角色填充物
同时考虑了跨句信息以及能够作为依据的名词短语
在概率模型中
GLACIER [Patwardhan & Riloff 2009]
首先使用分类器确定文档类型
然后在文档中识别事件相关的句子并填充事件元素槽
则提出
TIER [Huang & Riloff 2011]
则提出了一种自下而上的方法
来识别候选的事件元素
根据词汇句法模式特征
来移除与事件无关的句子中的候选事件元素
通过基于语篇特征的分类器
2012 年 Riloff 等人[Huang & Riloff 2012]
相关研究2
存在跨不同 Pipeline 阶段的错误传播问题
(例如,用于候选事件元素发现的词汇句法模式特征、用于在文档级别检测与事件相关的句子的语篇特征)
同时需要大量的特征工程
需要针对特定领域手动设计
又有一定的领域专业知识门槛
而且这些特征
已证明在命名实体识别、ACE 句子级事件抽取等句子级信息提取任务上表现出色
神经端到端模型
上述方法
于 2020 年提出将文档级事件抽取任务作为端到端神经序列标注任务来解决
文档级事件抽取任务无法利用句子层面的抽取方法得到解决
一个事件的论元分散在了不同的句子当中
其最主要的原因是
如何获取跨句子信息就显得较为重要
作者认为
捕获长序列中的远距离依存关系是文档级神经端到端事件抽取的一项【基本挑战】
对输入的上下文长度与模型性能之间的关系进行了研究
找到了最合适的长度来学习文档级事件抽取任务
该工作
由于文档的长序列特点
该工作还提出了一种新颖的多粒度特征抽取器
以动态汇总在不同粒度(例如句子级和段落级)学习到的神经表示所捕获的信息
此外
比以前的工作表现更好
在 MUC-4 事件提取数据集所提出的方法上
效果
Du 等[Du et al. 2020]
已取得了大量进展
由于基于远程监督技术来自动生成训练数据的方法
一些研究试图通过远程监督来缓解该问题
考虑到经典的事件抽取任务所要求的触发词信息在知识库中并没有出现
Chen 等[Chen et al.2017]采用额外的语言资源及预先定义的词典来标记触发词
例如
文档级事件抽取的另一个主要障碍是培训数据的缺乏
可以帮助用户获得竞争对手的策略,预测股票市场并做出正确的投资决策
然而在中文金融领域中,没有待标记的文档级事件抽取语料库
文档级事件抽取技术
两大挑战展开研究
文档级建模及数据缺乏
则针对中文金融领域文档级事件抽取的
将文档级事件抽取任务视为序列标注任务
基于远程监督技术自动生成大量带伪标签的数据
并通过关键事件检测模块和事件元素填充策略
从财务公告中提取文档级事件
该框架
该工作提出了 DCFEE 框架
Yang等 [Yang et al. 2018]
在金融领域
一个事件的事件元素可能散布在文档的多个句子中
① 挑战1
一个文档可能包含多个事件的信息
② 挑战2
对于财务文档以及许多其他业务领域中的文档而言,事件元素分散和多事件的特点给文档级事件抽取带来了挑战
针对上述挑战提出了一种新颖的端到端模型 Doc2EDAG
该形式可以将原本的表格填充任务转换为更易于处理的多路径扩展任务
将事件信息转换为基于实体的有向无环图
Doc2EDAG 的关键思想
设计了一种适用于路径扩展任务的存储形式
Doc2EDAG 对文档中的实体基于上下文进行编码
还改进了文档级事件抽取的标记体系,删除了触发词标记
不依赖任何预先定义的触发词集或启发式方法来筛选触发词
并且不改变文档级事件抽取的最终目标
这种无须触发词的设计
此外该工作
为了有效地生成 EDAG
Zheng 等 [Zheng et al. 2019]
利用 transformer 编码器将输入文本转换为词向量序列
并添加 CRF 层,利用经典的 BIO 标注方案训练模型进行实体识别
① 预处理模块
为了有效地解决论元分散的挑战,利用全局上下文来更好地识别一个实体是否扮演特定的事件角色
上下文对预处理中提取的实体提及进行编码,并为每个实体提到的内容生成实体向量
该模块的训练目标
为了提高对文档级上下文的认识,作者使用了第二个 transformer 模块,以方便所有实体和句子之间的信息交换
获得了文档级上下文相关的实体和句子表示
并对每种事件类型进行了事件触发分类
在这个模块之后
模型中还增加了句子的嵌入位置来指示句子的顺序
② 文档级信息融合模块
考虑到依次生成基于实体的有向无环图时必须同时考虑文档级上下文和路径中已经存在的实体
更新图结构时需要追加已经识别的实体嵌入
采用了一种内存记忆机制
③ 文档级信息记忆模块
对每个实体进行二分类
是否对当前实体进行展开
结合当前路径状态、历史上下文和当前角色信息判断
在扩展事件路径时
④ 路径扩展模块
其整体模型分四个模块
在由大规模的财务公告组成的真实数据上Doc2EDAG 的表现超过了以往的工作
挑战及研究
篇章级事件识别和抽取方法
2 事件识别和抽取
相互作用的客观事实
是由特定人、物、事在特定时间和特定地点
事件
往往不是孤立现象
一个事件的发生 必然存在与之相关的其他事件
原因事件、结果事件、并发事件等
如:与该事件相关的
事件的发生
事件与其相关事件之间相互依存和关联的逻辑形式
抽取以事件为主题元素
事件之间深层的逻辑关系
挖掘
事件的衍生、发展以及信息的推理与预测
进而辅助
通过分析事件文本的结构信息及语义特征
事件关系
事件因果关系
事件时序关系
子事件关系
事件共指关系
即
主要对几种公认的事件关系进行介绍
语篇理解的重要组成部分
不仅是
也具有重要意义
对于问答等各种自然语言处理应用
意义
① 原因
② 结果
原因:“公共汽车没有出现”
结果:“我开会迟到”
如:“ 公共汽车没能出现。因此,我开会迟到了 ”
如:原因(cause)、结果(effect)、结果(consequence)
相关的触发词
如:生成(generate)、诱导(induce)等
模糊的触发词
可以包含
显式因果关系
基于语义分析
背景知识的推理
涉及
比较复杂
这里飓风的“肆虐”导致了建筑物“倒塌”
“飓风卡特里娜星期一早上沿着墨西哥湾海岸向海岸肆虐。早些时候有报道说沿岸有建筑物倒塌”
例子
隐式因果关系
形式
准确率(Acc)
精确率(P,precision)
召回率(R,recall)
F1 值
该任务常用的评价指标有
因果关系的抽取极其复杂和困难
包含针对语言模式、统计方法和监督分类器等建模方式
从文本语料中获取事件因果关系的知识
已有工作涵盖基于监督/无监督的抽取方法
当前
但在实际应用中较难扩展
提出基于手工编码的、特定领域的知识推理从文本中提取句子间隐含的因果关系
Kaplan 等人[Kaplan & Rogghe 1991]
而不需要任何基于知识的推理
使用预定义的语言模式(linguistic patterns)从商业和医学报纸文本中识别明确的因果关系
Khoo 等人[Khoo et al. 2000]
使用名词-动词-名词的词汇-句法模式来捕捉“蚊子引起疟疾”这样的例子
其中提到的因和果是名词,不一定是事件
设计出了一种自动检测表达因果关系的词汇句法模式的方法
Girju 等人[Girju et al. 2003]
利用因果线索和事件间的统计关联识别语境中的事件因果关系
设计了一种最小监督方法
Do 等人[Do et al. 2011]
基于 Do 等人的工作,探究了哪些类型的知识有助于动词(事件)间的因果关系识别
利用这些度量标准,能够自动生成一个知识库 (KB)
其中标识三种类型的动词对:强因果的、模糊的和强非因果的
他们提出了一种无监督方法,基于一套知识丰富的度量来学习动词(事件)之间因果关系
Riaz 和 Girju 等人[Riaz & Girju 2013]
利用该方法能够从互联网上抽取得到 如 “从事刀耕火种的农业” 导致 “加剧沙漠化” 的因果关系
进而帮助人类实现情景规划(scenario planning)
这些关系可被看作是未来可能发生的事件
提出一种利用事件的词汇语义信息建模的有监督方法
Hashimoto等人[Hashimotoet al. 2014]
抽取了包含句内和跨句的所有因果关系
文中仅识别两个事件是否存在因果关系
并不对二者间的方向做判断
因果具有方向性
针对文档级别的因果关系进行建模
Gao 等人[Gao et al. 2019]
现有工作
引入了知识丰富的关联度量指标,利用自动生成的训练语料库的监督来学习因果关系
同时,针对无监督方法,定义了3种涵盖显式、隐式因果关联的评价指标
和 Do 等人提出的 CEA 相比Riaz 和 Girju 等人
比较
通常对新的、以前未见过的数据表现不佳
缺乏使用有助于该任务的相关外部知识的能力
现有工作仅利用了标注数据
利用 ConceptNet 引入外部知识进行推理,很大程度丰富事件表示
提出带知识感知的因果推理机(knowledge-aware causal reasoner)
Liu 等人[Liu et al. 2020]
能够大幅增强模型处理新的,之前未见过的数据的能力
提出指称掩码推理机(mention masking reasoner)挖掘与事件无关的基于特定上下文的模式
这对识别新事件的因果关系很有帮助
在包含因果关系的表述中,往往包含事件无关的语言模式
这里基于一种假设
是一个句子级别的两两事件间的因果抽取模型
提出细心哨兵模块(attentive sentinel)对以上两个推理机进行权衡
在此基础上
Liu 等人
针对问题的改进
被广泛使用的语言模型
另一种常被作为知识源的是
除了基于外部知识库作为知识源
BERT 在预训练过程中可以学习到一些事件因果关系的背景知识
提出一种基于 BERT 的方法抽取事件因果关系,作为基于大语料进行预训练的语言模型
这种标注方式忽略了每个标注者的独立判断结果
通过训练多个分类器捕捉每个注释者的标注策略,结合产生的分类器输出来预测最终标签能够进一步提升模型性能
在标注事件因果关系时,关系标签的确定通常需要对多个标注结果(来自多个标注者)依照多数投票方式确定
Kadowaki 等人[Kadowaki et al. 2019]
通过将因果知识注入预训练语言模型,使预训练模型具备因果推理能力
提出预训练模型 CausalBERT
注入因果知识
通过设计因果对分类任务实现为 BERT 等预训练模型
具体地
Li 等人[Li et al. 2021]
利用 CausalBank 语料,构建正负例因果对,并采用合页损失函数作为训练目标
另一种作为知识源的语言模型
事件因果关系获取
是一项重要的自然语言理解任务
都有重要的作用
如:问答、信息检索和叙事生成等
对后续任务
图中节点表示事件
边被相应地标记为事件时序关系
可以被建模为针对给定文本构建一个图结构
该任务
① 事件抽取
② 事件时序关系分类
已经给定了正确抽取的事件结果
假设在训练关系分类器时
这种做法
一般将该任务分为两个独立的子任务
已有工作
① 准确率(Acc)
② 精确率(P,precision)、召回率(R,recall)、F1 值
③ 时序意识得分(temporal awareness score)
三种
评价指标
事件时序关系抽取
在自然语言处理领域引起了广泛关注
是基于 TimeML 标准标注的TimeBank(TB)语料
该任务的一个标准数据集
利用动词从句对 TB 的扩展
Bethard 等人[Bethard et al. 2007]
TempEval1-3 数据集
TimeBank-Dense(TB-Dense)数据集
EventTimeCorpus 数据集
MATRES 数据集
如:包含事件共指关系和因果关系
同时包含时序关系和其他类型关系的多标注数据集
在此之后,一系列的时序关系数据集被收集起来
事件在时序上的区间表示
均采用
现有的标注方法
分别表示两个事件对应的事件区间
如:之前(Before)、之后(After)、包含(Includes)、被包含(Is included)和 同时(SImultinous)等
在两个区间之间共包含 13 种时序关系
一些工作经常仅使用13 种关系约简后的集合
为了进一步缓解标注负担
令
事件时序关系获取
大部分由相同 (或兼容的) 代理(agent)执行
① A 是一个复杂的活动序列
② B 是活动序列中的一个
③ B 与 A 发生在同一时间和地点
形成了一个典型的事件序列(或脚本)
使得不同的事件间
这种关系
子事件关系
扮演了一种事件集合的角色
这里 A
BLANC
常用评价指标
HiEve 语料:关注于新闻故事中的子事件关系
包含大量表示不同时空粒度的真实事件
其叙述通常描述一些粗糙的具有空间、时间粒度的现实世界事件及其子事件
由于新闻故事中
一个识别事件之间时空包容关系的语料库
基于新闻故事,提出了 HiEve 语料
基于时空包容关系(即父事件-子事件关系) 的事件层次
叙事被表示为
表示事件对中的第一个事件在空/时间上包含第二个事件
① 父子事件关系(SUPERSUB)
和父子事件关系对称
② 子父事件关系(SUBSUPER)
表示两个事件指称表示了现实世界中的同一事件
③ 共指关系(COREF)
表示两个事件既无空时包含,也无共指关系
④ 无关系(NORELATION)
事件关系主要包含
1354 个句子,33273 个词
100 篇文档
语料中包含了
在 HiEve 中
Glava𝑠̌ 等人[Glava𝑠̌et al. 2014]
HiEve 语料
暴力事件领域 (爆炸、杀戮、战争等) 的文本
包含
在 IC 中
语料中注释了事件完全共指、子事件和成员关系的实例
鉴于部分共指类型的稀疏性
Hovy 等人[Hovy et al. 2013]
IC 语料
构建一个 SeRI 语料
基于英文维基百科中特有的关系模板(partof)及规则
共 7373 个候选子事件对
包含了 3917 篇事件文章
① 父子事件关系
② 子父事件关系
③ 无关系
共包含三种关系
挖掘子事件关系的模型的训练及评估语料
可以用做从百科全书中
在 SeRI 中
除了新闻领域等限定域,Ge 等人[Ge et al. 2018]
SeRI 语料
常用评估语料
子事件关系获取
3 事件关系获取
会使得事件特征异常稀疏
由于传统的 One-hot 高维特征表示方式
从而不利于后续的研究和应用
是基于语义词典对事件元素,进行泛化,进而缓解事件的稀疏性
第一种离散模型
则为每一个事件学习一个低维、稠密、实数值的向量进行表示
从而使得相似的事件具有相似的向量表示,在向量空间中相邻
第二种连续向量空间模型
Ding 等人提出了两种全新的事件表示方式
因此会导致事件具有严重的稀疏性
由于历史上发生的事件大多数都很难以再次发生
对同一事件的不同表达进行归一和泛化
表达的是同一事件
如:“微软以 72 亿美元价格吞并诺基亚移动手机业务”和 “微软出资 72 亿美元收购诺基亚移动手机业务”
离散模型的目标是
对事件元素进行泛化
WordNet、HowNet和 VerbNet 等
可以利用几个广泛应用的语义词典
为了完成这一目的
如:利用“微软”的上位词是“IT 公司”将其替换掉
① 首先,从 WordNet 中找到事件的施事者和受事者中名词的上位词将其泛化
如:“增加”在 VerbNet 中所属的动词类别名称为 multiply
② 随后,找到事件元素中的动词,并用 VerbNet 中该动词所属类别的名词替换掉改动词,从而对其进行泛化
一个事件泛化的完整例子
泛化过程
内容介绍
很多词难以在语义词典中找到相应记录
① WordNet,VerbNet 等语义词典词覆盖有限
对于不同应用可能会有不同要求,很难统一
② 对于词语的泛化具体到哪一级不明确
还是无法解决 One-hot 的特征表示带来的维度灾难(curse of dimensionality)问题
即使对事件进行了泛化
会导致后续的应用难以取得较好结果
由此带来的特征稀疏问题
也会消耗大量的实验时间和空间存储
增加了计算成本
并且超高维度的特征空间
局限性
离散模型
用低维、稠密、实数值向量表示一个词汇
Bengio 首先提出了为词汇学习一个分布式表示(即 word embedding)
将该词汇的大规模上下文语义信息都融入到词汇向量中
Bengio 训练一个神经网络模型
为了学习这样一个词汇向量
因此,相似的词汇也应该会学习到相似的词汇向量
由于语义上相似的两个词汇应该会有相似的上下文
引入
从而相似的事件在向量空间中具有相邻的位置
Ding 等人提出学习低维、稠密、实数值事件向量表示
相近似
与知识库中的多元关系数据分布式表示学习
e1 和 e2 是命名实体
R 是这两个命名实体之间的关系类型
关系数据的分布式表示学习
动机是一样的
同
都将某一个特定关系类型用一个矩阵或者张量建模学习
大多数关系数据的分布式表示学习模型
事件类型是开放的,也就是无限的
这样就导致无法用一个矩阵或张量建模某一个事件类型
抽取的是开放式事件元组
将事件词 P 也表示成与施事者 O1和受事者 O2具有相同纬度的向量,从而摆脱了事件类型无限多的限制
为了解决这一问题,Ding 等人[Ding et al. 2015]
① 知识库中的关系类型数量有限
命名实体是可以互换位置的,也就是说这时候关系是没有方向性的
当 R 是一个正定矩阵时
谁是事件的施事方,谁是受事方是不可随便变化的,一旦改变则事件就完全不同
事件元素都是有特定角色的,其具有很强的方向性
异
事件的分布式表示学习 与词汇的分布式表示学习 的 异同
分布式表示
事件的每一个元素及其所扮演的角色都会被显式地建模学习
设计了一个全新的张量神经网络来学习事件的结构化向量表示
Ding 等人[Ding et al. 2015]
(Neural Tensor Network, NTN)
输出是事件向量
输入是词向量
从大规模的新闻语料中学习到最初始的词向量(维度为 d = 100)
可以利用 Mikolov 提出的 Word2Vec 模型中的 skip-gram 算法
来生成最终的事件元素初始向量
可采用各个词汇向量的平均值
可以让无论是短语还是单一词汇都具有同样维度的向量表示
如:诺基亚移动手机业务和诺基亚
这样做的好处是
由于事件元素可能会包含多个词汇
张量神经网络
概念介绍
基于张量神经网络
4 事件表示学习
三技术方法和研究现状
0 条评论
回复 删除
下一页