Causal Corpus 事件因果关系语料统计
Causal Corpus 事件因果关系语料统计
本文是对因果关系抽取领域数据库标注及开源情况的统计。除了对因果关系的标注,一些类似的语料也包含在内,从而为语料的使用提供灵活性,可以根据不同的目标选取不同的语料库。
领域简介
因果关系通常标注为 ( cause , effect , signal ) 三元组,cause 和 effect 分别代表原因事件和结果事件,signal 是语言学从因果结构的触发词,例如 because, so, thus 等等。
需要知道的是不同的因果语料对于因果关系的定义以及对事件的定义有很大差异,从而导致至今没有一个大规模的统一语料库支撑该领域开展开放域的研究。如果给出好的定义也是学术界讨论的焦点。
因果事件语料通常作为因果事件抽取、因果推断等任务的基础,允许使用规则、机器学习、深度学习等方法对事件链进行分析。
采样策略
本文采用的语料搜集方法是基于领域关键词(如 causal, relation, causality )从 Google Scholar 获取种子论文集,根据文献之间的引述关系,不断拓展相关文档范围,最终得到领域相关的语料集合。
对于 arxiv 暂不收录,只针对已发表的文章进行统计。
统计分析
名称 | 年份 | 规模(因果关系数量) | 开源情况 | 备注 |
---|---|---|---|---|
SemEval-2007 task 4 | 2007 | 210 | 是 | ~ |
The Penn Discourse Treebank 2.0 | 2008 | ~ | 是 | 没有专门对因果进行标注。因果被记为 contingency relationship 的子类。显式因果,且触发词不完整,无法完全的表述因果,很多情况没有标记。BECauSE Corpus 2.0相对其更加完善。 |
Bethard et al., 2008 | 2008 | - | paper中链接以失效 | 标注了一个小语料库,针对被 ’and' 连接的事件binary 因果标注。 |
SemEval-2010 task 8 | 2010 | 1,331 | 是 | 每条句子只标注一对因果事件,即使还存在其他因果事件。实体不标注完整信息,只标注head。 |
Richer Event Descriptions | 2014 | 1,147 | 对THYME病例语料标注的丰富,添加了事件共指注释,同时实现了相邻句之间的事件关系标注,对因果进行区分, ‘PRECONDITION’ and ‘CAUSE’ | |
Causal-TimeBank | 2014 | 298 | 提出一种更加广泛覆盖的语言学的方法来丰富 TimeML 语料库,使其包含因果关系和触发词。要求事件是TimeML中标注的事件,基于语言学特征进行标注。guideline 不够精确,更多地依赖于主观概念。 | |
The Chinese Discourse TreeBank | 2015 | 261 | 找到的唯二中文语料。 | |
CaTeRS | 2016 | 约700 | 是 | 320篇小说,1600个句子,2708个事件,2715个关系,13种类型。实体不标注完整信息,只标注head。不是标注现实世界的因果,而是故事中结合人的推理能够得到的因果结论。侧重于script and narrative structure learning |
AltLex | 2016 | 9,190 | 利用PDTB和Wikipedia语料,使用distant supervision demonstrates方法,提出了一种自动构建因果标注集的方法,文末作者提到了他没有对标注的质量进行细致的验证。只是作为一个组件参与分类器从而提升最终性能。 | |
BECauSE Corpus 2.0 | 2017 | 1,803 | 是 | 显式因果。与其他标注方案的一致性高,语言学因果结构覆盖完整。同时平行标注了其他关系,允许同一事件对包含多种关系。对不同关系间的重叠进行讨论。是目前为止找到的最好的语料。 |
Event StoryLine Corpus | 2017 | 5,519 PLOT_ LINK | 是 | 该语料对故事进行标注,标注条目PLOT_LINK 表达 explanatory relations ,即说明性的、帮助读者理解故事叙述架构的关系信息,标注结果和因果非常相似,但是出发点又有不同。这种关系的目的是使(新闻)故事中事件的连贯性或逻辑联系变得清晰,为事件之间的一种松散的因果或时序关系,一件事的提及解释了/证明了另一件事的发生。 |
HIT-CDTB | ? | 2,138(显式)+1,526(隐式) | 否 | HIT篇章关系语料。存疑。 |
对于各个语料的具体分析尚未整理完善,有需要的看官可以邮件联系我。
参考资料
- Girju R, Nakov P, Nastase V, et al. Semeval-2007 task 04: Classification of semantic relations between nominals[C]//Proceedings of the 4th International Workshop on Semantic Evaluations. Association for Computational Linguistics, 2007: 13-18.
- Prasad R, Dinesh N, Lee A, et al. The Penn Discourse TreeBank 2.0[C]//LREC. 2008.
- Bethard S, Corvey W J, Klingenstein S, et al. Building a Corpus of Temporal-Causal Structure[C]//LREC. 2008.
- Hendrickx I, Kim S N, Kozareva Z, et al. Semeval-2010 task 8: Multi-way classification of semantic relations between pairs of nominals[C]//Proceedings of the Workshop on Semantic Evaluations: Recent Achievements and Future Directions. Association for Computational Linguistics, 2009: 94-99.
- O’Gorman T, Wright-Bettner K, Palmer M. Richer Event Description: Integrating event coreference with temporal, causal and bridging annotation[C]//Proceedings of the 2nd Workshop on Computing News Storylines (CNS 2016). 2016: 47-56.
- Mirza P, Sprugnoli R, Tonelli S, et al. Annotating causality in the TempEval-3 corpus[C]//EACL 2014 Workshop on Computational Approaches to Causality in Language (CAtoCL). Association for Computational Linguistics, 2014: 10-19.
- Zhou Y, Xue N. The Chinese Discourse TreeBank: a Chinese corpus annotated with discourse relations[J]. Language Resources and Evaluation, 2015, 49(2): 397-431.
- Mostafazadeh N, Grealish A, Chambers N, et al. CaTeRS: Causal and temporal relation scheme for semantic annotation of event structures[C]//Proceedings of the Fourth Workshop on Events. 2016: 51-61.
- Hidey C, McKeown K. Identifying causal relations using parallel Wikipedia articles[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2016: 1424-1433.
- Dunietz J, Levin L, Carbonell J. The BECauSE corpus 2.0: Annotating causality and overlapping relations[C]//Proceedings of the 11th Linguistic Annotation Workshop. 2017: 95-104.
- Caselli T, Vossen P. The event storyline corpus: A new benchmark for causal and temporal relation extraction[C]//Proceedings of the Events and Stories in the News Workshop. 2017: 77-86.
- T. N. de Silva, X. Zhibo, Z. Rui, M. Kezhi, Causal relation identification using convolutional neural networks and knowledge based features, World Academy of Science, Engineering and Technology, International Journal of Computer, Electrical, Automation, Control and Information Engineering 11 (6) (2017) 697–702.
- C. Kruengkrai, K. Torisawa, C. Hashimoto, J. Kloetzer, J. Oh, M. Tanaka, Improving event causality recognition with multiple background knowledge sources using multi-column convolutional neural networks, in: Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence, February 4-9, 2017, San Francisco, California, USA., 2017, pp. 3466–3473.
- C. Kruengkrai, K. Torisawa, C. Hashimoto, J. Kloetzer, J. Oh, M. Tanaka, Improving event causality recognition with multiple background knowledge sources using multi-column convolutional neural networks, in: Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence, February 4-9, 2017, San Francisco, California, USA., 2017, pp. 3466–3473.
- C. Kruengkrai, K. Torisawa, C. Hashimoto, J. Kloetzer, J. Oh, M. Tanaka, Improving event causality recognition with multiple background knowledge sources using multi-column convolutional neural networks, in: Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence, February 4-9, 2017, San Francisco, California, USA., 2017, pp. 3466–3473.
- C. Kruengkrai, K. Torisawa, C. Hashimoto, J. Kloetzer, J. Oh, M. Tanaka, Improving event causality recognition with multiple background knowledge sources using multi-column convolutional neural networks, in: Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence, February 4-9, 2017, San Francisco, California, USA., 2017, pp. 3466–3473.
- J. Dunietz, J. G. Carbonell, L. S. Levin, Deepcx: A transition-based approach for shallow semantic parsing with complex constructional triggers, in: Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, Brussels, Belgium, October 31 - November 4, 2018, 2018, pp. 1691–1701.
共享协议
本文由 ArrogantL 整理并在 CC BY-NC-SA 3.0 协议下发布。有任何问题请邮件联系 arrogant262@gmail.com
请各位遵循 Markdown: License 及其它参考文献的共享协议来使用、修改和发布。
Causal Corpus 事件因果关系语料统计的更多相关文章
- HotApp小程序统计之自定义事件统计
什么是自定义事件统计 官网:https://weixin.hotapp.cn/document 自定事件,就是自定统计任意事件的执行,灵活度最高. 用上图的云笔记说明想知道如下信息 (1)多少 ...
- 漫谈格兰杰因果关系(Granger Causality)——第一章 野火烧不尽,春风吹又生
2017年7月9日上午6点10分,先师胡三清同志--新因果关系的提出者.植入式脑部电极癫痫治疗法的提出者.IEEE高级会员,因肺癌医治无效于杭州肿瘤医院去世,享年50岁.余蒙先师厚恩数载,一朝忽闻先师 ...
- 微信小程序监控 - HotApp统计
HotApp小程序统计,第一个专业的微信第三方小程序监控统计工具 1.什么是HotApp小程序统计 HotApp小程序统计是第一个微信第三方小程序统计工具,就像做android 和 ios开发的人知道 ...
- HotApp小程序统计,第一个专业的微信第三方小程序统计工具
1.什么是HotApp小程序统计 HotApp小程序统计是第一个微信第三方小程序统计工具,就像做android 和 ios开发的人知道友盟统计一样,小程序也需要有个统计工具. 通过这个工具,可以知道小 ...
- 在 SharePoint Server 2013 中配置建议和使用率事件类型
http://technet.microsoft.com/zh-cn/library/jj715889.aspx 适用于: SharePoint Server 2013 利用使用事件,您可以跟踪用户与 ...
- Inotify: 高效、实时的Linux文件系统事件监控框架
Inotify: 高效.实时的Linux文件系统事件监控框架 概要 - 为什么需要监控文件系统? 在日常工作中,人们往往需要知道在某些文件(夹)上都有那些变化,比如: 通知配置文件的改变 ...
- 如何扩展分布式日志组件(Exceptionless)的Webhook事件通知类型?
写在前面 从上一篇博客高并发.低延迟之C#玩转CPU高速缓存(附示例)到现在又有几个月没写博客了,啥也不说,变得越来越懒了,懒惰产生了拖延后遗症. 最近一周升级了微服务项目使用的分布式日志组件Exce ...
- [转].NET 性能测试工具 -- 事件跟踪器(ETW)
.NET 性能测试工具 -- 事件跟踪器(ETW) 内容预告: Windows内置工具(性能计数器) 事件跟踪器(WPT,PerfMoniter,PerfView,自定义ETW) 时间分析 内存分配分 ...
- 个推应用统计产品(个数)Android集成实践
前段时间,我们公司的产品又双叒叕给我们提了新需求,要求我们把APP相关的数据统计分析一下,这些指标包括但不限于应用每日的新增.活跃.留存率等等,最好每天都能提供数据报表.这种事情真是想想就麻烦,大家最 ...
随机推荐
- 关于 float 型和 double 型的区别,以及 char 型和 String 型的不同
一.1.float是单精度浮点数,内存分配4个字节,占32位,有效小数位6-7位 double是双精度浮点数,内存分配8个字节,占64位,有效小数位15位 2.java中默认声明的小数是double类 ...
- 011.Delphi插件之QPlugins,延时加载服务
这个DEMO是是把DLL插件的相关信息做成了一个配置文件,主程序加载这个配置文件,从而起到延时加载的作用 主程序代码如下 unit Frm_Main; interface uses Winapi.Wi ...
- uniapp 小程序 flex布局 v-for 4栏展示
注:本项目的图片资源来源于后端接口,所以使用的是v-for. 关键词:uniapp 小程序 flex布局 v-for 4栏展示 自适应 <view style="display: fl ...
- window安装dlib、face_recognition
face_recognition简介 face_recognition是Python的一个开源人脸识别库,支持Python 3.3+和Python 2.7.引用官网介绍: Recognize and ...
- GNS3 模拟icmp目标不可达
目标不可达: R1 : conf t int f0/0 no shutdown ip add 192.168.1.1 255.255.255.0 end R2 f0/0: conf t int f0/ ...
- Java多线程之Java内存模型
如果要了解Java内存模型,就得对多线程的三大特性有初步的了解. 1.原子性:独一无二.一个操作或者多个操作 要么全部执行并且执行的过程不会被任何因素打断,要么就都不执行.比如i = i+1:其中就包 ...
- TP框架数据模型
1.TP框架的数据模型需要建在Model文件夹下: 1.数据模型 与控制器相似,但是每个数据模型控制一张数据表. 2.数据模型可写可不写,如果不写 则沿用父类数据模型. 2.访问数据库: 1.更改数据 ...
- AS-PATH(路径属性)路由路径欺骗术
AS-PATH(路径属性)路由路径欺骗术: ①:抓取感兴趣流量——前缀与访问 ②:创建路由地图 ③:路由地图第一法则——permit 10 ④:在第一法则中,匹配(感兴趣流量) ⑤:设置 路径欺骗术— ...
- Erlang/Elixir精选-第5期(20200106)
The forgotten ideas in computer science-Joe Armestrong 在2020年的第一期里面,一起回顾2018年Joe的 The forgotten idea ...
- Open_CV 色彩空间
色彩空间: 颜色空间按照基本结构可以分两大类:基色颜色空间 和 色.亮分离颜色空间.前者的典型是 RGB,还包括 CMY.CMYK.CIE XYZ 等:后者包括 YCC/YUV.Lab.以及一批“色相 ...