Linguistic Data Consortium (LDC)
搞NLP的人经常会听到一个神秘的名字LDC,因为大量的论文所使用的数据都来自于LDC,本文就来揭露其神秘面目。
About LDC:
LDC,全名Linguistic Data Consortium,是一个由大学、图书馆、企业、政府、研究机构共同合办的联合企业,成立于1992年,目前由宾夕法尼亚大学负责主要运营。
LDC最初的角色只是保存与分发科研要用到的语言数据,后来有钱了,就也自己收集、自己构建一些数据,渐渐发展成现在的规模:拥有非常多的语言数据资源,是主要的科研语言资源管理分发机构。
现在每年LDC大概新增30~36个语料。
Join LDC:
任何机构交钱就可以加入LDC,加入后就成为了LDC的会员,购买语料可以享受会员价(对于很多语料来说就是免费,主要是老版本语料)。
以PTB语料为例,会员价0,非会员价1700刀。
那么要成为会员每年的年费是多少呢?
对于非盈利机构,价格2400刀/年
对于盈利性机构,价格24000刀/年
在会员期间获取的数据即使不是会员了也可以永久使用(但是盈利性机构不知道是不是这样……网站上写的很模糊)。
想要把数据拷贝给别人也是要单独交钱的,不过会员依旧有优惠。
Data:
LDC的语料还是很丰富的,中英日法阿拉伯,各种语言,各种语料,五花八门,不过也都真心贵啊= =
浏览全部语料:https://catalog.ldc.upenn.edu/byyear
Data Scholarships:
LDC给穷学生提供了免费申请数据的机会……
申请人需要满足两个条件:
1、是在校本科生或研究生(没有博士?还是说graduate student包含了博士?),而且所在学校没有买LDC的数据。
2、本人有很好的研究计划而且是真穷……支付不起那个数据费用。
申请人要提交申请说明自己要哪个数据、做什么研究、成功几率有多大,此外,还要申请人的导师或系主任提供证实。
一年有两个申请期,春秋各一次。
----
下面开始个人吐槽:
黑……真TM黑……
不过想想visual studio要上千刀,matlab要上千刀……我真有点怀疑要多有钱才能搞学术……
ref:
https://www.ldc.upenn.edu/about/ldc-overview
Linguistic Data Consortium (LDC)的更多相关文章
- 了解一下LDC
转自: Linguistic Data Consortium (LDC) 因为Kaldi里面各种语料涉及到LDC,搜罗一下,好像并没有相应的教程和网站用法.... 搞 NLP 的人经常会听到一个神秘的 ...
- (转)awesome-text-summarization
awesome-text-summarization 2018-07-19 10:45:13 A curated list of resources dedicated to text summari ...
- Is this Sentence Difficult? Do you Agree? -paper
术语: 数据lemma:词根,词元(词的基本形式,如名词单数或动词的不定式形式) content words:实词part-of-speech:词性object-relative clauses an ...
- Penn Treebank
NLP中常用的PTB语料库,全名Penn Treebank.Penn Treebank是一个项目的名称,项目目的是对语料进行标注,标注内容包括词性标注以及句法分析. 语料来源为:1989年华尔街日报语 ...
- Structural Features for Predicting the Linguistic Quality of Text: Applications to Machine Translation, Automatic Summarization and Human-Authored Text -paper
abstract句子结构是文本语言质量的关键,我们记录了以下实验结果:句法短语统计和其他结构特征对文本方面的预测能力.手工评估的句子fluency流利度用于机器翻译评估和文本摘要质量的评估是黄金准则. ...
- NLP常用信息资源
ACL Anthology,囊括了ACL,EMNLP,CL等NLP领域重要会议和期刊的论文.http://www.aclweb.org/anthology-new/ LDC: The Linguist ...
- Kaldi学习手记(一):Kaldi的编译安装
下载 安装git sudo apt-get install git 下载Kaldi git clone https://github.com/kaldi-asr/kaldi.git kaldi-tru ...
- ### Paper about Event Detection
Paper about Event Detection. #@author: gr #@date: 2014-03-15 #@email: forgerui@gmail.com 看一些相关的论文. 1 ...
- Speech Super Resolution Generative Adversarial Network
博客作者:凌逆战 博客地址:https://www.cnblogs.com/LXP-Never/p/10874993.html 论文作者:Sefik Emre Eskimez , Kazuhito K ...
随机推荐
- chrome二维码插件 – w3cways QR Code Generator
最近研究了下Chrome插件的制作方法,制作了一个二维码插件. 安装方法 方法一:在Chrome应用商店中安装(推荐)点击安装(需FQ) 方法二:本地安装:下载安装包,解压得到w3cways_qrCo ...
- Xcode文件被锁定:The file ".xcodeproj" could not be unlocked
同事从svn上面checkout项目到本地,通过xcode打开的时候提示的这个问题. The file "xcodeproj" could not be unlocked. Cou ...
- express安装及使用(windows系统)
npm install express //安装express命令 npm install express-generator -g //Express 应用生成器,通过应用生成器工具 express ...
- 【GIS】使用GDAL为Leaflet切图
一.参考资料 https://commenthol.github.io/leaflet-rastercoords/ https://github.com/commenthol/gdal2tiles-l ...
- 使用dshow抓取摄像头数据时,回调函数时间为0的问题
在使用dshow抓取摄像头数据,调用dshow的回调函数,如果发现SampleTime一直为0,如下图 那极有可能是使用RenderStream函数连接Filter时,指定的第一个参数为 PIN_CA ...
- Sharepoint文档的CAML分页及相关筛选记录
写这篇文章的初衷是因为其他的业务系统要调用sharepoint的文档库信息,使其他的系统也可以获取sharepoint文档库的信息列表.在这个过程中尝试过用linq to sharepoint来获取文 ...
- Splash autoload() 方法
autoload() 方法可以设置每个页面访问时自动加载的对象,比如自动加载 JavaScript 代码,自动加载 Ajax 代码等等 注意此方法只负责加载 JavaScript/Ajax 代码,不执 ...
- Selenium 异常处理
在使用 Selenium 的过程中,难免会遇到一些异常,例如超时.节点未找到等错误,我们可以使用 try...except... 语句来捕获各种异常 更多异常类参考官网:https://seleniu ...
- 浅谈千万级PV/IP规模高性能高并发网站架构(转自老男孩)
原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 .作者信息和本声明.否则将追究法律责任.http://oldboy.blog.51cto.com/2561410/736710 如果把来 ...
- 基本入门ISD9160开发指南
1 整体认识ISD9160 其详细介绍肯定看他的数据手册.抛开一切觑头功能,我们第一步就把它当做一个M0单片机来使用了.它有IO口,有串口,有SPI等,那就像用其它M0 一样的使用它呗.这个没啥难度了 ...