Linguistic Data Consortium (LDC)】的更多相关文章

搞NLP的人经常会听到一个神秘的名字LDC,因为大量的论文所使用的数据都来自于LDC,本文就来揭露其神秘面目. About LDC: LDC,全名Linguistic Data Consortium,是一个由大学.图书馆.企业.政府.研究机构共同合办的联合企业,成立于1992年,目前由宾夕法尼亚大学负责主要运营.LDC最初的角色只是保存与分发科研要用到的语言数据,后来有钱了,就也自己收集.自己构建一些数据,渐渐发展成现在的规模:拥有非常多的语言数据资源,是主要的科研语言资源管理分发机构.现在每年…
转自: Linguistic Data Consortium (LDC) 因为Kaldi里面各种语料涉及到LDC,搜罗一下,好像并没有相应的教程和网站用法.... 搞 NLP 的人经常会听到一个神秘的名字 LDC,因为大量的论文所使用的数据都来自于 LDC,本文就来揭露其神秘面目. About LDC: LDC,全名 Linguistic Data Consortium,是一个由大学.图书馆.企业.政府.研究机构共同合办的联合企业.成立于 1992 年,目前由宾夕法尼亚大学主要运营.LDC 最初…
awesome-text-summarization 2018-07-19 10:45:13 A curated list of resources dedicated to text summarization Contents Corpus Opinosis dataset contains 51 articles. Each article is about a product’s feature, like iPod’s Battery Life, etc. and is a colle…
术语: 数据lemma:词根,词元(词的基本形式,如名词单数或动词的不定式形式) content words:实词part-of-speech:词性object-relative clauses and prepositional-phrase attachments :宾语关系从句和介词短语从句 i.e. :即verb ellipsis:动词省略predicate :谓语subordination :<语>主从关系dependency links:从属关系clause:从句.分句metric…
NLP中常用的PTB语料库,全名Penn Treebank.Penn Treebank是一个项目的名称,项目目的是对语料进行标注,标注内容包括词性标注以及句法分析. 语料来源为:1989年华尔街日报语料规模:1M words,2499篇文章语料价格:1500 ~ 1700$ Penn Treebank委托Linguistic Data Consortium (LDC) 发行与收费,这意味着你想下载PTB就要去LDC的网站上下载(https://www.ldc.upenn.edu/).PTB有两个…
abstract句子结构是文本语言质量的关键,我们记录了以下实验结果:句法短语统计和其他结构特征对文本方面的预测能力.手工评估的句子fluency流利度用于机器翻译评估和文本摘要质量的评估是黄金准则.我们发现和短语长度相关的结构特征是弱特征,但是与fluency强相关,基于整个结构特征的分类器可以在句子fluency成对比较和区分机器翻译和人类翻译上取得高准确率.我们也测试了这个假设即,学到的模型可以捕捉人类创作文本的普遍的fluency性质.实验结果不支持这种假设.同时结构特征和基于结构特征的…
ACL Anthology,囊括了ACL,EMNLP,CL等NLP领域重要会议和期刊的论文.http://www.aclweb.org/anthology-new/ LDC: The Linguistic Data Consortiumhttp://www.ldc.upenn.edu/ 知网http://www.keenage.com/ WordNethttp://wordnet.princeton.edu/ 中文自然语言处理开放平台http://www.nlp.org.cn/ AAAI Top…
下载 安装git sudo apt-get install git 下载Kaldi git clone https://github.com/kaldi-asr/kaldi.git kaldi-trunk --origin golden 目录结构 其中,tools.src.egs这三个目录是比较重要的. tools目录下面全部都是Kaldi依赖的包.其中主要有: OpenFST:Weighted Finite State Transducer library,是一个用来构造有限状态自动机的库.我…
Paper about Event Detection. #@author: gr #@date: 2014-03-15 #@email: forgerui@gmail.com 看一些相关的论文. 1. <Efficient Visual Event Detection using Volumetric Features> ICCV 2005 扩展2D box 特征到3D时空特征. 构建一个实时的检测器基于容积特征. 采用传统的兴趣点方法检测事件. 2. <ARMA-HMM: A New…
博客作者:凌逆战 博客地址:https://www.cnblogs.com/LXP-Never/p/10874993.html 论文作者:Sefik Emre Eskimez , Kazuhito Koishida 摘要 语音超分辨率(SSR)或语音带宽扩展的目标是由给定的低分辨率语音信号生成缺失的高频分量.它有提高电信质量的潜力.我们提出了一种新的SSR方法,该方法利用生成对抗网络(GANs)和正则化(regularization)方法来稳定GAN训练.生成器网络是有一维卷积核的卷积自编码器,…