【转载】 NLP如此钟情英语研究真的好吗?
转载自:
---------------------------------------------------------------------------------
全世界有7000多门语言,但自然语言处理(NLP)却主要研究英语这门语言。来自Deep Mind的科研人员Sebastian Ruder认为,当下NLP领域集中于开发能够有效处理英语的方法,却忽略了钻研其他语言的重要性。事实上,研究英语以外的语言不仅具有重大的社会意义,还有助于构建多语言特征模型,以避免过度拟合和应对机器学习的潜在挑战。
(在上面的地图中,一个绿色圆圈便代表一种本土语言。世界上大多数语言的使用集中分布在亚洲、非洲、太平洋地区和美洲地区。)
在过去的几年里,NLP的许多任务取得了振奋人心的进步,但大多数成果只是局限于英语和其他少数几门使用较广泛、数据资源丰富的语言,如中文、日语、法语等。作者Sebastian Ruder回顾2019年ACL网站上关于无监督跨语言表示学习(Unsupervised Cross-lingual Representation Learning)的发文,然后基于线上所能获取的无标注数据和标注数据,总结出一个语言数据资源等级体系。这个体系与2020年由来自微软研究院的Pratik Joshi等人共同发表在ACL上的一篇论文“The State and Fate of Linguistic Diversity and Inclusion in the NLP World”里所提到的分类法相似,如下图所示
(这是Joshi等人归纳的语言资源分布图。圆圈的大小和颜色分别表示一个语系下的语言数量和使用者数量。根据VIBGYOR光谱的排列顺序:紫色(Violet)–靛蓝(Indigo)–蓝色(Blue)–绿色(Green)–黄色(Yellow)–橙色(Orange)–红色(Red),颜色从左到右(从紫色到红色)表示语言使用者数量递增。)
从上图中,我们可以看到,当下NLP文献对分布在最右边的、拥有大量标注数据和未标注数据的第5类语言(红色)和第4类语言(橙色)有充分研究。相比之下,NLP对其他组别的语言研究十分有限。在本文中,作者将从社会、语言、机器学习、文化规范以及认知等视角论证NLP为何需要钻研英语以外的其他语言。
1、社会方面
如果NLP仅适用于单一标准口音的英语使用者,那么这门技术便难以普及。
一个人所使用的语言决定了其获取信息、接受教育和建立人际关系的途径。虽然我们会想当然地以为互联网面向所有人,但在现实生活中,我们不难发现:互联网资讯显示的语言仅几百种(连全世界语言种类的15%都不到),主要面向主流语言使用者,这些网民也主要来自西方国家;相比之下,其他小众语言使用者能接触到的数字信息非常有限。
随着越来越多门语言出现在聊天app与社交媒体中,主流语言与小众语言的差距体现在技术的方方面面:从基础层面看,数据资源匮乏的语言连一个辅助输入的键盘都没有,更别提检查错误;从更高层面看,NLP的算法偏向于口音标准的英语使用者,对其他语言使用者和口音不“正宗”的英语使用者则表示出一种“歧视”。
算法“偏心”是一个不可忽视的问题。现有许多NLP研究将数据资源丰富的语言(如英语)作为自然语言的同义词,导致NLP模型处理许多相关语言子分支(linguistic subcommunities)、方言和口音时效果较差。Jauhiain在2018年发表的论文“Automatic Language Identification in Texts: A Survey”里提到,事实上,语言与语言之间的分界线比我们现在划分的要模糊,对相似的语言和方言的识别仍然是一个极具挑战的难题。比方说,虽然意大利语是意大利的官方语言,但整个意大利所使用的语言和方言大约有34种。
技术包容性的持续缺失不仅会加剧主流语言与小众语言之间的鸿沟,还可能迫使小众语言的使用者放弃原有语言的学习,转而学习使用较广泛的、技术支持条件更好的语言(如英语),进一步危及了语言的多样性。我们应将NLP模型应用于英语以外的其他语言,以确保非英语使用者能跟上时代,消除当下NLP领域的语言不平衡现象,以及减少语言和读写障碍。
2、语言方面
虽然我们声称要开发通用语言理解方法,但目前我们的方法总体上仅适用于一门语言,即英语。
世界上少数几种数据资源丰富的语言(包括英语)在很多方面都不能代表其他语言。许多资源丰富的语言都属于印欧语系,主要在西方国家使用,词法匮乏。比方说,信息表达大体上遵循严格的句法结构,句子结构有固定的单词顺序、使用多个词义独立的单词,而不是从单词本身的变化来实现信息传递。
这个问题可以通过观察不同语言的类型特征来获得更全面的了解。《世界语言结构图集》(Wolrd Atlas of Language Structure)归纳了192种类型特征,包括语言的结构和语义特征等。比方说,有一种类型特征描述了一门语言中主语、宾语和动词的典型顺序。每个特征平均有5.93个类别。48%的特征分类仅存在于上文图表中0–2组的小众语言中,不适用于3-5组的主流语言。忽略数量如此大的类别特征,意味着现有NLP模型可能会错失那些有助于提升模型泛化能力的宝贵信息。
钻研英语以外的其他语言也许会帮助我们建立对不同语言之间的关系的全新了解。此外,在这个过程中,我们还能了解在建立NLP模型时需要捕获的语言特征。具体而言,就是你可以运用你对一门特定语言的了解,探究这门语言与英语在变音符号的使用、复合词、词尾的屈折变化、派生词、重叠词、沾着语、溶合法等等方面的不同之处。
3、机器学习方面
我们所编码的模型架构反映了我们的假设,而这些模型架构 往往是基于我们所打算应用的数据而来。虽然我们希望设计出能通用于其他语言的模型,但当下NLP模型的许多 归纳偏差(inductive biases)仅适用于英语及与之类似的语言。
某些模型中缺乏明确编码信息,但这并不代表这些信息是与语言无关的。一个典型例子是N-Gram语言模型,对于词法复杂、词序相对灵活的语言来说,它的表现会差得多。
同样地,神经网络模型常常会忽略形态丰富的语言的复杂性:基于子词的分词方法(Subword tokenization)在具有重叠词的语言上表现不佳,字节对编码(Byte Pair Encoding, BPE)与形态学的配合也较差,语言模型也不擅长处理词汇量较大的语言。语法、单词顺序和句法构造的差异也会给神经模型造成问题。除此之外,我们通常假设预训练的嵌入很容易对所有相关信息进行编码,但这并不适用于所有语言。
上述问题在单词与句子方面给建模结构带来了独特挑战,包括多方向处理稀疏性(sparsity)、少样本学习(few-shot learning)、以预训练的形式对相关信息进行编码,以及在相关语言间进行转换等。现有模型尚无法解决以上难题,因此我们需要一套新的语言感知方法。
新近NLP模型在英语方面应用了具有成千上百万示例的标注和未标注数据集,在越来越难的基准任务上与人类的表现几乎不相上下。同时,NLP研究已过度适应了英语语言数据的特征和条件。尤其是因为过度关注数据资源丰富的语言,我们趋于优先选择在大量标注和未标注数据可用的条件下运行良好的研究方法。
这些方法在处理大多数小众语言时,由于数据资源的匮乏,往往会出现“瘫痪”状态。即便是最近预训练语言模型有望大幅降低下游任务的样本复杂性,但这也需要大量干净的、无标注数据,但世界上大部分语言都没有大量无标注数据。因此,能否良好处理少量数据成为测试当前NLP模型局限性的一个理想条件,评估数据资源匮乏的语言无疑能产生影响深远的、真实的应用。
4、文化与规范方面
模型训练所使用的数据不仅展示了特定语言的特征,还诠释了一定的文化规范和常识。
然而,在不同文化里,一些常识也可能有所不同。例如,“免费”商品指的是任何人都可以在未经许可的情况下使用的商品(如餐馆里的盐),但“免费”和“非免费”的概念在不同的文化中也会有不同的表现。不同文化里对禁忌话题的定义略有不同,甚至对相对权力和社交距离的评估也有一些差异。另外,许多现实情景(如COPA数据集所包含的情景)与许多直接经验并不匹配,也没能将许多众所周知的背景知识平等地反映出来。
因此,仅接触主要源自西方国家的英语数据的智能体也许能与来自西方国家的谈话者进行合理交谈,但与来自不同文化背景的人交谈时则可能出现沟通障碍。
除了文化规范和常识知识以外,我们训练模型所依据的数据还反映了潜在社会的价值。作为NLP研究人员或从业人员,我们必须询问自己:我们是否希望我们的NLP系统排他地传递特定某个国家或语言社区的价值观。
虽然这个问题对于当前主要处理诸如文本分类之类的简单任务的NLP系统而言并不那么重要,但随着系统变得越来越智能、并需要处理复杂的决策任务,该问题的决定将变得越来越重要。
5、认知方面
人类幼童能够学习任何自然语言,而且他们的语言理解能力还能应用于各种语言。为了获取人类级别的语言理解能力,NLP模型应该有理解不同语言派系和类型的能力。
NLP模型最终应能学习不局限于任何一种语言结构、还能泛化到特征不同的语言的抽象概念。
6、解决之道
1)建立数据集
如果要创建一个新的数据集,应该预留出一半注解用于创建另一门语言的大小相同的数据集。
2)评估
如果您对某项特定任务感兴趣,可以考虑用不同语言在同一个任务上进行模型评估。
3)Bender Rule
标明你所研究的语言。
4)假设
明确说明你的模型所使用的信号及其作出的假设。想好哪门语言是你特地学的,哪门语言是笼统学习的。
5)语言多样性
估算你正在研究的语言样本的多样性。
6)研究
钻研那些能解决数据资源匮乏的语言难题的方法。
相关参考论文:
Cross-Cultural Pragmatic Failure (1983), https://academic.oup.com/applij/article-abstract/4/2/91/167524?redirectedFrom=fulltext
On Achieving and Evaluating Language-Independence in NLP (2011), https://journals.linguisticsociety.org/elanguage/lilt/article/view/2624.html
Choice of Plausible Alternatives: An Evaluation of Commonsense Causal Reasoning (2011), https://ict.usc.edu/pubs/Choice%20of%20Plausible%20Alternatives-%20An%20Evaluation%20of%20Commonsense%20Causal%20Reasoning.pdf
Keyboard layouts: Lessons from the me'phaa and sochiapam Chinantec designs (2014), https://www.researchgate.net/publication/290279777_Keyboard_layouts_Lessons_from_the_me'phaa_and_sochiapam_Chinantec_designs
Demographic Dialectal Variation in Social Media: A Case Study of African-American English (2016), https://www.aclweb.org/anthology/D16-1120/
From Characters to Words to in Between: Do We Capture Morphology? (2017), https://arxiv.org/abs/1704.08352
The DLDP Survey on Digital Use and Usability of EU Regional and Minority Languages (2018), https://www.aclweb.org/anthology/L18-1656/
Automatic Language Identification in Texts: A Survey (2018), https://arxiv.org/abs/1804.08186
Can LSTM Learn to Capture Agreement? The Case of Basque (2018), https://www.aclweb.org/anthology/W18-5412/
Deep Contextualized Word Representations (2018), https://www.aclweb.org/anthology/N18-1202/
Universal Language Model Fine-tuning for Text Classification (2018), https://www.aclweb.org/anthology/P18-1031.pdf
What Kind of Language Is Hard to Language-Model? (2019), https://www.aclweb.org/anthology/P19-1491/
On Difficulties of Cross-Lingual Transfer with Order Differences: A Case Study on Dependency Parsing (2019), https://www.aclweb.org/anthology/N19-1253.pdf
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (2019), https://www.aclweb.org/anthology/N19-1423/
The State and Fate of Linguistic Diversity and Inclusion in the NLP World (2020), https://arxiv.org/abs/2004.09095
A Call for More Rigor in Unsupervised Cross-lingual Learning (2020), https://www.aclweb.org/anthology/2020.acl-main.658/
From SPMRL to NMRL: What Did We Learn (and Unlearn) in a Decade of Parsing Morphologically-Rich Languages (MRLs)? (2020), https://www.aclweb.org/anthology/2020.acl-main.660.pdf
Byte Pair Encoding is Suboptimal for Language Model Pretraining (2020), https://arxiv.org/abs/2004.03720
XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization (2020), https://arxiv.org/abs/2003.11080
ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators (2020), https://openreview.net/forum?id=r1xMH1BtvB
A Call for More Rigor in Unsupervised Cross-lingual Learning (2020), https://www.aclweb.org/anthology/2020.acl-main.658/
XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning (2020), https://arxiv.org/abs/2005.00333
via: https://ruder.io/nlp-beyond-english/
----------------------------------------------
-----------------------------------------------------------
【转载】 NLP如此钟情英语研究真的好吗?的更多相关文章
- 转载Liferay PortletPreference store()方法研究
我们对于PortletPreference 的store()用的非常广泛,很多情况下,我们一般对其进行一些设定,然后最后调用store()存储之,类似以下代码: PortletPreferences ...
- 转载别人的DLL DEll研究
昨日,编了个DLL和EXE来进行了下测试,exe通过lib静态联编dll,来调用它的导出类,当改变DLL中导出类的结构(eg.成员变量的顺序等),从新发布DLL而不从新联结编译EXE,就会造成错误的执 ...
- (转载)研究openvswitch的流量模式
最近又开始弄openvswitch,网上也有不少的资料,但是发觉都集中在openvswitch安装及简单使用或者一些原码分析,从心里来讲,感觉这些和心里得到的差距有点大啊,其实更希望能类似资料在ope ...
- Deep Learning in NLP (一)词向量和语言模型
原文转载:http://licstar.net/archives/328 Deep Learning 算法已经在图像和音频领域取得了惊人的成果,但是在 NLP 领域中尚未见到如此激动人心的结果.关于这 ...
- 【NLP】自然语言处理:词向量和语言模型
声明: 这是转载自LICSTAR博士的牛文,原文载于此:http://licstar.net/archives/328 这篇博客是我看了半年的论文后,自己对 Deep Learning 在 NLP 领 ...
- Word2Vec之Deep Learning in NLP (一)词向量和语言模型
转自licstar,真心觉得不错,可惜自己有些东西没有看懂 这篇博客是我看了半年的论文后,自己对 Deep Learning 在 NLP 领域中应用的理解和总结,在此分享.其中必然有局限性,欢迎各种交 ...
- 一名IT从业者的英语口语能力成长路径
一名IT从业者的英语口语能力成长路径 来源: 微信公众号 发布时间: 2014-03-12 22:53 阅读: 6134 次 推荐: 24 原文链接 [收藏] 这篇文章是我最近十天口 ...
- 史上最详尽的NLP预处理模型汇总
文章发布于公号[数智物语] (ID:decision_engine),关注公号不错过每一篇干货. 转自 | 磐创AI(公众号ID:xunixs) 作者 | AI小昕 编者按:近年来,自然语言处理(NL ...
- NLP 入门
作者:微软亚洲研究院链接:https://www.zhihu.com/question/19895141/answer/149475410来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业 ...
- 【转载】BERT:用于语义理解的深度双向预训练转换器(Transformer)
BERT:用于语义理解的深度双向预训练转换器(Transformer) 鉴于最近BERT在人工智能领域特别火,但相关中文资料却很少,因此将BERT论文理论部分(1-3节)翻译成中文以方便大家后续研 ...
随机推荐
- liquibase常用操作
1.概述 Liquibase是一个用于跟踪.管理和应用数据库变化的开源的数据库重构工具.它将所有数据库的变化(包括结构和数据)都保存在XML文件中,便于版本控制. 本文旨在将平时工作中常用的一些操作进 ...
- MySQL数据库开发(2)
单表查询 单表查询即对单个表进行查询. 单表查询的语法 SELECT 字段1,字段2... FROM 表名 WHERE 条件 GROUP BY field HAVING 筛选 ORDER BY fie ...
- 如何基于Perl实现批量蛋白名转换为基因名?以做后续GO与KEGG分析
众所周知,在完成蛋白组学组间差异蛋白筛选后,往往要做GO与KEGG功能富集分析,这就需要我们首先将蛋白名转换为基因名,或者找出基因ID.将蛋白名转化为基因名可能涉及不同的转换工具或数据库,这里有几种常 ...
- 短链服务接口慢优化 redis应用
短链服务接口慢优化 redis应用 短链接服务:1.长链接 查询 短链接(长链接如果存在,直接返回短链接,如果长链接不存在,则需要生成短链接),比如:在获取短信之前,或者管理后台编辑短信内容之前,需要 ...
- 汽车生产车间PMC组态画面应该怎么设计
通常我们所说的汽车制造四大工艺指的是:冲压.焊装.涂装.总装.一般来说,在汽车制造工厂,这四大工艺分别对应四大车间.本文结合一些实际应用案例,向大家展示一下 TopStack 在汽车制造业各工艺车间中 ...
- R 语言入门学习笔记:软件安装踩坑记录——删除所有包以及彻底解决库包被安装到 C 盘用户目录下的问题,以及一些其他需要注意的点
目录 R 语言入门学习笔记:软件安装踩坑记录--删除所有包以及彻底解决库包被安装到 C 盘用户目录下的问题,以及一些其他需要注意的点 软件版本及环境 遇到的问题描述 问题的分析和探究 最终的解决方案 ...
- Jupyter QtConsole 配置,2023 年了你还在使用 QtConsole 吗?
目录 Jupyter QtConsole 配置,2023 年了你还在使用 QtConsole 吗? Jupyter QtConsole 的安装 设置字体 启动时自动加载需要的库包 更新:2023 年 ...
- 又跳槽!3年java经验offer收割机的面试心得
中厂->阿里->字节,成都->杭州->成都 系列文章目录和关于我 0.前言 笔者在不足两年经验的时候从成都一家金融科技中厂跳槽到杭州阿里淘天集团,又于今年5月份从杭州淘天跳槽到 ...
- Dell服务器配置RIAD并创建热备盘
在系统启动期间,按F2键进入System Setup(系统设置)主菜单 单击Device Settings(设备设置). 单击所需的RAID controller(RAID控制器)设备. 4.单击Co ...
- Ubuntu访问samba共享文件
Ubuntu访问samba共享文件 参考:https://www.cnblogs.com/Wolf-Dreams/p/11241198.html 做法 安装samba-client.cifs-util ...