Formal Grammars of English -10 chapter(Speech and Language Processing)
determiner 限定词 DET
propernoun 专有名词
NP (or noun phrase)
mass noun 不可数名词
Det Nouns 限定词名词
relative pronoun 关系代词
transitive verbs 及物动词
intransitive不及物
conjunction 连词
10.1Constituency
noun phrase:groups of words behaving as a single units, or constituents
preposed
postposed
例子:
On September seventeenth, I’d like to fly from Atlanta to Denver
I’d like to fly on September seventeenth from Atlanta to Denver
I’d like to fly from Atlanta to Denver on September seventeenth
CFG:
对英语等语言的组成结构建模的正式系统中,使用最广泛的是上下文无关文法CFG,也被称为短语结构文法Phrase-Structure Grammars,形式主义相当于Backus Naur Form或BNF。
rules:
CFG包含rules和productions,每一个都表达了语言符号被一起分组或排序的方法,以及词汇和符号词典
terminal:和语言中的单词相关的 如 the、nightclub
lexicon所有词汇:the lexicon is the set of rules that introduce these terminal symbols.也就是一个大辞典,大辞典里规定了terminal符号转换成实际的单词的规则
non-terminal:代表terminals的抽象概念的符号
--》 在CFG中,-》右边是terminals或者non-terminals,左边是non-terminals来表达聚类或者泛化
CFG的两个用途:
a、生成句子
b、给给定的句子分配结构
derivation:一般用parse tree来表示derivation,即CFG步骤中逐步解释的过程
dominates:如the node NP ~ all the nodes in the tree
start symbol:The formal language defined by a CFG is the set of strings that are derivable
start symbol from the designated start symbol. Each grammar must have one designated start
symbol, which is often called S.
VP:verb phrase
PP:介词短语(prepositional phrase)
bracket notation:parse tree表示的紧凑形式, [S [NP [Pro I]] [VP [V prefer] [NP [Det a] [Nom [N morning] [Nom [N flight]]]]]]
formal language:a set of strings
grammatical:可以从一种语法中提取的句子(strings of words)就是由语法定义的formal language
ungrammatical:不能从给定的正式语法中提取的句子就不是由该语法定义的语言,称之为~
generative grammer:使用formal language对natural language建模称为~,因为这种语言是由该语法生成的句子集合所定义的。
CFG的定义:四个参数~N; 一部戏弄; R; S~4 tuple
N:non-terminal符号的集合或者variables
一部戏弄:terminal符号
R:规则的集合
S:start symbol
10.3
英语结构分为四种:
a、陈述句:名词短语+动词短语
b、祈使句:动词开头,无主语
c、yes-no疑问句:助动词+名词短语+动词短语 ~疑问、请求、建议。。
d、疑问句:
d1:wh-subject-question --和陈述句相同,除了名词短语中包含wh-word(who, whose, when, where, what, which, how, why) ,S -》 Wh-NP VP
d2:wh-non-subject-question --wh-phrase不再是主语,有助动词 S -》 Wh-NP Aux NP VP
long-distance dependencies :例如d2中Wh-NPwhat flight距离谓语动词have很远
trace or empty category :分析long-distance dependencies 时,如在VP后加上~syntactic relation
clause:
S也可以出现的语法规则的右边,因此可以嵌入到更长的句子中。使得句子结构例如S规则和剩下的语法不同的时:他们从某种意义上是完整的。在这个方面,他们和clause的概念对立,传统语法常常被形容为形成一个完整的概念。一种使得“completel thought”的概念更准确的概念是:S是parse tree的一个节点,S的主要动词的所有的论元都在该节点以下。
The Noun Phrase:
最常用的名字短语类型是:代词、专有名词和NP-》Det Nominal结构
这些名词短语有一个head和中心名词组成 ,伴有各种修饰词出现在head noun前或者后。
determiners限定词:
名词短语由限定词开头如a、the、driver's、mother's等,限定词的作用是由一个名词短语组成的所有格表达,后面跟一个's作为所有格标记。Det ->NP 's
before the Head Noun:
cardinal numbers基数词 如one
ordinal numnumbers 序数词 如first
quantifiers 量词 如many、a few、few、several
AP 即adjective phrase,如 the least expensive far中的least expensive
after the Head Noun:
3种nominal postmodifiers:
a 、prepositional phrases 即PP ,介词短语~ all flights from Cleveland
b、non-finite clauses 非限定从句~any flights arriving after eleven a.m.
gerundive动名词、-ed、infinitive不定式
c、relative clauses 关系从句~a flight that serves breakfast
before the Noun Phrase:
predeterminer 即PreDet前置限定词如all
the Verb Phrase:
VP-》Verb或Verb NP或Verb NP PP或Verb PP或Verb S即sentential complements句子补语或VP
coordination
通过conjunctions来获得coordinate phrase的能力,作为对constituency(选区)的测试
metarules超规则
将语法规则更加泛化,如GPSG广义短语结构,使用超规则
10.4 Treebanks
treebank:
由CFG规则组成的高效强健的语法可以用来给任何句子建立一个parse tree,这就意味这建立集合种所有句子和相应的passe tree组成的pair的语料是可能的,这样一个语法标注的语料就是~。
~在和语法现象中的语言研究中起到重要作用
treebank的种类有很多,是通过parse自动解析每个句子,然后人工修正后得到的。
很多treebanks使用了十三章要介绍的依存表示,包括很多the Universal Dependencies project的部分。
Penn Treebank项目的treebank是由Brown, Switchboard, ATIS, and Wall Street Journal corpora of English, as well as treebanks in Arabic and Chinese得到的。
表示方法:LISP风格的树括号表示法、括号表示法、标准的node-and-line树表示。
traces,syntactic movement:
使用traces(-NONE-节点)来标记长距离依赖(语言中相联系的词和短语在一句话中未必紧接在一起)或者syntactic movement,例如quatations引语常常跟着一个引用动词如say。但是在这个例子中,引语“We should have to wait until we have collected on those assets”在he said之前。一个只包含唯一的节点-NONE的空的S标志着said之后的位置,也就是引用的句子通常出现的位置。这个空的节点在Treebanks II和III中用index 2表示,因为句子的开头是S。这样的co-indexing联合索引可以使一些parser解析器更容易恢复这一事实即前面的
或主题化的引语是动词said的补语。
grammar:例如S->NP VP ,PP->IN NP
lexicon:PRP->we|he,DT->the|that|those
Penn Treebank II和III版本的加上了更多信息来更简单的恢复谓语和论元的关系。在特殊文本类别例如headlines和titles的某些短语标注了tags来标志短语的语法功能例如surface subject, logical topic, cleft, non-VP predicates和它们的语义功能例如temporal phrases时间短语和locations地点~surface subject即SBJ:he ,temporal phrase即TMP:until,PRD tag:不是VPs的谓语
用来parse the Penn Treebank的语法相对来说比较直接,所以会产生很多很长的规则。例如光是扩展VPs的规则就有4500多条。
光是Penn Treebank III华尔街日报语料就有一百万个词,也有大约一百万个非词汇的规则tokens,包含了17500个不同规则类型。由于巨多的规则,treebank语法给概率parsing算法带来了问题,所以更常见的方法是对来自treebank的语法做各种修改,这将在第十二章讨论。
Heads和head findings:
语法成分是和一个lexical head相关联的,N是NP的head,V是VP的head,这种对于每个成分的head的想法可以追溯到Bloomfiled。它是基于成分的语法规则的核心例如Head-Driven Phrase Structure Grammar,也是我们将要在第十三章讨论的基于依赖的语法方法的核心。head和head-dependent关系也会在计算语言学中起到核心作用,用在probabilistic parsing概率句法分析上。
the head是短语中语法上最重要的词汇。heads在parse tree上传递,因此,在parse tree中每个non-terminal都由单一词汇注释,这个词汇就是它的lexical head主导词。
更实际的找到head的方法不是在语法中定义头的规则,而是heads在给定句子的树的上下文下动态的识别,也就是说,一旦一个句子被parsed,生成的树的每个node就会由适当的head。当下更多的系统依赖于一个简单的手工规则集合,例如Penn Treebank语法中的一个可实践的规则~举了一个找到一个NP的head的例子,即if else else。。。
10.5 Grammar Equivalence and Normal Form句法对等和范式
一种formal正式语言是由字符串集合定义的(可能是无限的),这就表明我们可以通过判断它们是否生成相同的字符串集合来判断两种语法是否相等。事实上,让两个不同的CFG产生相同的语言是可能的。
两种语法对等:weak equivalence和strong equivalence,后者~当它们产生相同的字符串,而且它们给每个句子分配相同的短语结构(只允许重命名non-terminal符号),前者~产生相同字符串但是每个句子没有分配相同的短语结构。
有时语法由一个normal form正式形式是有好处的,这样每个生成的东西都有一个特定的形式。例如,一个CFG就属于CNF即Chomsky normal form,它产生的语法形式是binary branching的,也就是二分树。我们在CKY parsing算法种利用binary branching的特性。
任何CFG都可以转换为一个weakly equivalent Chomsky normal语法。
Chomsky-adjunction:A-》A B
10.6 lexicalized grammars
迄今为止提出的语法方法强调短语结构规则,尽量减少词汇的作用。然后,在长距离依赖、agreement、subcategorization等上面,这种解决方法会使得产生的grammars冗余、难处理等。为了克服这种问题,发展了很多更好利用lexicon的方法。如LFG、HPSG、TAG、CCG等,这些方法的不同之处就是如何lexicalized-即它们多大程度上依赖lexicon而不是用句法结构来捕捉语言的事实。
CCG~基于语法和句法的重度lexicalized的方法
dependency grammars:完全消除短语结构规则
conbinatory categorial grammar:
分类方法包括三个主要元素:类别集合、词汇和类别联系起来的lexicon词典、控制这文本种类别如何结合的规则集合
Summary
This chapter has introduced a number of fundamental concepts in syntax through the use of context-free grammars.
• In many languages, groups of consecutive words act as a group or a constituent, which can be modeled by context-free grammars (which are also
known as phrase-structure grammars).
• A context-free grammar consists of a set of rules or productions, expressed over a set of non-terminal symbols and a set of terminal symbols. Formally, a particular context-free language is the set of strings that can be derived from a particular context-free grammar.
• A generative grammar is a traditional name in linguistics for a formal language that is used to model the grammar of a natural language.
• There are many sentence-level grammatical constructions in English; declarative, imperative, yes-no question, and wh-question are four common types;
these can be modeled with context-free rules.
• An English noun phrase can have determiners, numbers, quantifiers, and adjective phrases preceding the head noun, which can be followed by a number of postmodifiers; gerundive VPs, infinitives VPs, and past participial VPs are common possibilities.
• Subjects in English agree with the main verb in person and number.
• Verbs can be subcategorized by the types of complements they expect. Simple subcategories are transitive and intransitive; most grammars include
many more categories than these.
• Treebanks of parsed sentences exist for many genres of English and for many languages. Treebanks can be searched with tree-search tools.
• Any context-free grammar can be converted to Chomsky normal form, in which the right-hand side of each rule has either two non-terminals or a single terminal.
• Lexicalized grammars place more emphasis on the structure of the lexicon, lessening the burden on pure phrase-structure rules.
• Combinatorial categorial grammar (CCG) is an important computationally relevant lexicalized approach
Formal Grammars of English -10 chapter(Speech and Language Processing)的更多相关文章
- Dependency Parsing -13 chapter(Speech and Language Processing)
https://web.stanford.edu/~jurafsky/slp3/13.pdf constituent-based 基于成分的phrasal constituents and phras ...
- Linux高并发网络编程开发——10-Linux系统编程-第10天(网络编程基础-socket)
在学习Linux高并发网络编程开发总结了笔记,并分享出来.有问题请及时联系博主:Alliswell_WP,转载请注明出处. 10-Linux系统编程-第10天(网络编程基础-socket) 在学习Li ...
- Python第三方库SnowNLP(Simplified Chinese Text Processing)快速入门与进阶
简介 github地址:https://github.com/isnowfy/snownlp SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的 ...
- English trip -- FC(万词辩音王)
五个元音字母+一个半元音字母 1.发字母本身音都是 元+辅+e 2.不发字母音基本都是辅音结尾或者两个相同字母 辅+元+辅;元+辅 开音节 ...
- NLP(Natural Language Processing)
https://github.com/kjw0612/awesome-rnn#natural-language-processing 通常有: (1)Object Recognition (2)Vis ...
- 学习笔记之自然语言处理(Natural Language Processing)
自然语言处理 - 维基百科,自由的百科全书 https://zh.wikipedia.org/wiki/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7 ...
- SDN 编程语言 p4(SDN programming language P4)
行业趋势,SND是未来. P4 是未来. SDN is inevitably, and P4 is inevitably. P4 = Programming Protocol-Independent ...
- Speech and Language Processing, NLP 处理
https://www.amazon.com/Speech-Language-Processing-Daniel-Jurafsky/dp/0131873210 http://web.stanford. ...
- NLP问题特征表达基础 - 语言模型(Language Model)发展演化历程讨论
1. NLP问题简介 0x1:NLP问题都包括哪些内涵 人们对真实世界的感知被成为感知世界,而人们用语言表达出自己的感知视为文本数据.那么反过来,NLP,或者更精确地表达为文本挖掘,则是从文本数据出发 ...
随机推荐
- Web应用的统一异常处理(二十四)
我们在做Web应用的时候,请求处理过程中发生错误是非常常见的情况.Spring Boot提供了一个默认的映射:/error,当处理中抛出异常之后,会转到该请求中处理,并且该请求有一个全局的错误页面用来 ...
- JS--script标签注意细节
1)在使用<script>标签嵌入js代码时,记住不要在代码中的任何地方出现</script>字符串.例如: <script type="text/javasc ...
- pycharm搭建开发配置,远程调试,数据库配置,git配置等
1 开发环境搭建 1.1 简介 使用虚拟机作为代码运行环境,本地使用pycharm进行代码编辑,使用远程调试功能进行debug. 1.1 安装centos虚拟机环境: 1.操作系统: 2.网络配置: ...
- 关于Object.prototype.toString.call
slice(8,-1)意思是从第8位开始(包含第8位)到最后一位之前(-1的意思就是最后一位,不包含最后一位): Object.prototype.toString.call(boj)这个是用来判断数 ...
- Oracle.练习题
2018-07-31 ---练习3 ---创建sporter表 create table sporter( sporterid ) constraint sport_id primary key, s ...
- Daily record-July
July11. Nonsense! 胡说八道!2. Who cares! 谁管你呀!3. It's on me.. 我来付.4. It's a deal. 一言为定.5. I've done my b ...
- 尚学堂java 答案解析 第四章
本答案为本人个人编辑,仅供参考,如果读者发现,请私信本人或在下方评论,提醒本人修改 一.选择题 1.BD 解析:B:类必须有构造方法,若程序未写,这系统自动调用系统构造方法. D:super()会调用 ...
- day04流程控制之while循环
流程控制之while循环 1.什么是while循环 循环指的是一个重复做某件事的过程 2.为何有循环 为了让计算机能像人一样重复 做某件事 3.如何用循环 ''' # while循环的语法:while ...
- nginx:负载均衡实战(四)nginx+keepalived配置双机热备
1.下载安装 下载keepalived地址:http://www.keepalived.org/download.html 解压安装: tar -zxvf keepalived-.tar.gz 安装o ...
- json 2017-04-21 10 17
jo := SO(); jo.S['tttt'] := 'tttt'; TbSendedTidJson['jo'] := jo; ja := TbSendedTidJson['jo'];//取出来后, ...