【NLP_Stanford课堂】句子切分】的更多相关文章

实验对比了一下三种切分方式: 1,2 : nltk.word_tokenize :  分离缩略词,(“Don't” =>'Do', "n't") 表句子切分的“,” "." 单独成词. 3 :  TreebankWordTokenizer: 分离缩略词, 表句子切分的 “,"单独成词,句号“.”被删去. 4 : PunktWordTokenizer: 报错: cannot import name 'PunktWordTokenizer' 5 : Wo…
依照什么切分句子——标点符号 无歧义的:!?等 存在歧义的:. 英文中的.不止表示句号,也可能出现在句子中间,比如缩写Dr. 或者数字里的小数点4.3 解决方法:建立一个二元分类器: 检查“.” 判断这个是不是出现在句尾 具体使用手写规则(正则表达式).机器学习分类器,最简单的是决策树 决策树: 首先检查是否在该词之后有很多空白行,如果是,则该词是句尾,否则检查下一项 检查最后一个标点是不是?, !, 或者:,如果是,则该词是句尾,否则检查下一项 检查最后一个标点是不是句号,如果否,则该词不是句…
一.简介 实例: 电影评论.产品评论是positive还是negative 公众.消费者的信心是否在增加 公众对于候选人.社会事件等的倾向 预测股票市场的涨跌 Affective States又分为: emotion:短暂的情感,比如生气.伤心.joyful开心.害怕.羞愧.骄傲等 mood:漫无原因的低强度长时间持续的主观感觉变化,比如cheerful,gloomy阴郁.irritable急躁. interpersonal stance:人际关系中对另一个人的立场,比如友好的.友善的 atti…
一.实验评估参数 实验数据本身可以分为是否属于某一个类(即correct和not correct),表示本身是否属于某一类别上,这是客观事实:又可以按照我们系统的输出是否属于某一个类(即selected和not selected),表示是否分到某一类别,这是实验输出. 以垃圾邮件为例: tp:表示系统认为它是垃圾邮件,而确实它是垃圾邮件,所以为true positive fn:表示系统不认为它是垃圾邮件,但它其实是垃圾邮件,所以为false negative fp:表示系统认为是,其实不是,所以…
文本分类实例:分辨垃圾邮件.文章作者识别.作者性别识别.电影评论情感识别(积极或消极).文章主题识别及任何可分类的任务. 一.文本分类问题定义: 输入: 一个文本d 一个固定的类别集合C={c1,c2,...,cj},一共j个类别 输出:一个d的预测类别c∈C 方法: 最简单的是使用基于词或其他特征组合的手写规则 垃圾邮件:列举出一系列黑名单的邮箱地址或者词(比如,“dollars”和“have been selected”) 如果规则很完备,准确率会非常高,但是一般很难做到或者花费会很贵 一般…
在多种应用比如word中都有拼写检查和校正功能,具体步骤分为: 拼写错误检测 拼写错误校正: 自动校正:hte -> the 建议一个校正 建议多个校正 拼写错误类型: Non-word Errors非词错误:即写了一个不是单词的词,比如graffe并不存在,应校正为giraffe 检测方法:认为任一不在字典中的词都是一个非词错误,因此字典本身越大越好 校正方法:为错误词产生一个候选,其是跟错误词相似的真词,然后选择加权编辑距离最短或者信道噪声概率最高的那个词. Real-word Errors…
一.产生句子 方法:Shannon Visualization Method 过程:根据概率,每次随机选择一个bigram,从而来产生一个句子 比如: 从句子开始标志的bigram开始,我们先有一个(<s>, w),w是随机一个单词,比较有可能的是I这个单词,那么我们就有(<s>, I) 随机选择下一个单词,得到(w,x),这里w是I,x概率最大的是want 重复以上步骤,直到得到</s> 问题1:过度拟合.N-grams在预测句子上只有当测试语料库和训练语料库非常相似…
一.如何评价语言模型的好坏 标准:比起语法不通的.不太可能出现的句子,是否为“真实”或"比较可能出现的”句子分配更高的概率 过程:先在训练数据集上训练模型的参数,然后在测试数据集上测试模型的效果. 要求:测试数据集与训练数据集完全不同 评价指标:用以评价模型的测试数据集上的效果 二.N-gram 模型的外部评测 1. 比较两个模型最好的评价方法: 将两个模型A和B应用于同一个任务:拼写检查.语音识别.机器翻译等 运行这个任务,分别得到A和B的准确性:有多少个拼写错误的单词被恰当的纠正了?或者有多…
一.语言模型 旨在:给一个句子或一组词计算一个联合概率 作用: 机器翻译:用以区分翻译结果的好坏 拼写校正:某一个拼错的单词是这个单词的概率更大,所以校正 语音识别:语音识别出来是这个句子的概率更大 总结或问答系统 相关任务:在原句子的基础上,计算一个新词的条件概率,该概率与P(w1w2w3w4w5)息息相关. 任何一个模型计算以上两个概率的,我们都称之为语言模型LM. 二.如何计算概率 方法:依赖概率的链式规则 从而有: 问题:如何预估这些概率 方法一:计数和细分 但是不可能做到! 原因:句子…
一.为什么要规范化 在做信息检索的时候,一般都是精确匹配,如果不做规范化,难以做查询,比如用U.S.A去检索文本,结果文本里实际上存的是USA,那么实际上应该能查到的结果查不到了. 所以需要对所有内容做规范化,以实现检索的有效性. 二.怎么规范化 大小写转换 在信息检索的应用上,通常将大写字母转换成小写字母,因为用户更倾向于使用小写字母 例外情况:当大写字母出现在句子的中间的时候,一般有特殊意义,不能转换,比如是某个机构的缩写 对于情感分析.机器翻译或者信息抽取,大写字母一般都非常重要,不能转换…