【NLP_Stanford课堂】分词

【【NLP_Stanford课堂】分词】的更多相关文章

【NLP_Stanford课堂】分词

一.如何定义一个单词在统计一句话有多少个单词的时候,首要问题是如何定义一个单词,通常有三种情况: 是否认为句中的停顿词比如Uh是一个单词,我们称之为fragment,或者filled pause. 是否认为一个单词的不同形态是一个单词. 是否认为一个完整的词组,比如San Francisco是一个单词以上三种在不同任务下有不同的处理方法. 二.统计什么信息在统计时,我们统计如下信息: word types:词汇表中的一个元素,不重复 word token:文本中该type的一个实例,可重复…

【NLP_Stanford课堂】情感分析

一.简介实例: 电影评论.产品评论是positive还是negative 公众.消费者的信心是否在增加公众对于候选人.社会事件等的倾向预测股票市场的涨跌 Affective States又分为: emotion:短暂的情感,比如生气.伤心.joyful开心.害怕.羞愧.骄傲等 mood:漫无原因的低强度长时间持续的主观感觉变化,比如cheerful,gloomy阴郁.irritable急躁. interpersonal stance:人际关系中对另一个人的立场,比如友好的.友善的 atti…

【NLP_Stanford课堂】文本分类2

一.实验评估参数实验数据本身可以分为是否属于某一个类(即correct和not correct),表示本身是否属于某一类别上,这是客观事实:又可以按照我们系统的输出是否属于某一个类(即selected和not selected),表示是否分到某一类别,这是实验输出. 以垃圾邮件为例: tp:表示系统认为它是垃圾邮件,而确实它是垃圾邮件,所以为true positive fn:表示系统不认为它是垃圾邮件,但它其实是垃圾邮件,所以为false negative fp:表示系统认为是,其实不是,所以…

【NLP_Stanford课堂】文本分类1

文本分类实例:分辨垃圾邮件.文章作者识别.作者性别识别.电影评论情感识别(积极或消极).文章主题识别及任何可分类的任务. 一.文本分类问题定义: 输入: 一个文本d 一个固定的类别集合C={c1,c2,...,cj},一共j个类别输出:一个d的预测类别c∈C 方法: 最简单的是使用基于词或其他特征组合的手写规则垃圾邮件:列举出一系列黑名单的邮箱地址或者词(比如,“dollars”和“have been selected”) 如果规则很完备,准确率会非常高,但是一般很难做到或者花费会很贵一般…

【NLP_Stanford课堂】拼写校正

在多种应用比如word中都有拼写检查和校正功能,具体步骤分为: 拼写错误检测拼写错误校正: 自动校正:hte -> the 建议一个校正建议多个校正拼写错误类型: Non-word Errors非词错误:即写了一个不是单词的词,比如graffe并不存在,应校正为giraffe 检测方法:认为任一不在字典中的词都是一个非词错误,因此字典本身越大越好校正方法:为错误词产生一个候选,其是跟错误词相似的真词,然后选择加权编辑距离最短或者信道噪声概率最高的那个词. Real-word Errors…

【NLP_Stanford课堂】语言模型4

平滑方法: 1. Add-1 smoothing 2. Add-k smoothing 设m=1/V,则有从而每一项可以跟词汇表的大小相关 3. Unigram prior smoothing 将上式中的1/v换成unigram概率P(wi),则有: 其是插值的一种变体,其将某种unigram概率加入到bigram的计算中. 4. Good-Turing Smoothing 大部分平滑算法比如Good-Turing.Kneser-Ney.Witten-Bell采用的主要思想是用之前已知的数据的…

【NLP_Stanford课堂】语言模型3

一.产生句子方法:Shannon Visualization Method 过程:根据概率,每次随机选择一个bigram,从而来产生一个句子比如: 从句子开始标志的bigram开始,我们先有一个(<s>, w),w是随机一个单词,比较有可能的是I这个单词,那么我们就有(<s>, I) 随机选择下一个单词,得到(w,x),这里w是I,x概率最大的是want 重复以上步骤,直到得到</s> 问题1:过度拟合.N-grams在预测句子上只有当测试语料库和训练语料库非常相似…

【NLP_Stanford课堂】语言模型2

一.如何评价语言模型的好坏标准:比起语法不通的.不太可能出现的句子,是否为“真实”或"比较可能出现的”句子分配更高的概率过程:先在训练数据集上训练模型的参数,然后在测试数据集上测试模型的效果. 要求:测试数据集与训练数据集完全不同评价指标:用以评价模型的测试数据集上的效果二.N-gram 模型的外部评测 1. 比较两个模型最好的评价方法: 将两个模型A和B应用于同一个任务:拼写检查.语音识别.机器翻译等运行这个任务,分别得到A和B的准确性:有多少个拼写错误的单词被恰当的纠正了?或者有多…

【NLP_Stanford课堂】语言模型1

一.语言模型旨在:给一个句子或一组词计算一个联合概率作用: 机器翻译:用以区分翻译结果的好坏拼写校正:某一个拼错的单词是这个单词的概率更大,所以校正语音识别:语音识别出来是这个句子的概率更大总结或问答系统相关任务:在原句子的基础上,计算一个新词的条件概率,该概率与P(w1w2w3w4w5)息息相关. 任何一个模型计算以上两个概率的,我们都称之为语言模型LM. 二.如何计算概率方法:依赖概率的链式规则从而有: 问题:如何预估这些概率方法一:计数和细分但是不可能做到! 原因:句子…

【NLP_Stanford课堂】最小编辑距离

一.什么是最小编辑距离最小编辑距离:是用以衡量两个字符串之间的相似度,是两个字符串之间的最小操作数,即从一个字符转换成另一个字符所需要的操作数,包括插入.删除和置换. 每个操作数的cost: 每个操作数的cost一般是1 如果置换的cost是2,而插入和删除的cost是1,我们称之为Levenshtein 距离. 作用: 计算衡量机器翻译和语音识别的好坏:将机器得到的字符串与专家写的字符串比较最小编辑距离,以一个单词为一个单位. 命名实体识别和链接:比如通过计算最小编辑距离,可以判定IBM.I…