nlp学习笔记】的更多相关文章

前言 先来看一些demo,来一些直观的了解. 自然语言处理: 可以做中文分词,词性分析,文本摘要等,为后面的知识图谱做准备. http://xiaosi.trs.cn/demo/rs/demo 知识图谱: https://www.sogou.com/tupu/person.html?q=刘德华 还有2个实际应用的例子,加深对NLP的理解 九歌机器人: https://jiuge.thunlp.cn/ 微软对联机器人: http://duilian.msra.cn/ NLP概述: 自然语言处理,是…
I. 正则表达式(regular expression) 正则表达式是专门处理文本字符串的正式语言(这个是基础中的基础,就不再详细叙述,不了解的可以看这里). ^(在字符前): 负选择,匹配除括号以外的字符.比如[^A-W]匹配所有非大写字符:[^e^]匹配所有e和^以外的字符 |:或者.比如a|b|c等价于[a-c] *:匹配大于等于0个符号前面的字符:+:匹配至少一个前面的字符:.:匹配所有单个字符:?:匹配0或1个前面的字符 \:转义符:将特殊字符转化为简单字符.比如.匹配所有字符,.匹配…
1. 什么是情感分析(别名:观点提取,主题分析,情感挖掘...) 应用: 1)正面VS负面的影评(影片分类问题) 2)产品/品牌评价: Google产品搜索 3)twitter情感预测股票市场行情/消费者信心 2. 目的 利用机器提取人们对某人或事物的态度,从而发现潜在的问题用于改进或预测. 这里我们所说的情感分析主要针对态度(attitude). 注:Scherer 情感状态类型主要可以分为: 情绪(emotion):有一定原因引发的同步反应.例如悲伤(sadness),快乐(joy) 心情(…
前言: NLP工具有人推荐使用spacy,有人推荐使用tensorflow. tensorflow:中文译作:张量(超过3维的叫张量)详细资料参考:http://www.tensorfly.cn/ Jiagu:甲骨,语言处理工具,源码参考:https://github.com/ownthink/Jiagu jiagu的中文分词是基于 深度学习的方法的.看来甲骨的分词还是比较先进的.分词一般有3种,字典的,统计学的,深度学习的. 另:需要一点python知识,自行复习. 1. 环境准备  经过各种…
Stanford NLP课程简介 1. NLP应用例子 问答系统: IBM Watson 信息提取(information extraction) 情感分析 机器翻译 2. NLP应用当前进展 很成熟:垃圾邮件检测,词性标注(POS),实体名称识别(Named Entity Recognition, NER) => 课程后面会讲 相对成熟:情感分析,指代消解(coreference resolution),词义消歧,句子成分解析(parsing),机器翻译, 信息提取 => 后面课程会讲 依然…
前言: 前面我们已经能初步实现一个中文自然处理语言的模型了,但交互界面是命令行的,不太友好. 如果想做一个类似http://xiaosi.trs.cn/demo/rs/demo的界面,那就还需要继续往下处理. Django 由于Jiagu等使用了python语言,所以Web站点的实现,优先考虑到python的web框架. 而这里选择了还比较流行的Django. 教程参考: https://www.runoob.com/django/django-tutorial.html https://www…
I. 最小编辑距离的定义 最小编辑距离旨在定义两个字符串之间的相似度(word similarity).定义相似度可以用于拼写纠错,计算生物学上的序列比对,机器翻译,信息提取,语音识别等. 编辑距离就是指将一个字符串通过的包括插入(insertion),删除(deletion),替换(substitution)的编辑操作转变为另一个字符串所需的最少编辑次数.比如: 如果将编辑操作从字符放大到词,那就可以用于评估集齐翻译和语音识别的效果.比如: 还可以用于实体名称识别(named entity r…
https://mp.weixin.qq.com/s/-w4gENfBt2gKOPvghenw9w…
FastText是Facebook开发的一款快速文本分类器,提供简单而高效的文本分类和表征学习的方法,不过这个项目其实是有两部分组成的,一部分是这篇文章介绍的 fastText 文本分类(paper:A. Joulin, E. Grave, P. Bojanowski, T. Mikolov, Bag of Tricks for Efficient Text Classification(高效文本分类技巧)), 另一部分是词嵌入学习(paper:P. Bojanowski*, E. Grave*…
前言: 用Python对自然语言处理有很好的库.它叫NLTK.下面就是对NLTK的第一尝试. 安装: 1.安装Pip 比较简单,得益于CentOS7自带的easy_install.执行一行命令就可以搞定. *在终端控制台->easy_install pip   2.检验Pip是否可用   Pip是Python的包管理工具.我们运行Pip确定CentOS下可用. *在终端控制台->pip -V 注意参数大小写 3.使用Pip安装NLTK *在终端控制台->pip install -U nl…