转眼读研一年了,开题也开了,方向也定了,大方向就是NLP,然而从一开始的上课、做项目开题什么的(自己也比较贪玩,以前不打游戏,结果王者上瘾了),到现在对NLP是一知半解,不对,半解都没有半解,然后时间是不等人的,学制两年,也该考虑毕业条件了(一篇SCI或两篇EI),很难,用一句网上流行的话:我太难了。所以卸载王者,下定决心学习NLP,发个文本分类的文章,所以从文本分类学习开始吧。至到现在,我删除王者已有半月有余,但是对NLP还是那个状态,心情浮躁,再加上和同届同学已经有了差距,还有不知道怎么入门(给了一头猪,不知道从哪啃,从哪啃都感觉难,这更加浮躁了,心里着急但是还学不了),最重要的是数学基础差。奈何不能心里有个声音在呐喊,不能一直这样,所以决心从这篇博客作为开始,好好学好好做。先记录一下自己目前所知道的有关NLP的知识,纯基于自己知道的,不百度。

一、NLP之文本分类的大概过程

  准备数据集:要么选公共数据集(先辈们已经给规划好了,打好了标签或者用文件夹表示标签,文件夹里放的是好多.txt文件(所有.txt文件都属于该类),要么是一个.txt文件,里面每行属于一类,行头为类别)

  数据预处理:分词、去停用词,去干扰(标点符号),向量化(word2vec、BoW、One-hot、N-gram)

  分类模型:CNN、LSTM、Bi-lstm等

二、我会多少

  找公共数据集、自己的数据集打标签(确定了分类后)

  分词(用分词工具包:jieba、pkuseg等)

三、一些概念理解

  分词:就是把文本分成一个一个词,如“我是郭心全,来自山东。”分为:我  是  郭心全   ,来自  山东  。

  去停用词:就是删除没用的词。根据停用词词典(可以在网上找或自己做),删除分完的文本中的停用词

  词性标注():把处理好的文本中每个词给其后面加上/,然后加上所属词性(n,v,adj,adv,preb等)

  命名实体识别(NER):就是找出一些实体:如人名、地名、企业名、时间等

  语义分析:就是分析句子,如某个词在另一个词之前或之后什么的

  dropout:这还是我昨天刚看的。就是为了防止过拟合用的,就是数据较少,参数较多,容易在训练集上效果好,在测试集上效果差。主要用在前馈网络中,以一定的概率来隐藏一些神经元,多次来回训练,以降低过拟合。

  召回率:仅知道概念(后面学)

  f值:仅知道概念(后面学)

  卷积:用一个滤波器(就是一个矩阵)。。。。。。这个原理真懂不知道咋说,可以百度一下,原理解释好多

  池化:和卷积差不多,这个也有一个滑动窗口(类似于一个filter)

  代码:仅会一些基本的python

  框架:TensorFlow、pytorch、numpy、sklears、matplot(好像是这么拼写)、pandas等,但是没怎么用过

刚刚看到的一个CSDN博主的学习记录,博客是:https://blog.csdn.net/Dacc123/article/details/82461363

往后我觉得我还会找类似的博客,跟着博主们学习,在此感谢了

加一个好的网页:https://www.biaodianfu.com/category/bigdata

准备怎么做:跟着博主:https://www.cnblogs.com/jiangxinyang/p/10207273.html 完成文本分类实战,伴随着每一个博客的实现,把其中概念、模型摸索一遍

NLP-文本分类之开始(0)的更多相关文章

  1. fastText、TextCNN、TextRNN……这里有一套NLP文本分类深度学习方法库供你选择

    https://mp.weixin.qq.com/s/_xILvfEMx3URcB-5C8vfTw 这个库的目的是探索用深度学习进行NLP文本分类的方法. 它具有文本分类的各种基准模型,还支持多标签分 ...

  2. NLP文本分类方法汇总

    模型: FastText TextCNN TextRNN RCNN 分层注意网络(Hierarchical Attention Network) 具有注意的seq2seq模型(seq2seq with ...

  3. 浅谈NLP 文本分类/情感分析 任务中的文本预处理工作

    目录 浅谈NLP 文本分类/情感分析 任务中的文本预处理工作 前言 NLP相关的文本预处理 浅谈NLP 文本分类/情感分析 任务中的文本预处理工作 前言 之所以心血来潮想写这篇博客,是因为最近在关注N ...

  4. NLP文本分类

    引言 其实最近挺纠结的,有一点点焦虑,因为自己一直都期望往自然语言处理的方向发展,梦想成为一名NLP算法工程师,也正是我喜欢的事,而不是为了生存而工作.我觉得这也是我这辈子为数不多的剩下的可以自己去追 ...

  5. NLP系列(2)_用朴素贝叶斯进行文本分类(上)

    作者:龙心尘 && 寒小阳 时间:2016年1月. 出处: http://blog.csdn.net/longxinchen_ml/article/details/50597149 h ...

  6. NLP(十六)轻松上手文本分类

    背景介绍   文本分类是NLP中的常见的重要任务之一,它的主要功能就是将输入的文本以及文本的类别训练出一个模型,使之具有一定的泛化能力,能够对新文本进行较好地预测.它的应用很广泛,在很多领域发挥着重要 ...

  7. NLP大赛冠军总结:300万知乎多标签文本分类任务(附深度学习源码)

    NLP大赛冠军总结:300万知乎多标签文本分类任务(附深度学习源码)       七月,酷暑难耐,认识的几位同学参加知乎看山杯,均取得不错的排名.当时天池AI医疗大赛初赛结束,官方正在为复赛进行平台调 ...

  8. NLP系列(3)_用朴素贝叶斯进行文本分类(下)

    作者: 龙心尘 && 寒小阳 时间:2016年2月. 出处: http://blog.csdn.net/longxinchen_ml/article/details/50629110 ...

  9. 百度开源其NLP主题模型工具包,文本分类等场景可直接使用L——LDA进行主题选择本质就是降维,然后用于推荐或者分类

    2017年7月4日,百度开源了一款主题模型项目,名曰:Familia. InfoQ记者第一时间联系到百度Familia项目负责人姜迪并对他进行采访,在本文中,他将为我们解析Familia项目的技术细节 ...

  10. NLP(七) 信息抽取和文本分类

    命名实体 专有名词:人名 地名 产品名 例句 命名实体 Hampi is on the South Bank of Tungabhabra river Hampi,Tungabhabra River ...

随机推荐

  1. 十五、CI框架之自动加载数据库

    一.在config的autoload.php文件中,如果写入以下代码,那么在控制器中无需再次加载数据库了,相当于全局自动加载数据库了 不忘初心,如果您认为这篇文章有价值,认同作者的付出,可以微信二维码 ...

  2. react入门(1)之阮一峰react教程

    阮一峰老师的github地址:React Demos React 入门实例教程 2.ReactDOM.render() // ReactDOM.render() 将模板转化为 HTML 语言 // 参 ...

  3. Hive鲜为人知的宝石-Hooks

    本来想祝大家节日快乐,哎,无奈浪尖还在写文章.谴责一下,那些今天不学习的人.对于今天入星球的人,今天调低了一点价格.减少了20大洋.机不可失失不再来.点击阅读原文或者扫底部二维码. hive概述 Hi ...

  4. 在线上Linux下,PHP扩展安装(使用yum安装)

    直接操作linux,在命令模式下用yum 来安装PHP的扩展: 扩展:mbstring 命令: yum install php-mbstring* 扩展:GD库 命令:yum install php- ...

  5. java中流的注意事项

    缓冲流 缓冲流继承自过滤流,使用缓冲流时一些要注意的知识点: 1.如果在缓冲流对象创建时使用了其他流,最后关闭时只需关闭缓冲流就可以了,其他流会跟着自动关闭. 2.缓冲字符输入流(BufferedRe ...

  6. Spring中的控制反转和依赖注入

    Spring中的控制反转和依赖注入 原文链接:https://www.cnblogs.com/xxzhuang/p/5948902.html 我们回顾一下计算机的发展史,从最初第一台计算机的占地面积达 ...

  7. SQL基础教程(第2版)第7章 集合运算:7-1 表的加减法

    第7章 集合运算:7-1 表的加减法 ● 集合运算就是对满足同一规则的记录进行的加减等四则运算.● 使用UNION(并集). INTERSECT(交集). EXCEPT(差集)等集合运算符来进行集合运 ...

  8. 201771010123汪慧和《面向对象程序设计JAVA》第九周实验总结

    一.理论部分 1.异常 (1)异常处理的任务就是将控制权从错误产生的地方转移给能够处理这种情况的错误处理器. (2)程序中可能出现的错误和问题:a.用户输入错误.b.设备错误.c.物理限制.d.代码错 ...

  9. cmake 中的 compile_commands.json 文件

    cmake 是支持多种编译方式的工具,产生多种编译工具可以使用的编译文件,例如常用的gdb. 但是对于clang 编译工具,还需要一个compile_commands.json 这个文件是由cmake ...

  10. 注册网站 captcha reCHAPTCHA 错误

    原因 出现这个错误,是因为注册和提交时候,没有正确输出验证码导致的.网站可能会为了防止恶意注册,而使用验证码.如果验证码没有被正确加载或验证,就会出现相关错误. 解决方案 如果是访问类似kaggle, ...