关于nlp的一些探索

深度学习，知识图谱，nlp学习经历
获取信息来源：英文paper研读，吴恩达公开课，Hiton公开课，北大nlp教材，英文最新学术论文，中科院院士技术博客，知识图谱专家课程
自学进修路线：基础理论---专业理论(公开课，讲义，教材，技术博客)---框架原理及使用：sparkMLlib,tensorflow---最新技术,专业理论提升(英文paper研读，算法改进)---NLP、LSTM(句子相似度，双向LSTM分词，语义分析理解，机器翻译)---聊天机器人技术研究
部分研究成果与原创技术博客，请登陆本人的技术博客：www.cnblogs.com/txq157(博客园)
生成式聊天机器人三种问题的解决方案：①上下文：Attention Model的引入②安全回答：更改损失函数为MMI③一致性问题(同义句敏感度问题)：在Decoder阶段引入同义句
nlp研发经历
一、中文分词
实验背景：目前深度学习与nlp结合是大势所趋，在深度学习中占据统治地位的是BiLSTM和Attention Model在本人成功改造了IK中文分词，在模拟大容量文本分词时速度提升了30%(2016年初实现)的基础上,目前继续深入研究基于双向LSTM分词以及词性标注，全面取代CRF。
二、Kmeans聚类算法改进
实验背景:提取出文章的关键词，有很多方案。基于深度学习语义理解方向是目前热点，在使用w2v获取到词embedding后，进行词聚类，然后从每个簇中心中抽取出频率最高的词作为文章的关键词是比较不错的方案。基于"相同语境中出现的词语义相近"思想的w2v已经很成功，kmeans聚类算法由于损失函数的非凸性很容易陷入局部最优解，聚类中心的选取方式以及k值的最优解需要改进。
实验成果：经过本人长期不懈的努力，终于改进成功。改进后的效果：①能够使聚类中心的选取更加合理化，能够确定k值的隐式最优解，聚类结果准确率高且稳定②增加数据归一化处理③增加了聚类结果连续存储的归类算法。链接地址：http://www.cnblogs.com/txq157/p/6067098.html
三、文章摘要改进计划:siamese lstm 解决句子相似度
实验背景：文章摘要技术用在搜索领域，可以改进搜索性能，节约用户的搜索时间。运用传统的依赖于知识库方法摘取出文章的关键词效果不佳。文章摘要技术，不管采用何种手段，离不开三个核心问题：①计算句子相似度②文摘句抽取③文摘句排序。文章摘要比较理想的效果是抽取出文章中的中心句，而不是特征词的拼凑。因此从语义理解的角度出发，第一种方案，依赖于w2v获取到词embedding，然后累加embedding组成句子，继续累加组成文章语义表示，从中找出与文章语义最接近的句子语义表示。这个方案与传统的统计建模相比，效果显然好很多，但不是最佳方案。把CNN引入到nlp中也是一种方案，但不是最佳方案。语义理解的核心是以句子或者文章为单位进行高阶特征抽取。在垂直搜索领域，lucene底层的文档排重SimHash已经很成功，前提也是抽取文档的特征语句。现在提出一个更接近于理想效果的方案：运用siamese lstm获取到句子的向量(与标准的lstm比较，这些句子的向量具有语义关联)，然后累加成文章的语义表示，从中找出与文章语义最相近的句子作为中心句。因此核心问题是siamese lstm解决句子相似度。
深度学习nlp实验
在nlp业内，语义理解和分析一直是难点，之前基于word2vector按照词向量选择每个词的候选词然后组合成语句的方案，时间复杂度高且准确度不够。此次实验目的是探索基于2015年国外最新的研究成果 siamese lstm(区别于标准的lstm)，以句子对儿或者文档对儿为输入对象，以句子对儿的exp(-||h1-h2||)为输出，MSE构建loss function,基于ma结构，实验准确度提升到90%以上，如果样本足够科学，人工打分足够精准，准确度还会更高。
搭建tensorflow分布式环境，siamese lstm学术论文的转化，主要是tensorflow 代码实施，模型训练
基于句子对儿的siamese lstm的相似度解决方案的一次成功探索。

关于nlp的一些探索的更多相关文章

NLP点滴——文本相似度
[TOC] 前言在自然语言处理过程中,经常会涉及到如何度量两个文本之间的相似性,我们都知道文本是一种高维的语义空间,如何对其进行抽象分解,从而能够站在数学角度去量化其相似性.而有了文本之间相似性的度 ...
NLP+语义分析（四）︱中文语义分析研究现状（CIPS2016、角色标注、篇章分析）
摘录自:CIPS2016 中文信息处理报告<第二章语义分析研究进展. 现状及趋势>P14 CIPS2016> 中文信息处理报告下载链接:http://cips-upload.bj. ...
NLP︱词向量经验总结（功能作用、高维可视化、R语言实现、大规模语料、延伸拓展）
R语言由于效率问题,实现自然语言处理的分析会受到一定的影响,如何提高效率以及提升词向量的精度是在当前软件环境下,比较需要解决的问题. 笔者认为还存在的问题有: 1.如何在R语言环境下,大规模语料提高运 ...
请收好这份NLP热门词汇解读
文章发布于公号[数智物语] (ID:decision_engine),关注公号不错过每一篇干货. 来源 | 微软研究院AI头条编者按:在过去的一段时间,自然语言处理领域取得了许多重要的进展,Tran ...
NLP&深度学习：近期趋势概述
NLP&深度学习:近期趋势概述摘要:当NLP遇上深度学习,到底发生了什么样的变化呢? 在最近发表的论文中,Young及其同事汇总了基于深度学习的自然语言处理(NLP)系统和应用程序的一些最新 ...
图解BERT（NLP中的迁移学习）
目录一.例子:句子分类二.模型架构模型的输入模型的输出三.与卷积网络并行四.嵌入表示的新时代回顾一下词嵌入 ELMo: 语境的重要性五.ULM-FiT:搞懂NLP中的迁移学习六.Tr ...
NLP入门（五）用深度学习实现命名实体识别（NER）
前言在文章:NLP入门(四)命名实体识别(NER)中,笔者介绍了两个实现命名实体识别的工具--NLTK和Stanford NLP.在本文中,我们将会学习到如何使用深度学习工具来自己一步步地实现N ...
NLP是什么
NLP是什么而在计算机领域, NLP(Natural Language Processing),也就是人们常说的「自然语言处理」,就是研究如何让计算机读懂人类语言. 这包括,既要能让计算机理解自然语 ...
聊天机器人（chatbot）终极指南：自然语言处理（NLP）和深度机器学习（Deep Machine Learning）
在过去的几个月中,我一直在收集自然语言处理(NLP)以及如何将NLP和深度学习(Deep Learning)应用到聊天机器人(Chatbots)方面的最好的资料. 时不时地我会发现一个出色的资源,因此 ...

随机推荐

[转帖]mysql常用存储引擎(InnoDB、MyISAM、MEMORY、MERGE、ARCHIVE)介绍与如何选择
mysql常用存储引擎(InnoDB.MyISAM.MEMORY.MERGE.ARCHIVE)介绍与如何选择原创web洋仔发布于2018-06-28 15:58:34 阅读数 1063 收藏展开 h ...
自动化部署Ruby on Rails应用(docker + jenkins)
docker安装参考链接docker官网jenkins中文官网我的博客网站已经迁移到了https://johnnyting.github.io/,如果有兴趣的可以关注下.下面文章格式可能有点乱,可以 ...
Excel技能提升
函数字符串全半角之间的转换 ASC将全角英文字母转换为半角英文字母,其语法是ASC(text) WIDECHAR()将半角英文字母转换为全角英文字母,语法是=WIDECHAR(text) find( ...
【BZOJ4942】[NOI2017]整数（分块）
[BZOJ4942][NOI2017]整数(分块) 题面 BZOJ 洛谷题解暴力就是真正的暴力,直接手动模拟进位就好了. 此时复杂度是模拟的复杂度加上单次询问的\(O(1)\). 所以我们需要优化 ...
02 .NET CORE 2.2 使用OCELOT -- 路由
继续学习.NET CORE 2.2 使用OCELOT https://www.jianshu.com/p/05ccf87a3091 https://www.jianshu.com/p/585396dc ...
学习CSS Grid布局
一. 重要术语: CSS Grid(网格) 布局(又称为 "Grid(网格)" ),是一个二维的基于网格的布局系统,它的目标是完全改变我们基于网格的用户界面的布局方式. FlexB ...
because its MIME type ('text/html') is not a supported stylesheet MIME type, and strict MIME checkin
1 前言浏览器报错误(chrome和firefox都会):because its MIME type ('text/html') is not a supported stylesheet MIME ...
Eureka应用注册与集群数据同步源码解析
在之前的EurekaClient自动装配及启动流程解析一文中我们提到过,在构造DiscoveryClient类时,会把自身注册到服务端,本文就来分析一下这个注册流程客户端发起注册 boolean r ...
File "tesserocr.pyx", line 2443, in tesserocr._tesserocr.image_to_text RuntimeError: Failed to in...
将Tesseract-OCR安装目录下的tessdata文件夹复制到Python解释器目录下就可以了
Qt中的强制类型转换
在C++开发中经常要进行数据类型的强制转换. 刚开始学习的时候,直接对基本数据类型强制类型转换,如float fnum = 3.14; int num = (int)fnum; 随着C++标准的发展, ...

关于nlp的一些探索

关于nlp的一些探索的更多相关文章

随机推荐

热门专题