一、自然语言处理与深度学习

  自然语言处理应用

  

  

  深度学习模型

                         

  为什么需要用深度学习来处理呢

  

二、语言模型

  1、语言模型实例:

             机器翻译

  

          拼写纠错                                                                     智能问答

   

  

  1)机器翻译,比如要翻译高价,可能 P(high price) > P(large price),然后得到的结果就是high price

  2)拼写纠错,比如 fifteen minutes,P(about fifteen minutes from) > P(about fifteenminuets from),一般时分开写的,如果合在一起则会纠正为分开书写

  3)语言模型举例

    我 今天 下午 打 篮球

    p(S) = p(w1,w2,w3,w4,w5,...,wn)
       = p(w1)p(w2|w1)p(w3|w1,w2) ... p(wn|w1,w2,...,wn-1)

    上式中wi表示每个词
    p(S)被称为语言模型即用来计算一个句子概率的模型

  2、语言模型存在哪些问题呢?

    p(wi|w1,w2,...,wi-1) = p(w1,w2,...,wi-1,wi) / p(w1,w2,...,wi-1)     

  1)数据过于稀疏
  2)参数空间太大

三、N-gram模型

  假设下一个词的出现依赖它前面的一个词:

  p(S)=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|w1,w2,...,wn-1)
    =p(w1)p(w2|w1)p(w3|w2)...p(wn|wn-1)
  

  假设下一个词的出现依赖它前面的两个词:
  p(S)=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|w1,w2,...,wn-1)
    =p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|wn-1,wn-2)

  

  举例:

    I want english food
    p( I want chinese food ) = P( want|I ) × P( chinese|want ) × P( food|chinese )

  

  

  

  假设词典的大小是N,则模型参数的量级是 

四、词向量

   

  

  

五、神经网络模型

  

  训练样本:  ,包括前n-1个词分别的向量,假定每个词向量大小m

  投影层:(n-1)*m 首尾拼接起来的大向量

  输出:  

  表示上下文为 时,下一个词恰好为词典中第i个词的概率

  归一化:  

  神经网络模型的优势  

  S1 = ‘’我 今天 去 网咖’’       出现了1000次
  S2 = ‘’我 今天 去 网吧’’      出现了10次

  对于S1和S2两句话其实表达的意思差不多的,但
  对于N-gram模型:  P(S1) >> P(S2),一般会表述为S1
  而神经网络模型计算的  P(S1) ≈ P(S2)

  对于如下:

  

  在神经网络中,只要语料库中出现其中一个,其他句子的概率也会相应的增大

六、Hierarchical Softmax

  

  Hierarchical Softmax有两种模型,CBOW,Skip-gram

  1、CBOW

    CBOW 是 Continuous Bag-of-Words Model 的缩写,是一种根据上下文的词语预测当前词语的出现概率的模型

    

  2、哈夫曼树

  

  

  3、Logistic回归

    

    

    

  4、CBOW模型推导

  

  输入层是上下文的词语的词向量,在训练CBOW模型,词向量只是个副产品,确切来说,是CBOW模型的一个参数。训练开始的时候,词向量是个随机值,随着训练的进行不断被更新)。
  投影层对其求和,所谓求和,就是简单的向量加法。
  输出层输出最可能的w。由于语料库中词汇量是固定的|C|个,所以上述过程其实可以看做一个多分类问题。给定特征,从|C|个分类中挑一个。

  

  

  

  

   

  5、Skip-gram模型

    1)输入层不再是多个词向量,而是一个词向量

    2)投影层其实什么事都没干,直接将输入层的词向量传递给输出层

七、负采样模型(Negative Sampling)

  

  负样本那么多该如何选择呢?

  对于一个给定的正样本(Context(w), w),我们希望最大化

    

    

  

    

    

    

    

    一般大多采用负采样模型来求解,因为Hierarchical softmax模型太过于复杂。

自然语言处理--Word2vec(一)的更多相关文章

  1. 自然语言处理--Word2vec(二)

    前一篇,word2vec(一)主要讲了word2vec一些表层概念,以及主要介绍CBOW方法来求解词向量模型,这里主要讲论文 Distributed Representations of Words ...

  2. word2vec:主要概念和流程

    1.单词的向量化表示 一般来讲,词向量主要有两种形式,分别是稀疏向量和密集向量. 所谓稀疏向量,又称为one-hot representation,就是用一个很长的向量来表示一个词,向量的长度为词典的 ...

  3. Alink漫谈(十六) :Word2Vec源码分析 之 建立霍夫曼树

    Alink漫谈(十六) :Word2Vec源码分析 之 建立霍夫曼树 目录 Alink漫谈(十六) :Word2Vec源码分析 之 建立霍夫曼树 0x00 摘要 0x01 背景概念 1.1 词向量基础 ...

  4. python就业班-淘宝-目录.txt

    卷 TOSHIBA EXT 的文件夹 PATH 列表卷序列号为 AE86-8E8DF:.│ python就业班-淘宝-目录.txt│ ├─01 网络编程│ ├─01-基本概念│ │ 01-网络通信概述 ...

  5. 自然语言处理高手_相关资源_开源项目(比如:分词,word2vec等)

    (1) 中科院自动化所的博士,用神经网络做自然语言处理:http://licstar.net (2) 分词项目:https://github.com/fxsjy/jieba(3) 清华大学搞的中文分词 ...

  6. word2vec 在 非 自然语言处理 (NLP) 领域的应用

    word2vec 本来就是用来解决自然语言处理问题的,它在 NLP 中的应用是显然的. 比如,你可以直接用它来寻找相关词.发现新词.命名实体识别.信息索引.情感分析等:你也可以将词向量作为其他模型的输 ...

  7. 自然语言处理之word2vec

    在word2vec出现之前,自然语言处理经常把字词转为one-hot编码类型的词向量,这种方式虽然非常简单易懂,但是数据稀疏性非常高,维度很多,很容易造成维度灾难,尤其是在深度学习中:其次这种词向量中 ...

  8. 利用Tensorflow进行自然语言处理(NLP)系列之一Word2Vec

    同步笔者CSDN博客(https://blog.csdn.net/qq_37608890/article/details/81513882). 一.概述 本文将要讨论NLP的一个重要话题:Word2V ...

  9. 自然语言处理工具:中文 word2vec 开源项目,教程,数据集

    word2vec word2vec/glove/swivel binary file on chinese corpus word2vec: https://code.google.com/p/wor ...

随机推荐

  1. noip第10课作业

    1.     统计不同类型字符出现次数 [问题描述] 输入一个字符串(假设长度不超过1000个字符),统计其中大写,小写,数字,其他字符出现的次数. [样例输入]Hello,what are you ...

  2. Linux 输入输出(I/O)重定向

    目录 1.概念 Linux 文件描述符 2.输出重定向 格式 示例 注意 3.输入重定向 格式 示例 4.自定义输入输出设备 解释 示例 最后说两句 1.概念 在解释什么是重定向之前,先来说说什么是文 ...

  3. mySQl数据库中不能插入中文的处理办法

    1. 修改MySQL安装目录下(C:\Program Files\MySQL\MySQL Server 5.5)的my.ini文件 设置: default-character-set=utf8 cha ...

  4. 大猪蹄子队 Scrum meeting 合集

    大猪蹄子队 Scrum meeting 合集 18-10-29 第一天 http://note.youdao.com/noteshare?id=79ce5a89f85995ef68deae14e538 ...

  5. [翻译] FastReport 格式化和突出显示

    一:格式化一个值 聚合函数的一个特征是,返回的数值没有格式化,如如下例子所示,它使用"SUM": 数据字段通常返回一个格式化的值,这是一个没有任何变化的"文本" ...

  6. 将Heap RID转换成RID格式

    使用DBCC PAGE命令查看索引叶子层中的索引键(最后一个参数为3才会显示索引键对应的HEAP RID)时,可以使用下面的SQL将HEAP RID转换成 FileId:PageId:SlotNo的格 ...

  7. 为MAC配置终端环境iTerm2+Zsh+oh-my-zsh

    首先展示下我的终端吧. 这就是我们为什么要配置iTerm2+Zsh+oh-my-zsh环境的原因: 我们使用zsh解释器,当然等你使用 zsh时就会知道zsh与bash对比的强大之处了. 至于我们的g ...

  8. SQL server经验分享:SQLSERVER 被标记为“可疑”的数据库处理方法

    --MyDB为修复的数据名USE MASTER GO SP_CONFIGURE 'ALLOW UPDATES',1 RECONFIGURE WITH OVERRIDE GO ALTER DATABAS ...

  9. asp.net mvc 在JS中跳转到其它controller/action

    平时在ASP.NET 中经常这样写, $('#loginOut').click(function() {           $.messager.confirm('系统提示', '您确定要退出本次登 ...

  10. python 检索一个目录下所有的txt文件,并把文件改为.log

    检索一个目录及子目录下所有的txt文件,并把txt文件后缀改为log: import os f_path = r'C:\Users\PycharmProjects\mystudy\Testfolder ...