词嵌入要解决什么问题 在自然语言系统中,词被看作最为基本的单元,如何将词进行向量化表示是一个很基本的问题,词嵌入(word embedding)就是把词映射为低维实数域向量的技术. 下面先介绍几种词的离散表示技术,然后总结其缺点,最后介绍词的分布式表示及其代表技术(word2vec). 词的离散表示 One-hot表示 根据语料构造一个大小为V的词汇表,并为每一个词分配一个id. 每个词都可以表示为一个V维向量,除了该词id对应的维度为1外,其余维度为0. n-gram 与One-hot类似,只