前言:译者实测 PyTorch 代码非常简洁易懂,只需要将中文分词的数据集预处理成作者提到的格式,即可很快的就迁移了这个代码到中文分词中,相关的代码后续将会分享. 具体的数据格式,这种方式并不适合处理很多的数据,但是对于 demo 来说非常友好,把英文改成中文,标签改成分词问题中的 "BEMS" 就可以跑起来了. # Make up some training data training_data = [( "the wall street journal reported…
传统 CRF 中的输入 X 向量一般是 word 的 one-hot 形式,前面提到这种形式的输入损失了很多词语的语义信息.有了词嵌入方法之后,词向量形式的词表征一般效果比 one-hot 表示的特征要好.本文先主要介绍了LSTM.词嵌入与条件随机场,然后再从序列标注问题探讨 BiLSTM与CRF等的应用. Word Embedding 和 LSTM Word Embedding 简单的说是将高维空间(空间的维度通常是词典的大小)中的表示 word 的高维 one-hot 向量映射到低维(几十维…