在NLP任务中,训练数据一般是一句话(中文或英文),输入序列数据的每一步是一个字母.我们需要对数据进行的预处理是:先对这些字母使用独热编码再把它输入到RNN中,如字母a表示为(1, 0, 0, 0, …,0),字母b表示为(0, 1, 0, 0, …, 0).如果只考虑小写字母a~z,那么每一步输入的向量的长度是26.如果一句话有1000个单词,我们需要使用 (1000, ) 维度的独热编码表示每一个单词. 缺点: 每一步输入的向量维数会非常大 在独热表示中,所有的单词之间都是平等的,单词间的依…