一.文本特征编码 1. 标量编码 美国:1 中国:2 印度:3 … 朝鲜:197 标量编码问题:美国 + 中国 = 3 = 印度 2. One-hot编码 美国:[1,0,0,0,…,0]中国:[0,1,0,0,…,0]印度:[0,0,1,0,…,0] 美国 + 中国 = [1,1,0,0,…,0],代表拥有美国和中国双重国籍 3. Embedding编码 二.文本序列化表示 1.Tokenization 2.Build Dictionary 3.One-hot encoding 4.Align…