图像对应的bag-of-words向量\(v_t\) 假设词典总共有\(W\)个单词,那么每一幅图像能够用一个\(W\)维的向量表示 \((t_1, t_2, t_3, ..., t_W)\)其中 \[t_i = \frac{n_{id}}{n_{nd}}\log\frac{N}{n_i}\] 其中,\(n_{id}\)是单词i在当前帧图像中出现的次数,\(n_d\)是当前图像中所以单词的数目,\(n_i\)是词汇\(i\)在整个数据库中出现的次数,\(N\)是为所有图像中描述子的数目,\(\f