这个比较文本用到的主要是余弦定理比较文本相似度,具体原理右转某度,主要适用场景是在考试系统中的简答题概述,可根据权重自动打分,感觉实用性蛮广的. 先说下思路: 文本分词,中文于英文不同,规范的英文每个都有空格自动分词,中文则是连成长串,我们只有一一比对每个词出现的频率做简单的比较,在这里使用到了SCWS的一个分词api接口http://www.ftphp.com/scws/api.php(仅支持POST,因为要模拟Http请求,所以请求时间也是根据具体环境而定,所以可以自己手写一些字典,本地分词