一.为什么要规范化 在做信息检索的时候,一般都是精确匹配,如果不做规范化,难以做查询,比如用U.S.A去检索文本,结果文本里实际上存的是USA,那么实际上应该能查到的结果查不到了. 所以需要对所有内容做规范化,以实现检索的有效性. 二.怎么规范化 大小写转换 在信息检索的应用上,通常将大写字母转换成小写字母,因为用户更倾向于使用小写字母 例外情况:当大写字母出现在句子的中间的时候,一般有特殊意义,不能转换,比如是某个机构的缩写 对于情感分析.机器翻译或者信息抽取,大写字母一般都非常重要,不能转换…