最近因为相关项目需要考虑中文文本检错,然后就发现了爱奇艺发布的号称SOTA的FASPell已经开源代码,所以开始着手实现. 检错思想两步:一,掩码语言模型(MLM)产生候选字符:二,CSD过滤候选字符. 资源与数据文件 开源代码中不包含任何处理好的数据,全部需要自己处理.训练和测试使用的SIGHAN数据没有问题.但是所需的char_meta.txt文件构建较为困难,其由字音和字形两部分特征构成.字音在unihan database可以检索到,但字形特征依照论文阐述是使用汉字的完整带结构笔画级分解