最近因为相关项目需要考虑中文文本检错,然后就发现了爱奇艺发布的号称SOTA的FASPell已经开源代码,所以开始着手实现. 检错思想两步:一,掩码语言模型(MLM)产生候选字符:二,CSD过滤候选字符. 资源与数据文件 开源代码中不包含任何处理好的数据,全部需要自己处理.训练和测试使用的SIGHAN数据没有问题.但是所需的char_meta.txt文件构建较为困难,其由字音和字形两部分特征构成.字音在unihan database可以检索到,但字形特征依照论文阐述是使用汉字的完整带结构笔画级分解…
本文原著:Peter Norvig  中文翻译:徐宥 上个星期, 我的两个朋友 Dean 和 Bill 分别告诉我说他们对 Google 的快速高质量的拼写检查工具感到惊奇. 比如说在搜索的时候键入 [speling], 在不到 0.1 秒的时间内, Google 会返回: 你要找的是不是 [spelling]. (Yahoo! 和 微软也有类似的功能). 让我感到有点奇怪的是我原想 Dean 和 Bill 这两个很牛的工程师和数学家应该对于使用统计语言模型构建拼写检查器有职业的敏感. 但是他们…
原文:http://norvig.com/spell-correct.html 翻译:http://blog.youxu.info/spell-correct.html 怎样写一个拼写检查器 Peter Norvig 翻译: Eric You XU 上个星期, 我的两个朋友 Dean 和 Bill 分别告诉我说他们对 Google 的快速高质量的拼写检查工具感到惊奇. 比如说在搜索的时候键入 [speling], 在不到 0.1 秒的时间内, Google 会返回: 你要找的是不是 [spell…
无论是在Emacs中写英文日记(diary).Org mode笔记,还是撰写程序的注释和文档,拼写检查都是一项提高工作效率.保证成果品质的必不可缺的工具.拼写检查对于常见的文字处理软件(如Word.LibreOffice)来说并不是什么稀罕的功能,但是对于Emacs这个纯粹的文本编辑器来说,实现起来就显得有些繁琐.笨拙.具体说来,Emacs本身并不具备任何拼写检查的能力,它是通过ispell模块调用外部的aspell命令来达成的.以此为基础,为了能够进一步实现一边输入一边检查的效果,Emacs又…
C#静态代码检查工具StyleCode -- 初探 最近我们Advent Data Service (ADS) 在项目上需要按照代码规范进行代码的编写工作,以方便将来代码的阅读与维护. 但是人工检查起来容易遗漏或者格式不统一, ReSharper又是收费的,而且费用不菲. 于是美国的同事推荐了我们一款开源工具 StyleCop,我想无论是对公司项目还是个人的项目,都是有所帮助的,所以想写下来与大家分享. StyleCop官网地址:http://stylecop.codeplex.com/, 这里…
任务管理器,CPU和内存都不高,为何?原因就是VS2010不停地读硬盘导致的; 写代码2/3的时间都耗在卡上了,太难受了; 研究发现,VS2010如果你装了VC等语言,那么它就会自动装SQL Server2010的功能,用于智能化.并且在工程目录下产生了一个超大的数据库文件sdf,近百兆,太狠了.对了,就是关闭了它的自动识别功能,VS2010速度快了5倍以上,再也不卡了.识别还是"番茄"好. 操作步骤: 1."工具"->"选项"->&…
http://blog.sina.com.cn/s/blog_70b623e4010173ce.html eclipse里面的许多设置对于国内开发者日常使用不太适用,反而会成为干扰.既然是完全可配置的工具,那我们就各种DIY吧.别忘记将自己的习惯配置保存起来啊! 1. 关闭英文拼写检查 Preferences->General->Editors->Text Editors->Spelling->Enable Spell Checking   2. Warning: No gr…
http://blog.csdn.net/rain_butterfly/article/details/42170601 代码检查工具能帮我们检查一些隐藏的bug,代码检查工具中sonar是比较好的一个.官网 Sonar 概述 Sonar 是一个用于代码质量管理的开放平台.通过插件机制,Sonar 可以集成不同的测试工具,代码分析工具,以及持续集成工具.与持续集成工具(例如 Hudson/Jenkins 等)不同,Sonar 并不是简单地把不同的代码检查工具结果(例如 FindBugs,PMD…
SourceAnalysis (StyleCop)的终极目标是让所有人都能写出优雅和一致的代码,因此这些代码具有很高的可读性. 早就听说了微软内部的静态代码检查和代码强制格式美化工具 StyleCop ,昨天(2008-05-23)微软在 MSDN Code Gallery 发布了 4.2 版本,并命名为 Microsoft Source Analysis for C#  . SourceAnalysis (StyleCop)不是代码格式化(代码美化)工具,而是代码规范检查工具(Code Rev…
Cppcheck is an analysis tool for C/C++code. Unlike C/C++ compilers and many other analysis tools, it doesn’t detect syntax errors. Cppcheck only detects the types of bugs that the compilers normally fail to detect. The goal is no false positives. Cpp…