分词是自然语言处理中最基本的一个任务,这篇小文章不介绍相关的理论,而是介绍一个电子病历分词的小实践. 开源的分词工具中,我用过的有jieba.hnlp和stanfordnlp,感觉jieba无论安装和使用都比较便捷,拓展性也比较好.是不是直接调用开源的分词工具,就可以得到比较好的分词效果呢?答案当然是否定的.尤其是在专业性较强的领域,比如医疗行业,往往需要通过加载相关领域的字典.自定义字典和正则表达式匹配等方式,才能得到较好的分词效果. 这次我就通过一个电子病历分词的小实践,分析在具体的分词任务…