spaCy处理文本的过程是模块化的,当调用nlp处理文本时,spaCy首先将文本标记化以生成Doc对象,然后,依次在几个不同的组件中处理Doc,这也称为处理管道.语言模型默认的处理管道依次是:tagger.parser.ner等,每个管道组件返回已处理的Doc,然后将其传递给下一个组件. 一,加载语言模型 spaCy使用的语言模型是预先训练的统计模型,能够预测语言特征,对于英语,共有en_core_web_sm.en_core_web_md和en_core_web_lg三种语言模型,还有一种语言…