语料来自1998年1月份人民日报语料 1 语料处理 1.1 原始语料数据格式 语料中,句子已经被分词好,并且在人名后以“/”标注了“nr”表示是人名,其他非人名的分词没有进行标注 1.2 CRF++要求语料的格式 训练语料至少应具有两列,列间由空格或制表位间隔,且所有行(空行除外)必须具有相同的列数,句子间使用空行间隔 1.3 对原始数据进行处理 CRF++可以有多个特征,举例如下图 本次实验为了熟悉采用CRF++及进行中文人名标注,故将语料中的每一个单字作为特征,并进行BIEO标注,举例如下图