Transactions on Computer Science and Technology March 2013.Volume 2,Issue 1,PP.1-8 A Double-—layer Word Segmentation Combined with Local Ambiguity Word Grid and CRF Lei Chen ̄,Miao上‘Jian Zhang,WeihuiZeng Institute ofIntelligent Machines,Chinese Academy of Sciences,Hefei 23003 1,China Email:alan.c1@163.com Abstract This paper presents a double-layer model of Chinese word segmentation based on the combination of Local Ambiguity Word Grid nd Condiational Random Fields.Firstly,the Local Ambiguity Word Grid algorithm is used to generate rough segmentation results in the lower leve1.Then,the text is segmented again based on CRF,where the rough results are set as one feature.The Local Ambiguiy Word Gritd algorithm has the advantage of detecting ambiguiy ftrom the process of Chinese word segmentation,while CRF Can cope with vocabulary and out—of-vocabulary word equally.Therefore,the hybrid Local Ambiguiy Word Gritd and CRF approach is the effective resolution for the ambiguity and out-of-vocabulary word.The system is closed tested in the MSRA and PKU testing sets that are provided by the SIGHAN2005 Chinese Language Processing Bakeoff,along with the comparison between four characters and six characters in a set of labe1.The experiments show that F-measles of the MSRA and PKU testing sets in the closed test reach 97.1%and 95.1%respectively.Additional。the experimental results of open test reveal the practical application of he mode1.t Keywords:LocalamUgui ̄wordgrid;CRF;Wordsegmentation 结合局部歧义词网格与条件随机场的双层分词法术 陈雷 ,李淼,张健,曾伟辉 中国科学院合肥物质科学研究院,智能机械研究所,安徽合肥230031 摘要:本文提出了一种结合局部歧义词网格与条件随机场的双层中文分词模型。首先在底层使用局部歧义词网格对文 本进行粗切分,并将切分结果作为一项特征提供给高层的条件随机场模型;然后使用条件随机场模型对文本进行标注分 词。局部歧义词网格方法能够检测分词过程中产生的歧义问题,条件随机场模型能够平衡对待词表词和未登录词。两种 方法的结合能够较好地解决分词中的分词歧义和未登录词问题。本文在国际中文分词评测活动Bakeoff2005提供的PKU 和MSRA语料上对该双层分词模型进行了系统封闭测试,并进行了四字位标注集与六字位标注集的对比。实验结果的最 佳F值分别达到了95.1%和97.1%,优于单独使用条件随机场的分词效果。此外,开放测试的实验结果表明该模型也具有 一定的实际意义。 关键词:局部歧义词网格;条件随机场;分词 引言 中文分词的准确程度直接影响到相关后续处理(如:自动分类、信息检索等)的正确性,其重要性不言 而喻。我国在中文分词方面进行了多年的研究,并已取得了一定的成绩 】【 。然而,仍存在一些问题需要解 决。长期以来,分词歧义和未登录词问题一直被视为影响分词精度的两大因素。根据黄昌宁、赵海【l】【 对两 届国际分词竞赛(Bakeoff2003,Bakeoff2005)中八个语料库的统计,由未登录词问题带来的分词精度下降比 分词歧义的影响平均大十倍以上。因此,有效的未登录词识别技术将会显著提升自动分词系统的性能指标。 基金资助:受国家自然科学基金(61070099)与国家科技支撑计划(2009BAH41B06)支持资助。 一1- WWW.iwpub.org/cst 基于字标注的分词方法由于能够适应这种需求而成为目前的主流中文分词方法。基于字标注的分词方法是将 分词知识的学习转换为汉字序列标注的过程。由于每个字在构造一个特定词语时都占据一个构词位置(字 位),因此可以将分词过程看成字位信息的学习过程。把分词过程视为字标注问题的一个重要优势是,其能 够平衡地看待词表词和未登录词的识别问题,能够获得较高的未登录词识别率。Xue[4]根据汉字在词语中出现 的不同位置将汉字分为四类,然后利用最大熵模型【5J标记的方法进行切分;Peng等人l6j建立了一个基于条件 随机场(Conditional Random Fields,CRF)的字标注分词模型,在使用一些常见的特征外还引入了许多领域知 识,提高了分词的性能。 作为目前主流的序列标注模型之一【7lI8】,本文借助CRF进行分词。与上述相关工作不同之处在于:为了 进一步提高基于CRF的字标注分词模型的分词性能,本文考虑使用更多或更为恰当的词表特征:同时为了解 决分词过程中产生的歧义问题,本文提出了一种结合局部歧义词网格与CRF的双层中文分词模型。该模型首 先在底层使用基于局部歧义词网格的分词算法【9】对文本进行粗切分,该算法能够检测汉语分词过程中产生的 交叉歧义和覆盖歧义【m】【1l】,并将切分结果作为一项特征提供给高层的CRF去学习;然后使用基于CRF的字 标注方法对文本进行字标注,该算法能够平衡处理分词过程中的词表词和未登录词,且引入的局部歧义词网 格的粗切分结果特征能够对CRF的标注起到重要的辅助作用,提高标注精度。本文在Bakeoff2005分词语料 上进行了实验,验证了该分词模型的有效性。 1 结合局部歧义词网格和CRF的分词 1.1局部歧义词网格的分词方法 汉语分词歧义包括交叉歧义和覆盖歧义,其中交叉歧义占切分歧义现象的90%以上I1引,因此处理汉语 分词歧义的重点就是处理交叉歧义。针对汉语分词歧义的这一特点,王显芳、杜利 】提出了一种能够检 测交叉歧义的汉语分词算法。本文在其研究工作的基础上采用局部歧义词网格算法 J进行汉语的粗切分。针 对汉语分词中的覆盖歧义,使用迭代算法训练覆盖歧义候选词条词典。从而在考虑存在歧义的局部歧义词 网格时,能够将覆盖歧义的处理简化为查询覆盖歧义候选词典。在局部歧义词网格分词算法中检测到的覆 盖歧义采用的是“长词优先”的准则进行处理,能够在局部处理覆盖歧义,从而降低计算量,提高切分准 确率。同时,利用局部歧义词网格算法进行汉语粗切分的结果将作为一项特征提供给CRF模型。 1.2条件随机场模型CRF 条件随机场模型是一个优秀的序列标注模型,其主要优点之一就是能够加入任意的特征。本文在双层 分词模型的高层使用基于CRF的字标注方法对文本中的每个汉字重新进行标注,并把底层的粗切分结果作 为CRF的特征之一。该分词方法不但能够充分利用训练集的统计信息和中文的构词特点,而且能够平衡处 理分词过程中词表词和未登录词。 CRF是一种在给定输入节点条件下计算输出节点的条件概率的无向图模型,具有表达元素长距离依赖 性和交叠性特征的能力,能方便地在模型中使用领域知识,较好地解决标注偏置等问题。对于一组长度为 的观察序列 =X1, :,...,Xn(代表待标记的汉字序列),输出状态序列Y=Y ,Y2,..., (代表相应的标记序 列)的概率定义如下: 1———— P(Y l )=÷exp(ZZ3,jfj(yj_l,yJ,x,『)) L x i J (1) z =∑exp()- ̄∑ ( y l j ,X,f)) (2) 其中Y= ( ,X,f)是一个特征函数,该特征函数是对状态转移 一 到 、整个观测序列X以及当前步 骤i的各方面的一个衡量;特征函数值可以取值为0、1或任意实数。 = ,..., 是通过训练数据对模型进 行训练之后得到的对特征函数的权重。本文使用L BFGS算法从样本数据中训练得到特征权重 。CRF的解 .2. www.iwpub.org/cst 码过程,也就是求解串标注的过程,需要搜索计算该串上的一个最大联合概率,即: :argmax(YI ) (3) 1.3标注集 将分词任务转换为序列标注任务,首先要定义合适的标注集合,标注集合的选择直接影响到分词的性 能。已有的基于CRF的字标注分词系统大多使用二字位标注集。 本文的分词系统分别使用四字位和六字位【1 】标注集对汉字序列进行标注。四字位标注集合定义为{B,M, E,s},其中B表示汉字出现在一个词的开头,M表示汉字出现在非词头和词尾的位置,E表示汉字出现在 词尾,S表示汉字独立成词。六字位标注集合定义为{B,B2,B3,M,E,S),其中B,B2,B3分别表示汉字出现 在一个词的前三个位置。 1.4系统实现 本文提出的双层分词模型在底层使用局部歧义词网格的分词方法对文本进行粗切分,并将切分结果作 为一项特征传给高层的CRF模型;然后在高层使用基于CRF字标注方法对文本中的每个汉字重新进行标 注。两种方法的结合充分利用训练集的统计信息和中文的构词特点,且能够较好地处理汉语分词分词歧义 和未登录词问题。双层分词模型的识别流程如图1所示。 图1双层分词模型流程图 整个流程主要分为两步,以下结合具体的例子进行说明: 模型参数训练:如表1所示,首先从训练语料(如a所示)训练提取一元词表和二元词表:然后把训练 语料还原成未分词的原始语料(如b所示),并使用局部歧义词网格分词算法对其进行粗切分;再把切分结 果(如C所示)和训练语料结合起来进行前期处理(如d所示);最后把该处理结果和特征模板输入到 CRF中提取特征,进行参数训练。 表1 模型参数训练示例 a 水平I训练语料:国际金融市场风云变幻 b 还原后的结果:国际金融市场风云变幻 C 局部歧义词网格切分后的结果:国际金融市场风云变幻 d 结合a、c标注的结果(四标注集):国BB际EE金BB融EM市BM场EE风BB云MM变MM幻EE 切分测试语料:如表2所示,先使用局部歧义词网格算法对测试语料(如e所示)进行粗切分,然后对 -3. WWW.ivypub.org/cst 切分结果(如f所示)进行预处理(如g所示),再使用基于CRF的字标注方法对其进行标注,最后经过 后处理得到最终的分词结果(如h所示)。 表2 切分测试语料示例 e 测试语料:扬帆远东做与中国合作的先行 f 局部歧义词网格算法的切分结果:扬帆远东做与中国合作的先行 g 预处理的结果:扬B帆E远B东E做S与S中B国E合B作E的S先B行E h CRF标注处理后的结果:扬帆远东做与中国合作的先行 1.5特征模板 使用CRF进行标注时,需要针对特定的任务选择合适的特征集合。原则上是选择的特征越多越好,但 是特征过多又会产生冗余信息,反而降低识别精度。借鉴Peng等人【6】的工作,并考虑在之后的实验中与其 工作进行对比,本文选择两类特征:基本特征和复合特征,分别说明如下。 (1)基本特征:主要考虑字本身包含的信息、上下文信息以及底层粗切分结果对分词的影响。首先, 字本身包含的信息是必不可少的一类特征,记为C(n),表示位置n的汉字信息,其中n是表示相对于当前 字位置的整数变量,取值范围为[_2,2],0表示当前位置,负、正值分别表示当前位置的前后位置,表明本 文考虑当前字的前两个字和后两个字的信息。其次,底层的粗切分结果包含更多的上下文信息,也是一类 重要的特征,记为Tag(n),表示位置n的汉字在底层中的标注结果。 (2)复合特征:在真实的文本中,影响分词的因素往往不只一类,需要考虑多个因素,才能很好地反 映实际情况, 而上下文信息尤为重要。本文通过对基本特征模板进行适当的组合,从而考虑上下文信息。 本文主要采用以下六个复合特征模板:c(一2)c(一1),c(一1)C(0),c(0)c(1),c(一1)c(1),C(0)c(2),C(O)Tag(O)。 2实验与分析 2.1评测标准与语料 本文实验中使用的语料是第二届国际分词竞赛(Bakeoff2005)中的两组语料: (1)北京大学提供的PKU语料:训练集词次数1.IM,测试集词次数104K。 (2)微软公司提供的MSRA语料:训练集词次数2.37M,测试集词次数107K。 按照Bakeoff的规则,在每组分词语料上分为封闭测试和开放测试:封闭测试只允许从同组的训练语料 中获取知识进行分词;开放测试则不受此约束。本文首先在封闭测试条件下进行了对比实验。此外,为了 进一步验证本文双层分词方法的实际意义,本文还进行了开放测试。 2.2实验结果与分析 本文设计了4组实验(前3个实验为封闭测试,第4个实验为开放测试): 实验1:单独使用CRF的字标注方法进行分词。 实验2:采用局部歧义词网格和基于CRF的字标注相结合的方法进行分词。 实验3:分别采用前向最大匹配法和局部歧义词网格对测试语料进行分词。 实验4:使用双层分词模型进行开放测试实验。 通过以上各组实验,来衡量不同种类特征和标注集对分词结果的影响;验证局部歧义词网格与CRF相 结合的分词模型优于单独使用CRF的分词模型,并与Peng等人【6】的工作进行比较;同时把实验2的结果与 该研究相关的分词方法:局部歧义词网格、前向最大匹配算法,进行性能的比较和分析;此外,把开放测 试和封闭测试的结果进行对比,验证本文双层分词模型的实际意义。 实验中使用基于词的F值(准确率P和召回率R的调和平均值:F=2P (P+R))作为评估标准。 -4- WWW.ivypub.org/cst 2.2.1 实验1 单独使用CRF的字标注分词方法。根据分词语料、特征模板和标注集的不同,该实验进行了八个测 试。在中文分词中,当前字符及其上下文各字符所包含丰富的信息是最重要的特征模板。因此该实验使用6 个字符组合特征模板,记为A1:c(-1),c(0),c(1),C(一1)C(0),c(0)C(1),C(一1)c(1),对应真实文本中的三字 窗;为了便于比较,该实验也使用10个字符组合特征模板,记为BI:C(-2),C(一1),C(0),C(1),C(2),c(-2)c(一 1),C(-1)C(O),C(0)c(1),c(-1)C(1),C(0)c(2),对应真实文本中的五字窗。该实验分别使用四字位和六字位标 注集。实验结果如表3所示: 表3 实验结果1(F值) 2.2.2 实验2 使用局部歧义词网格与CRF相结合的分词方法。该实验中的特征模板A2和B2是在Al和B1的基础上 加入了复合特征C(0)Tag(0),即把局部歧义词网格的切分结果作为CRF的特征之一。为了与实验1进行对 比,使用的分词语料和标注集均与实验1相同,在该实验中也进行相应的八个测试。实验结果如表4所示 (为便于比较,BO05列给出了Backoff2005的最佳成绩): . 表4 实验结果2(F值) 通过分析实验1和实验2的结果,得出以下结论:六字位标注集能够更详细地标注每个字的词位信息, 具有更强的表达能力;较之于四字位标注集,六字位标注集搭配适当的特征模板,能够获得更佳的分词性 能。虽然五字窗的特征模板Bl和B2相LL--字窗的特征模板A1和A2包含更多的特征,但是采用前者取得的 分词结果不一定比后者好。原因分析如下:根据黄昌宁、赵海【l儿3】对Bakeoff2005训练语料词长的频率分布 统计,MSRA语料中三字及三字以下词的概率为0.9577,而四字词与五字词的概率和仅为0.0331;PKU语 料中三字及三字以下词的概率为O.9721,而四字词与五字词的概率和仅为O.0261。五字窗的特征模板B 和 B2为了覆盖真实文本中概率很少的四字词和五字词,采用的分词模型增加了将近90%的特征信息,致使系 统增加了大量的冗余信息,进而降低了分词精度。 Bakeoff2005针对PKU语料和MSRA语料的最佳成绩分别是95.0%和96.4%。对比实验1和表实验2的 实验结果,可以看出局部歧义词网格和CRF相结合的分词系统能够达到更佳的分词精度,优于单独使用基 于CRF的字标注方法。实验2取得较好分词结果的原因分析如下:加入的局部歧义词网格分词算法较好地 使用了从训练语料中提取一元词表和二元词表,不但很好地使用了词表知识,而且能够处理汉语分词过程 中产生的交叉歧义和覆盖歧义;与之相结合的CRF可以很好地解决中文分词中的未登录词问题,并且由于 局部歧义词网格的分词结果作为CRF的一项很重要的特征,相当于在对汉字的标注过程中,更充分地使用 了词表知识,提高了词表词的召回率,进而提高了系统的分词性能。 2.2.3 实验3 分别单独使用前向最大匹配、局部歧义词网格分词算法。本文在局部歧义词网格分词算法中检测到的 -5. WWW.ivypub.org/cst 覆盖歧义采用的是“长词优先”的准则进行处理。该实验比较前向最大匹配算法与局部歧义词网格算法的 分词效果。实验结果如表5所示: 表5 实验结果3 对比上述三组实验的结果,可以看出本文提出的结合局部歧义词网格和CRF的双层分词方法的分词性 能显著高于单独使用前向最大匹配法或局部歧义词网格的分词方法;这是由于前者能够较好地解决分词歧 义和未登录词问题,验证了本文双层分词方法的有效性。单独使用局部歧义词网格分词算法的分词性能只 是略高于单独使用前向最大匹配法的分词方法,这是由于尽管局部歧义词网格能够检测出汉语分词中的覆 盖歧义和交叉歧义,但是还没有充分利用歧义部分的上下文信息以选择歧义部分的最优路径。如上文所 述,交叉歧义占切分歧义现象的90%以上【l引,处理歧义的重点就是处理交叉歧义,但是本文仅使用了二元 语言模型(二元词表)选择最优路径,对交叉歧义部分上下文信息的利用还不够充分;可以考虑使用更多 的上下文信息来进一步提高局部歧义词网格的分词性能。 2.2.4 实验4 使用与实验2相同的分词模型、训练语料、特征模板、标注集,但使用训练语料外的语料进行开放测 试。为了保证训练语料和测试语料对应相同的分词标准,开放测试语料分别使用北大人民日报分词语料 1998年2月份的前5000句和bakeoff2007的MSRA测试语料。实验结果如表6所示: 表6 实验结果4(F值) 对比实验2和实验4的结果可以看到,在训练语料和训练方法都相同的情况下,由于开放测试使用训练 语料外的语料进行测试,其分词性能低于封闭测试,但差异很小,表明本文提出的双层分词模型具有一定 的实际意义。 此外,将本文提出的结合局部歧义词网格和CRF的双层分词模型与Peng等人【6】的分词模型进行对比分 析。相同点是两个分词系统都采用字标注的分词方法,均以CRF作为学习模型,且都使用了词表特征;而 区别在于本文的双层分词模型使用了更大的字位标注集以及更多的特征函数。一方面,Peng等人【6】的分词 模型仅使用了二字位标注集:START(词首)和Not—START(非词首):而本文系统分别使用了四字位标 注集{B,M,E,s}和六字位标注集{B,B2,B3,M,E,s},实验结果表明,较之于其他标注集,六字位标注集搭 配适当的特征模板,能够获得更好的性能。另一方面,在CRF学习中,用于表达语言特性的特征函数起核 心作用。Peng等人【61的分词模型把词表应用于特征函数中,其分词模型的特征模板为:c(一2),c(一1),co), C(2),C(-2)C(-1),C(-1)C(0),c(o)co),C(-1)C(0)C(-1),考虑了当前词前后两个位置的上下文信息。本文的双 层分词模型的特征模板,不仅考虑了当前词前后两个位置的上下文信息,还把底层局部歧义词网格的分词 结果作为CRF的一项特征信息,即实验2中的C(0)Tag(0),更好地利用了词表特征,较好地解决了汉语分 词中的未登录词和分词歧义问题,取得了更好的分词性能。 3 结束语 本文针对中文分词中存在的分词歧义和未登录词识别问题,提出了一种结合局部歧义词网格与CRF的 .6. WWW.ivypub.org/cst 双层中文分词模型。首先在底层该模型从训练语料中提取一元词表和二元词表,使用局部歧义词网格分词 算法对文本进行粗切分。该算法能够检测汉语分词过程中的覆盖歧义和交叉歧义,对于覆盖歧义采取“长 词优先”的准则,而对于交叉歧义则使用二元词表选择最优的切分路径,并把底层的切分结果传给高层。 然后,在高层使用基于CRF的字标注方法对文本中的汉字重新进行标注,并把局部歧义词网格的切分结果 作为CRF的特征之一,更好地利用了词表特征,该算法能够平衡地处理分词过程中的词表词和未登录词, 有效地提高了分词的性能。此外,分别采用四字位标注集与六字位标注集的对比实验表明,六字位标注集 能够更详细地标注每个字的词位信息,具有更强的表达能力;较之于四字位标注集,六字位标注集搭配适 当的特征模板,能够获得更佳的分词性能。通过实验表明,分词的F值分别达到了95.1%和97.1%,优于单 独使用条件随机场的分词效果。同时在开放测试的实验结果表明该模型也具有一定的实际意义。 本文提出的双层分词模型还存在有待改进之处。可分为以下几点: (1)在语言模型的选择上还有待改进。由于底层的局部歧义词网格分词算法检测出交叉歧义后,仅仅 使用二元语言模型来选择最优切分路径,导致对交叉歧义部分上下文信息的利用不充分。下一步工作考虑 使用三元或三元以上的词表计算判断局部歧义词网格的最优路径,来进一步提高系统的分词性能。 (2)在CRF模型与其他模型的结合上还有待进一步研究。在CRF模型用于汉语分词进一步研究上, 也考虑将一些state.of-the.art分词模型与之进行融合。 (3)在分词的效率上还有待提高。李寿山、黄居仁【1 5J提出了一种基于词边界分类的中文分词方法。该 方法不同于目前主流的基于字标注的分词方法,而是直接对字符与字符之间的边界进行分类,判断其是否 为两个词之间的边界,从而达到分词的目的。该方法在时间效率上的改进也值得在下一步工作中进行借 鉴。 致谢 对审稿人员提出的中肯建议与意见,作者在此表示由衷的感谢。 REFERENCES [1】黄昌宁,赵海.中文分词十年回顾[J】.中文信息学报,2007,2l(3):8-20 【2】付英英,孙济庆.近五年我国中文分词研究论文计量分析【J】.现代情报,2009,29(1 1):161-166 【3】黄昌宁,赵海.由字构词——中文分词新方法[C】.中国中文信息学会二十五周年学术会议,2006:53—63 [4 Ni4]anwen Xue.Chinese Word Segment ̄ion as Character Tagging[J].Computational Linguistics and Chinese Language Processing, 2003,8(1):29-48 【5】Andrew McCallum,Dayne Freitag,Fernando C.N.Pereira.Maximum Entropy Markov Models for Information Extraction and Segmentation[C].ICML,2000:591-598 [6 Fuchun Peng,Fangf6]ang Feng,Andrew McCallum.Chinese Segrnent ̄ion and New Word Detection Using Conditional Random Fields[C1.COLING,2004:562-568 【7】John D.Lafferty,Andrew McCallum,Fernando C.N.Pereira.Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data[C1.ICML,2001:282・289 【8】Hai Zhao,Changning Huang,Mu-Li.An Improved Chinese Word Segment ̄ion System with Conditional Random Field[C]. SIGHAN,2006:162.165 [9】张国兵,李淼.一种基于局部歧义词网格的快速分词算法【J].计算机工程与应用,2008,44(12):175.185 【10】孙茂松,邹嘉彦.汉语自动分词研究评述【J].当代语言学,2001,3(1):22-32 【l1】李玉梅,陈晓,姜自霞,等.分词规范亟需补充的三方面内容[J】.中文信息学报,2007,2l(5):3-7 [12】乔维,孙茂松.汉语交集型歧义切分字段关于专业领域的统计特性【J】.中文信息学报,2008,22(4):10.18 【13】王显芳,杜利民.一种能够检测所有交叉歧义的汉语分词算法【J】.电子学报,2004,l(1):50.54 .7- www.ivypub.org/cst 【l4】赵海,揭春雨.基于有效子串标注的中文分词【J】.中文信息学报,2007,2l(5):8-13 【l5】李寿山,黄居仁.基于词边界分类的中文分词方法【J】.中文信息学报,2010,24(1):3-7 【作者简介】 陈雷(1981一),男,汉,博士, 李淼(1955 ),女,汉,学士,研究员,研究方向 助理研究员,研究方向为人工智 能与自然语言处理。 Email:alan.cl@163.tom 为人工智能。Email:mli@iim.ac.cn 张健(1954.),男,汉,学士,研究员,研究方向 为计算数学。Email:jzhang@iim.ac.crl 曾伟辉(1982.),女,汉,硕士,助理研究员,研 究方向为信息检索。Email:whzeng@mail.ustc.edu.cn .8. www.ivypub.org/cst