您的当前位置:首页正文

应用条件随机场进行汉语词法分析研究

2021-01-03 来源:钮旅网
维普资讯 http://www.cqvip.com

第28卷第2期 计算机工程与设计 2007年1月 Vo1.28 NO.2 Computer Engineering and Design Jan.2007 应用条件随机场进行汉语词法分析研究 王继曾, 罗 恒, 刘 宽, 任浩征 (兰州理工大学计算机与通信工程学院,甘肃兰州730000) 摘要:中文分词是一个困难的、重要的被广泛研究的序列数据建模问题。以往应用条件随机场进行汉语分词时,将分词转 化为对汉字的标注,造成了大量的冗余的候选切分,以至于在分词过程中大大降低了分词的速度。提出了使用词图作为基 础的标记序列来完成汉语的词法分析,这样充分利用了现有的词典资源,在属性框架的选择时也可以方便地融合语言知 识,并且长度歧视及状态歧视方面的影响也被减到最小。提出了应用条件随机场来构建统一的汉语词法分析 关键词:汉语词法分析;条件随机场;最大熵;序列数据标-/g;属性函数 中图法分类号:TP391.1 文献标识码:A 文章编号:1000—7024(2007)02.0486.03 Research of applying conditional random ifelds to Chinese lexical analysis WANG Ji—zeng,LUO Heng,LIU Kuan,REN Hao—zheng (Institute of Computer Science and Communication Engineering,Lanzhou University of Technology and Science, Lanzhou 730000,China) Abstract:Chinese word segmentation is a dififcult,important and widely—studied sequence modeling problem.Precious applications applying conditional random ifelds to Chinese words segmentation convert segmentation to character-based begin/inside atgging caused a number ofredundant segmentation candidates which makes in the segmenting process segmenting speed slower.Using hte words lattice as the fundamental sequence to be atgged to achieve Chinese lexical analysis is presented.Then hte lexicon is used efifciently,and lan— guage knowledge is integrated easily in feature template selecting,and nifluences of label and length bias are minimized.A uniifed ap— proach is presented for Chinese lexical analysis using conditional random ifelds. Key words:Chinese lexical analysis;conditional rnadom fields;maximum entropy;labeling sequential data;feature functions 0引 言 以及我们提出的在条件随机场中使用词图进行汉语分词的方 法;具体讨论了我们的属性框架以及如何融合多种语言知识 汉语分词历来被认为是汉语自然语言处理的关键步骤, 进行汉语分词;最后进行了总结并提出了未来的工作。 对于汉语分词历来也为研究人员所关注。基于规则、基于统 计、以及结合两者的方法不断地被应用。尽管取得了巨大的 1条件随机场 进步,但离这个问题的最终解决还有相当的距离。但研究界 1.1与传统的隐马尔科夫模型的比较 对于分词系统应当一方面充分利用语言学家总结的语言规 对序列数据进行切分和标记在很多领域都是一项基础性 则、另一方面也应采用统计的方法提高系统的健壮性达成共 的重要工作,如对于基因序列的标记,自然语言处理中的词性 识。如何结合语言规则和统计方法则成为了大家关注的焦 标注和语音识别等。 点。本文提出了一个应用条件随机场(conditional random ifelds, 条件随机场就是一种用于对序列数据进行切分和标记的 cRFs)理论融合多种语言知识进行汉语分词的模型,该模型与 概率框架。以往对于序列数据进行切分、标记使用的大多是 以往应用条件随机场进行汉语分词的不同之处在于,本模型 隐马尔科夫模型或概率有限状态机等。其中隐马模型是一种 使用了词图来进行分词,而非将汉语分词转化为对汉字进 生成模型,他在随机变量x、Y上定义了一个联合概率分布P 行标注。本文介绍了条件随机场与以往的隐马尔科夫模型 (X,Y),其中x、Y分别对应了观测序列和标记序列。为了定义 (hiddenmarkovmodels)及最大熵马尔科夫模型(maximumentro— 这样一个联合概率分布必然要列举所有可能的观测序列,而 pymarkovmodels)的比较,以及条件随机场的定义以及参数估 这往往十分困难。于是在实际操作中便引入了一些不必要的 计等:讨论了以往采用条件随机场进行汉语分词方面的工作, 假设,比如观测序列由一些独立的观测元素来体现。然而对 收稿日期:2006—01—05 E—mail:airsmith lh@sina.corn 作者简介:王继曾(1950--),男,山东人,教授,研究方向为自然语言理解、智能机器人、网络协议: 罗恒(1978--),男,云南人,硕士研究 生,研究方向为自然语言理解: 刘宽(1975一),男,河南人,硕士研究生,研究方向为自然语言理解: 任浩征(198O一),女,河北人,硕士 研究生,研究方向为自然语言理解。 ‘——486・—— 维普资讯 http://www.cqvip.com

于真实世界中,观测序列往往由观测元素之间复杂的相互关 有了上述的定义,对于给定一个观测序列找到相应的最 可能的标记序列的任务就变成了 Y =argmaxP^(ylx) (2) 系及长距离的依赖来体现。条件随机场的提出就是为了解决 上述的问题。CRFs的核心思想就是对于特定的观测序列X在 标记序列Y上定义一个条件概率P(Ylx),而不是像HMMs那 样在标记序列和观测序列上定义联合分布。其目的就在于当 给出特定的观测序Nx。找到使尸 )概率最大的标记序列Y.。 对于给定输入观测序Nx,找到一个标记序列 使得 P (ylx)最大。这使用Viterbi算法可以有效的计算。 CRFs的形式很大程度上来自于最大熵原理。对于CRFs 的参数估计也是利用最大熵原理进行的。最大熵原理就是“对 已知的东西建模,而对于未知的东西不作任何假设”。也就是 当一个模型的熵最大时,这个模型也就是最均匀的。 根据DellaPietraetal,利用最大似然法就可以求到这样一 这既意味着系统不用在观测序列上建模,此外由于没有引入 不必要的独立性假设,模型也能捕捉观测序列的任意的属性, 而无需考虑这些属性之间的联系。 1。2与最大熵马尔科夫模型的比较 最大熵马尔科夫模型与HMMs不同,它不是一个生产 模型,而是一个基于下状态分类器的有限状态模型,但是, 它却存在一个缺点就是标记偏见问题(1abelbias problem),如 图1所示。 图l标记偏见问题 图1为一个简单的有限状态机用来区别单词rob和rib。 从状态0到1或4的概率相同(他们面对相同的观测r)从状态 1到2以及从状态4到5均只有惟一的转换,故而这个有限状 态机无法区分rob和rib。产生这种问题的原因就在于MEMMs 对于状态序列的计算是局部的。而CRFs则是对状态序列进 行全局的计算,从而克服了标记偏见问题。 另外在进行有关切分问题时,常常会出现长度偏见问题, 也就是系统会给小的切分更大的概率值。尽管这个切分的每 个标记转换概率很小,然而由于路径短,整个路径(切分)的总 的概率将被放大。这种问题在汉语的切分中十分严重。而 CRFs通过对状态序列的全局计算别免了这种问题的出现。 lI3条件随机场的定义及参数估计 . 这里给出CRFs的定义。G:( 是一个图,并且 ( ) , C置功是一个条件随机场,当满足p( 『 ,w≠v) ( I yw,w— v),其中五y为随机变量,w~v意为W,v在图G中相邻。 CRFs的一种特殊形式就是线性链,对于一个具有参数 ^={ 一)的CRF,给定观测序Nx={x … )得到相应的标记序 列 { c"y )的概率为 1 r P^(ylx)= _exp(Z∑ _l, ,f)) (1) 其中:ZI——相对于每个输入 的一个标准化因子以保证 所有状态序列概率之和为1。 一 , 是一个属性函数,这 个属性函数可以是对状态转移yr一 一 、整个观测序Nx以及当 前步骤t的各方面的一个衡量, 则是通过训练数据对模型进 行训练之后得到的属性函数 的一个权重,这样使得CRFs在 自然语言处理中可以方便的引入各种语言学知识,并且可以 通过在真实语料库上的训练得到这些知识在整个模型中的权 重,这样就能方便的融合多种语言学知识与统计方法~起为 特定的自然语言处理任务提供支持。 但是这种形式对于汉语分词并不适合,在后文我们会给 出它的一个改进版本。 个具有最大熵的模型。要使得似然度最大也就是使得其对数 似然度最大。假设独立同分布的训练数据{ ,yJ,i=1,…, ,那 么其对数似然度如下 1 r L(a)=Y[1og ∑∑ 一 ,xi,f)] (3) l l,J Fl 注意这里 )为观测序yUxF{x, … )与其相应的标记序 列y { r)。 对于式(3)的求解可通过iterative scaling方法或gradient— based方法进行求解。 2应用条件随机场进行分词 2,1以前的相关的工作 无论是最大熵的方法或是CRFs的方法,由于能够通过属 性函数表示大量观测元素之间的复杂的相互关联属性和长距 离的依赖关系,引起了许多研究人员的关注。 (Xue,2003)将汉语分词转化为对单个汉字进行标注,他的 标注集为LL(此字为一个词的左界),LR(此字单独成词),RR (此字为一个词的右界),MM(此字为一个词中间某字),并通过 使用了一个最大熵标注器完成了汉语的分词任务。 Peng et al 2004应用CRFs进行汉语的分词和新词发现任 务。他们同样将对汉语分词转化为对汉字的标注,他们的标 注集较为简单,只有Start和NotStart两种。不过相比(Xue,2003) 他们的标注系统引入了一些词典知识。 2。2在CRFs中使用词图进行汉语词法分析 我们认为对于将汉语分词转换为对汉字的标注不一定是 一个适当的方法,首先,对于汉语而言由于未登录词并不严 重,利用一个适当的词典仅使用最大匹配算法进行汉语分词 往往也能达到80%的精确度;其次,由于是对字进行标注,很 难使用词典知识,(Pengeta1.2004)对词典知识的利用是并不完 善;第三,直接对字进行标注往往造成了大量冗余的候选集, 这样在进行标注时可能序列的候选集往往十分庞大,使得搜 索最大可能标注序列耗时很长。 2.3应用CRFs进行汉语分词 在传统的序列数据标记任务中(无论是HMMs、MEMMs 或CRFs)观测序列与标记序列是一~对应的,n个观测产生n 个标注。这对于如词性标注之类的任务非常适合。而对于处 理汉语这样词与词之间没有分隔的语言就有一定的困难。对 于n个汉字的输入,将对应m个汉语的词,这里 ≤ ,绝大多 数情况下m<H。 为了解决上述问题,我们参考TakuKudo2004对CRFs的 ——487—— 维普资讯 http://www.cqvip.com

形式作了一点儿改变。设 为输入的句子,设Y为对其的一种 切分标注, {<w t>C-- ̄<W t >),其中Wi为句子 的第i个词,t 重要研究方向。 为对其相应的标注,IYI表示该路径的长度,也就是句子 一共 被分为lY1个词。 设 )为一个集合包含所有对 的可能的切分路径。我们 的算法就变成了从m)中搜索最有可能的路径y‘。 根据上述的定义,我们利用CRFs的理论给出当给定观测 序列(汉语句子h,其相应的标注序列(切分标注结果) ,叫<wl'‘t>,】…,<w , >)的条件概率为 1 jy} 参考文献: [1] John Lafferty,Andrew McCallum.Femando Pereira.Conditional random fields:Probabilistic models for segmenting and labeling sequence data[C].Proc ofICML.2001.282.289. [2] Andrew McCallum.Eficifently inducing features of conditional rndom aifelds[C].Nineteenth Conference on Uncertainty in Arti. ifcial Intelligence(UA103),2003. [3] Fuchun Peng,Fangfang Feng,ndArew McCallum.Chinese seg- mentation nd anew word detection using COnditional rndom aie.f P(vlx)— exp( ̄;五 (<Wi_l, 一・>,<Wi, )) (4) 这里Z是一个对于给定句子 的所有可能路径的一个标 准化因子 乙=∑exp(Z∑五 (<Wi。 一。 ,<wf )) (5) 1ds(to appear)[C].Proc ofCOLING,2004. [4]Della Pietra,Stephen,Vincent J Della Pietra,et a1.Inducing featu- res of rndom aifelds[J].IEEE Transactions on Pattern nalAysis and Machine Intelligence,1999,19(4):380—393. (<Wi.., 一。>,<Wi, )是一个关于当前标记和词以及前一个 标记和词的属性函数,其实对于CRFs而言完全可以使用具有 更大的上下文的属性函数,但考虑到实验条件所限以及数据 的稀疏性问题,我们只选用了这样的属性函数。 对于给定输入句子 ,Z不变,故而对于汉语句子切分标 注的问题就变成了,在所有候选路径中搜索路径y‘ yj 【5】Taku Kudo,Kaoru Yamamoto,Vuji Matsumoto.Applying condi- tional rndom aifelds to Japanese morphological[J].nalAysis Pro— ceedings ofEMNLP,2004.164—172. 【6]Hanna M Wallach.Conditional random fields:An introduction [R].Technical Report MS—CIS一04-21,Department of Computer y'=argmaxexp( ̄∑ (<w『_1,tI_1>,<Wi, )) 3系统和分析 (6) nd aInformation Science,University of Pennsylvania,2004. [7] Nianwen Xue.Chinese word segmentation as character tagging 【J].Computational Linguistics and Chinese Language Proces- sing,2003.245—264. CRFs模型的训练耗时十非常长的。因此对于属性的许 那则应当慎重,一方面应当保证充分利用各种语言知识,另一 方面应当尽量控制属性集的规模。 我们的属性函数只选取了当前词和上一词以及相应的标 注<Wi 。>,<Wi, 。相应的属性框架表1所示。 对于具体的训练数据,应当选取那些在训练数据中出现 相对多的属性。 [8] Adam L Berger,Stephen A Della Pietra,Vincent J Della Pietra.A maximum entropy approach to natural lnguaage[J].Processing Computational Linguistics,1999,22:39—71. [9] Adwait Ratnaparkhi.A maximum entropy model for part—o ̄spee— ch tagging[C].Proceedings ofthe Conference on Empirical Me— thods in Natural Language Processing,1 999. 4结束语 通过应用CRFs我们将语言知识和语料库结合起来,通过 语料库来定量的表达具体的语言知识在真实的语境之中的贡 献。这对于在自然语言处理中结合基于规则和基于经验的方 法有重要的意义。 然而如何选择具体的属性进入系统却是一个困难的问 [10]刘开瑛.中文文本自动分词和标注[M].北京:商务印书馆,2000. [11]Hua—Ping ZHANG,Qun L1U,Xue—Qi CHENG,et a1.Chinese lexical analysis using hierarchical hidden markov model[C]. Sapporo Japan:Second SIGHAN workshop afilifated whith 4 1th ACL,2003.63—70. [12]余刚,陈华月,朱征宇,等.基于词同现频率的文本特征描述[J]. 计算机工程与设计,2005,26(8):2180.2182. 题,同时我们采用词图也进一步增大了参数集。这样一来如 何采用更好的算法以加快CRFs的训练速度也是我们未来的 [13]陈展荣,曾毅平.Web汉语料的智能抽取与词汇切分[J].计算 机工程与设计,2005,26(6):1422.1424. 表1属性框架 类型 一框架 w ̄=X,tr=W w 1 w Y,t = t=iW Ⅵ一.∈姓氏用字表&w ∈人名用字表&^一 =NR&t ̄=NR 注释 肭语料库中出现,17次以上的词 船r为语料库中相继出现 次以上 元语法 二元语法 姓名识别 姓名识别 姓名识别 姓名识别 地名识别 译名识别 ∈姓名后缀&tm=NR& Ⅳ w ∈姓名前缀&^一 =NR&r ∈指界动词表&f』_ =NR&tFV 是 的后缀, ≤3, 地名指示词词库&f产^ m∈译名用字表&tFNR 姓名后缀如”先生”、lt,J、姐” 姓名前缀如”老”、”小” 指界动词如”说”、”同意” 地名指示词如”市”、”公路” -——488・—— 

因篇幅问题不能全部显示,请点此查看更多更全内容