第27卷第12期 计算机应用研究 Vol|27 No.12 20l0年12月 Application Research of Computers Dec.2010 基于规则的哈萨克语基本名词短语识别研究 孙瑞娜,古丽拉・阿东别克 (新疆大学信息科学与工程学院,乌鲁木齐830046) 摘要:以哈萨克语基本名词短语识别为目标,采用基于规则的方法,从基本名词短语结构语法模型出发,利用 哈萨克语基本名词短语的词性标记信息及构形附加成分信息,建立了基本名词短语规则集,设计了哈萨克语基 本名词短语自动识别系统,实现了对3O万词级哈萨克语语料库的基本名词短语标注。实验结果表明,该方法可 行。识别精确率达到8O.8%。 关键词:语料库;基本名词短语;哈萨克语;短语结构;规则 中图分类号:TP391 文献标志码:A 文章编号:1001—3695(2010)12—4511一O3 doi:10.3969/j.issn.1001—3695.2010.12.033 Kazakh basic noun phrase recognition based on rules SUN Rui—na,GULILA・Altenbek (College of Information Science&Engineering,Xinjiang University,Urumqi 830046,China) Abstract:The aims at the identiifcation of Kazakh basic noun phrase,using the method based on the rules and Kazakh basic noun phrase part—of-speech tag information and the additional component configuration information,starting from the basic noun phrase structure grammar model,established a basic noun phrase rule set,designed automatic identification system of Ka— zakh which could complete tagging the basic noun phrase of 300 000 words corpus Kazakh.Experimental results show that the method is feasible.and the precision is 80.8%. Key words:corpus;basic noun phrase;Kazakh;phrase structure;rules 近年来,基本名词短语识别作为自然语言浅层句法分析的 013条哈语基本名词短语的短语库,为开发具有语法功能的自 重要任务之一,在自然语言研究领域越来越受到重视,基本名 动校对系统,完成哈语短语、句子相似度计算等应用系统提供 词短语的识别与分析对机器翻译、信息检索、文本处理和句法 重要信息源。 分析均具有重要作用。目前,随着哈萨克语(简称哈语)信息 处理研究的进展,对哈语语料库标注加工的研究,已基本完成 1 哈语基本名词短语特征 了词处理阶段上的标注,而对哈语短语级标注方法的研究还未 哈语基本名词短语是由语义上能够搭配的两个或两个以 开始,这使得建立大规模实用的哈语熟语料库的目标很难实 上的实词带人表达某种结构关系的词组模式得出的句法单位。 现,对哈语标注语料库在信息处理中的应用成为限制。现阶段 哈语作为一种典型的黏着性语言,单词是通过在词干后按一 系统研究短语内部结构特征,完成对哈语语料库短语级的标 定的顺序连接各种词缀(又称构形附加成分)来构成的,除了 注,是继续进行语料库深加工、建立大规模树库和其他语言知 从外来语引进的词前缀外,语言本身不存在词前缀,而且,哈 识库的先决条件。汉语、英语等其他语言的信息处理实践也证 实了这一点 J。对此,本文通过对哈语短语类型中基本名词 语中各类后缀的连接有严格的规律可循。因此,哈语的各种 短语的划分和标注研究,展开哈语短语级别的研究。 词后缀对基本名词短语识别率的提高有重要意义。所以,哈 文献[6]将英语基本名词短语定义为简单的非嵌套的名 语基本名词短语的识别研究是在哈语经过词性标注和构形 词短语,即一个基本名词短语内部不能再包含有更小的名词短 附加成分切分的XML文件组成的语料库上进行的探索性 语。本文参考英语的定义,将哈语基本名词短语定义为非嵌套 研究。 的名词短语,参考英语和汉语短语的研究成果” ,并根据哈 2哈语基本名词短语内部构成规则 语自身的特点,从哈语基本名词短语句法属性人手,对哈语基 本名词短语的结构和功能进行比较深入的研究,归纳出了哈语 通过分析语料库,结合《现代哈萨克语实用语法》… 《现 基本名词短语标注规则的基本结构,提出了16个相应的形式 代哈萨克语结构研究》 ,发现哈语的词类信息是构成基本名 化描述规则群体,根据这些规则,设计了哈语基本名词短语识 词短语的最重要因素。因此,本文以词类信息的词性及构形附 别系统,对30万词级哈语语料库作了基本名词短语标注,并从 加成分为核心,再附加一些限定条件,分析了哈语基本名词短 识别结果中除去标错的条目,合并相同的条目,建立了包含22 语内部构成规则。 收稿日期:2010—05—10;修回日期:2010—06.30 基金项目:国家自然科学基金资助项目(60763005,61063025,60763005);国家教育部、 国家语委民族语言文字规范标准建设及信息化科研项目(MZ115-92) 作者简介:孙瑞娜(1982.),女,安徽阜阳人,助教,硕士研究生,主要研究方向为自然语言信息处理、计算机应用(srn304@sina.eom);古丽拉‘ 阿东别克(1962一),女(通信作者),教授,博导,主要研究方向为自然语言信息处理、人工智能. ・4512・ 计算机应用研究 BLS13}B l4IBLTl5l BLT16lBTJT17 1 第27卷 2.1 哈语基本名词短语组成结构 在基本名词短语组成结构出现的词性标记中,采用基于 XML文件的哈语语料库词性(pos)标注符号,即v动词,n名 词,adj形容词,prep介词,ono相声词,pron代词,int感叹 词,conj连词,rtum数词,adv副词,[]词性不明。本文将基 本名词短语的结构关系从语料库中提取出来,用统计归纳的方 法,总结出10个基本结构:a)n+n;b)n+conj+n;c)pron+ eonj+pron;d)pron+n;e)adj+eonj+adj;f)adj+i'1;g)a(Ij+ 1102 n[ALllAI2IAL3IAL4lAL5lAL6]+n[BLF1lBLF’2I BLF3I BLF4IBU15lBLF6I BLF7lBLS8lBLs9l BLS1Ol BLS1llBISl2I BLS13I BI 14}B王 15lB【』T16IBL 17 l R03 n『CN1 I CN2 I CN3 I CN4 I CN5 J CN6 I CN7 l CN8 I CN9]+n lBLF1 l BLF2I BLF3 I BI F4 l BLF5 l BLF6 l BLF7 I BLS8 I BLS9 I BLS1O l BI 11IBLS12IBIS13IBIJTl4lB【 15IB【 l6IBI 17] R04 n『CT1 IC12]+n『C131 RO5 n 4-EC1 J EC2 J EC3{EC4{EC5+n adv+n;h)nuln+n;i)v+n;j)[]+n。 结合哈语语法知识,基本名词短语中的连接助词也有规律 可循,且对基本名词短语的正确识别起到一定作用,因此本文 归纳出了基本名词短语中的五种连接助词(conj),并制定了相 应的符号标记:EC1: 和EC5: 。 R06 n+nI BLF1 I BI I BLF3 I BLF4 l BLF5 I BLF6 l BLF7 l BLS8 I BLS9lBI510I BLSnIBIS12IBIS13I B【JT14I BLT15I BLT16I BI l7] 1t07 pron+EC1 I EC2}EC3I EC4I EC5+pron R08 pron+n『BLF1lBLF2IBLF3IBLF4IBLF IBLF6lBI F7IBLS8l BLS9lBIS10IBLSllIBLSl2IBLS13I BI l4f BIJT15l BI』T16l BIJT17] 、EC2: 婶、EC3: 、ECA: R09 pron[ALlIAI2IA IAL4lAL5IAIJ6]+n[BLF1lBLF2IBLf3I BLF4lBLF5IBLF6IBLF7IBLS8lB lBLS1OlBLSlllBLSl2IBI S3I BLT14lBLT15IBLT16IBLTl7 I 2.2哈语基本名词短语构形附加成分 R10 adi+EC1+adi 根据哈语单词结构特点,各种构形附加成分在组成基本名 词短语时的变化特征对基本名词短语的正确识别有非常重要 的作用。图1为哈语中四种构形附加成分的连接规则。 R11 adi+nI BLF1 I BLF2 I BLF3 l BLF4 I BLF5 J BLF6 I BLF7 I BLS8 l BLs9}BKS10}BI5l1 lBLSl2IBLS13IBI.T14IB【 l5IB【IT16I BIJT17 l R12 v+nI BI 1IBLF2lBLF3IBLF4IBLF5lBLF6lBI ■IBLS8IBLS9l BLS10IBLS11 lBI5l2IBLSl3IBIJT14I B【 l5l BIJT16l BIJTl7 l R13 n+v『AUIAL2IAL3IA IA lAL61+n『BLFlIBLF2IBLF3I BLF4lBLF5 I BU16 l BLF7 l BLS8 I BLs9 I BLsl0I BLSl1 I BIs12 I BIJs13 l BLT14IBLT15 JBI l6 JBI 17 J 【格式附加成分Jor[领属性附加成分jor[附属附加成分jor l词干]Or[词前缀j R14 adv+adj+n『BI 1 I BLF2 I BLF3 I BLF4 l BLF5 I BLFl6 l BLF7 I BLS8IBLS9 I BLS10 l BI511 I BLS12 l BLSl3 I BI|T14 l B【.Tl5 I BIJTl6 l 图l 哈语中四种构形附加成分的连接规则 图1中构形附加成分中的词前缀都是外来的,数量少,在 基本名词短语识别中没有意义,在此可以不予考虑。重点统计 分析了基本名词短语构形附加成分中的后缀和词尾,制定了相 应的符号标记,建立了基本名词短语构形附加成分集,如表1 ~B【JT17l R15 num+n『BIJF1 IBI F2IBLF3I BLF4IBI lBI F6lBLF7lBIS8I BLS9lBLS1OlBLS11 IBLSl2lBLS13IBI.T14IB【 l5IB【 l6l B工 l71 Rl6『1+n『BLF1 I BLF2lBLF3l BI. 14I BLF5 JBLF6lBLF7IBI S8I BLS9lBLS1OlBLS11lBLSl2lBLS13lBI.T14lB【 15IB1.Tl6I BLIT17] 4所示。 表1哈语基本名词短语构形附加成分(一) 符号 AI』 表3哈语基本名词短语构形附加成分(三) 符号 名词性后缀 符号 名词性后缀 领属格词尾 . 符号 BLF1 领属人称词尾 . CN1 . _J— CN7,k CN8 CN9 A工2 .纛I; . BLF2, ‘.CN2 CN3 t奠 . | . AL3 AIA AL5 AL6 b . . BI.F3 BLF4 一 . . CN4 . CT1 j . .  ̄J,3ts. 。 . . BLF5 BLF6 . CN5 . ≯ CT2CT3 ; ,L‘J . CN6 表2哈语基本名词短语构形附加成分(二) 表4哈语基本名词短语构形附加成分(四) 符号 BLF7 BLS8 领属人称词尾 . 符号 BLS13 BLT14 领属人称词尾 符号 DF1 . 复数后缀 . 符号 DF4 DF5 复数后缀 一 . . BLS9BLSIO BLS11 童 . BLT15 ’BLT16 BLT17 DF2 DF3 . ^J. 4 . DF6 j . . BLSI2 . 4哈语基本名词短语识别系统 4.1语料的选取 3哈语基本名词短语规则集的建立 结合以上哈语基本名词短语的组成结构规则和构形附加 成分集,建立了哈语基本名词短语规则集,形式化表示如下: RO1 n+13[ALl I AL2 f AL3 I AL4 I AL5 I AL6]+n[BLF1 I BLF2 I BLF3I BLF4I BLF5l BLF6l BLF7I BLs8I BLS9l BLslOI BLS1l I BLSl21 本文采用新疆日报(哈语版)2008年1月份31天的数据 统计(电子版3O万多词)作为语料库。其中包括31天未作词 性标注的TXT文件和对应31天已作词性标注和构形附加成 分切分的XML文件。以3l天的TXT文件作为测试语料库进 第l2期 孙瑞娜,等:基于规则的哈萨克语基本名词短语识别研究 标注及附加成分切分错误时而出现。 ・45l3・ 行基本名词短语标注,以对应31天的XML文件作为训练语料 库进行识别所需信息提取。 4.2系统结构 b)由于初次进行哈萨克语短语级别的研究,没有实验先 例,目前还没有能力为基本名词短语标注提供必要的语义信 息,难以避免产生歧义结构。 c)基本名词短语构成规则有待完善。 首先对测试语料库进行文本粗切分,作为输入,常见的切 分标志为分号、逗号、句号、感叹号、问号。再对训练语料库进 行信息提取,提取对测试语料库输入文本作基本名词短语识 别时所需的三个信息,即词性(pos)、构形附加成分(affix)和 单词(word)。最后在规则集中寻找匹配规则,匹配成功,对 输入文本加入边界信息及“np”标注符。系统结构如图2 所示。 图2哈语基本名词短语识别系统结构图 4.3基本名词短语识别过程 由哈语基本名词短语组成结构来看,最短为两个词的组 合,最长为三个词的组合。根据规则集特征,作二次匹配,具体 过程如下: a)对输入的经过切分的测试语料,按哈语语序从右向左 扫描,依次读取三个词长的字符串。 b)从XML文件中提取三个词对应的词性序列,先与规则 集中词性组合规则相匹配,若匹配成功,则从规则集中选取此 规则。转e)。 c)若匹配失败,则把该词长减1,取两个词长的词性序列 与规则集中词性组合规则相匹配,成功转则e)。 d)若匹配失败,转f)。 e)从XML文件中进一步提取对应词的构形附加成分序列 与所选取规则中的构形附加成分相匹配,若匹配成功,则在测 试语料库中对该字符串加入基本名词短语边界及“np”标注 符,程序指针向左移动,移动个数为匹配成功词长的字符串数, 继续a),若匹配失败转f)。 f)程序的指针向右移动,指向所取词长中第二个词的首字 符处,转a)。 5实验结果及分析 5.1 实验结果 利用基于规则的方法,采用c#编写,实现了哈语基本名词 短语识别系统,对30万词级的哈语语料库作了基本名词短语 标注,建立了哈语基本名词短语库。此识别系统的界面分别 为:基本名词短语标注界面如图3所示,正确识别的基本名词 短语抽取界面如图4所示。 系统从30万词级语料库中随机抽取14天的新疆日报 (1.78 MB)分别进行测试,统计了对每篇日报标注出的基本名 词短语数和正确标注的基本名词短语数,测试结果如图5所 示。共标出15 119条基本名词短语。其中标注正确的词有 12 219条,准确率为80.8%。 5.2分析 从实验结果来看,识别方法基本令人满意,但精确率尚需 近一步提高。该方法还不能达到较高的识别率,主要原因有: a)目前语料库加工的校验工作未能跟上,录入错误、词性 图3哈语基本名词短语标注界面 。 器桀最 幡醐 留 加 m 8 6 4 2 图∞∞∞∞∞∞∞∞∞∞∞ 4正确识别的哈语基本名词短语抽取界面 1 3 5 8 11 14 l6 l9 2l 23 26 27 29 31 新疆日报2008年1月份抽取日期 图5抽取语料的测试结果 6结束语 本文分析并实现了哈语基本名词短语的识别方法,建立了 基本名词短语库,使哈语语料库的加工处理提升到了一个新的 层次,为今后建立一个面向信息处理的哈语语义分类和描述体 系,提供了必要的前提条件。该实验方法从哈语最本质的特 征出发,从宏观上总结出一些规则,比较直观地表达了哈语基 本名词短语组合规律,但该方法在很大程度上依赖于训练语料 库标注的准确性和规则库的完备性。因此,下一步将更新训练 语料库文本,进一步完善基本名词短语构成规则库,研究哈语 动词短语的自动识别、以及基本名词短语规则的歧义消除方 法,并尝试规则和统计相结合的方法,提高哈语基本名词短语 识别系统的效率。 参考文献: [1]ABNEY S.Parsing by chunks[M]//BERWICK P,ABNEY S,TEN— NY C.Principle—based parsing.Dordrecht:Kluwer Academic Pub— lishers,1991:257—278. (下转第4516页) ・4516・ 计算机应用研究 第27卷 幅值的大小可根据不同信号进行调整,可以奇异值矩阵中出现 明显的奇异值对为标准,加入引导信号后的频谱及奇异值分布 如图4所示,从图中可以看出加入引导信号后,50 Hz频率成 分成为信号中的主成分,这样就很容易在奇异值分布图中找到 对应的一对奇异值(即Or,、or ),把奇异值矩阵中or 、or 除掉 中频率成分频谱幅值的不同把频率成分分离到不同的空间,除 掉相应奇异值就可以滤除相应频率成分。由于采集的信号总 是包含很多频率成分,要分离的频率频谱幅值可能与其他频率 成分相同,而且随着频率的增多,构造Hankel矩阵进行SVD后 相应的频率成分所对应的奇异值更加难以区分,因此提出往信 后重构信号便可以去除原始信号中的50 Hz工频干扰。 趔500 ×10' 号中加入某一频率正弦型信号作为引导信号,这样可以方便找 出该频率成分对应的奇异值,除掉该奇异值也同时滤除了加入 的引导信号成分。通常用数字滤波器方法设计陷波滤波器时, 为了达到一定的陷波深度,陷波的带宽也会被拉宽,这样周围 的频率就会受到影响而使陷波效果变差,这对于脑磁、脑电等 攀_500o 采样点 (a)MEG{ ̄号的时域分布图 襄 ! 0 20 ,工二] , ] 40 60 80 100 囊; —————] (b)^d[EG信号的频谱分布图 15000 特征频率覆盖了工频干扰频率的敏感信号是极大的损失。而 本文提出的方法不受该限制,这就为信号后期的特征提取和模 式分类提供了更好的数据。此外,该方法也可用于多个频点同 时陷波处理,只需加入不同频谱幅值的引导信号,消除相应的 奇异值序列i j型10000 案5000 h 奇异值后再重构信号即可。 参考文献: [1]张克南,陆扬,谢里阳,等.基于SVD方法的弱故障特征提取方法 [J].机床与液压,20O6(10):214-216. [2]赵学智,叶邦彦.SVD和小波变换的信号处理效果相似性及其机 理分析[J].电子学报,2008,36(8):1582-1589. [3]AKRITAS A G,MALASCHONOK G I.Applications of singular・value 高 信i钋布 图4加A.5o Hz正弦信号后的频谱 图 3 MEG ’加 黧 信号的时域频谱 国 及奇异 藩旧刚 喝仪司开咀刀 口因 圆 、以及奇异值分布图 图5为传统数字滤波器陷波和本文方法进行陷波结果进 行比较,可以看出,虽然数字滤波器也把5O Hz频率滤除,但是 由于要达到该陷波深度,产生了一定的陷波带宽,使得50 Hz 频率周围的其他频率成分也同时被削弱,这对后续的信号分析 处理是极其不利的。而本文提出的方法仅滤除了5O Hz的频 decomposition(SVD)[J].Mathematics and Computers in Simu- lation,2004,67(1):l5—31. 率部分,周围的频率成分很好地被保留了下来,达到了非常好 的陷波效果。 3 ———————] 3 一—————一 [4]张波,李健君.基于Hankel矩阵与奇异值分解(SVD)的滤波方法 以及在飞机颤振试验数据预处理中的应用[J].振动与冲击, 2009,28(2):162—166. { :. :0 20 40 60 80 100 0 20 40 60 80 100 { [5]胡卫红,舒泓,栾宇光.基于奇异值分解的电能质量信号去噪[J]. 电力系统保护与控制,2010,38(2):30—33. (a)原MEG信号的频谱图 (b)数字滤波器陷波后的频谱图 [6]SHIN K,FERADAY S A,HARRIS C J,BRENNAN M J.Optimal au— toregressive modelling of a measured noisy deterministic signal using 2 , ———]{ j ~ singular-value decomposition[J].Mechanical Systems and Signal Processing,2003,17(2):423-432. (c)本文方法陷波后的频谱图 图5数字滤波器陷波效果与本文提出方法陷波效果比较 [7]WEI J J,CHANG C J,CHOU N K.ECG data compression using truncated singular value decomposition[J].IEEE Trans on Infor- mation Technology in Biomedicine,2001,5(4):29O一299. 4结束语 将Hankel矩阵与SVD相结合进行信号陷波的方法完全 不同于传统使用滤波器的陷波方法,本文提出方法根据在信号 [8]张丽艳,殷福亮.一种改进的奇异值分解语音增强方法[J].电子 与信息学报,2008,30(2):357.361. (上接第4513页) [7]周强.汉语短语的自动划分和标注[J].中文信息学报,1997,11 (1):1—10. [2]周强,孙茂松,黄昌宁.汉语最长名词短语的自动识别[J].软件学 报,2000,11(2):195—201. [8]涂云杰,郑家恒.基于规则的汉语短语标注探讨[J].山西大学学 [3]张昱琪,周强.汉语基本短语的自动识别[J].中文信息学报, 2002,16(6):1—8. 报:自然科学版,2002,25(4):301-304. [9]梁颖红,赵铁军,姚建明,等.基于混合策略的英语基本名词短语 识别——边界统计和词性串规则校正相结合的策略(J].计算机 工程与应用,2004,40(35):1—3. [4]华沙宝,达胡白乙拉.对蒙古语语料库基本名词短语的定界与统 计分析[J].中文信息学报,2005,19(5):52—58. [5]李荣,郑家恒,郭梅英.基于遗传算法的隐马尔可夫模型在名词短 [10]胡乃全,朱巧明,周国栋.混合的汉语基本名词短语识别方法 [J].计算机工程,2009,35(20):199.201. 语识别中的应用研究[J].计算机科学,2009,36(10):244—246. [6]CHRUCH K W.A stochasti6 parts program and noun phrase for unre— stifcted test[c]//Proc of the 2nd Conference Oil Applied Naturla Language Processing.Morristown,NJ:Association for Computational Linguistics,1998:136—143. [11]张定京.现代哈萨克语实用语法[M].北京:中央民族大学出版 社.2004. [12]杨凌.现代哈萨克语结构研究[M].鸟鲁木齐:新疆大学出版社, 2002