基于规则的哈萨克语基本名词短语识别研究

2023-08-05 来源：钮旅网

第２７卷第１２期　计算机应用研究　Ｖｏｌ｜２７　Ｎｏ．１２　２０ｌ０年１２月　Ａｐｐｌｉｃａｔｉｏｎ　Ｒｅｓｅａｒｃｈ　ｏｆ　Ｃｏｍｐｕｔｅｒｓ　Ｄｅｃ．２０１０　基于规则的哈萨克语基本名词短语识别研究　孙瑞娜，古丽拉・阿东别克　（新疆大学信息科学与工程学院，乌鲁木齐８３００４６）　摘要：以哈萨克语基本名词短语识别为目标，采用基于规则的方法，从基本名词短语结构语法模型出发，利用　哈萨克语基本名词短语的词性标记信息及构形附加成分信息，建立了基本名词短语规则集，设计了哈萨克语基　本名词短语自动识别系统，实现了对３Ｏ万词级哈萨克语语料库的基本名词短语标注。实验结果表明，该方法可　行。识别精确率达到８Ｏ．８％。　关键词：语料库；基本名词短语；哈萨克语；短语结构；规则　中图分类号：ＴＰ３９１　文献标志码：Ａ　文章编号：１００１—３６９５（２０１０）１２—４５１１一Ｏ３　ｄｏｉ：１０．３９６９／ｊ．ｉｓｓｎ．１００１—３６９５．２０１０．１２．０３３　Ｋａｚａｋｈ　ｂａｓｉｃ　ｎｏｕｎ　ｐｈｒａｓｅ　ｒｅｃｏｇｎｉｔｉｏｎ　ｂａｓｅｄ　ｏｎ　ｒｕｌｅｓ　ＳＵＮ　Ｒｕｉ—ｎａ，ＧＵＬＩＬＡ・Ａｌｔｅｎｂｅｋ　（Ｃｏｌｌｅｇｅ　ｏｆ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｓｃｉｅｎｃｅ＆Ｅｎｇｉｎｅｅｒｉｎｇ，Ｘｉｎｊｉａｎｇ　Ｕｎｉｖｅｒｓｉｔｙ，Ｕｒｕｍｑｉ　８３００４６，Ｃｈｉｎａ）　Ａｂｓｔｒａｃｔ：Ｔｈｅ　ａｉｍｓ　ａｔ　ｔｈｅ　ｉｄｅｎｔｉｉｆｃａｔｉｏｎ　ｏｆ　Ｋａｚａｋｈ　ｂａｓｉｃ　ｎｏｕｎ　ｐｈｒａｓｅ，ｕｓｉｎｇ　ｔｈｅ　ｍｅｔｈｏｄ　ｂａｓｅｄ　ｏｎ　ｔｈｅ　ｒｕｌｅｓ　ａｎｄ　Ｋａｚａｋｈ　ｂａｓｉｃ　ｎｏｕｎ　ｐｈｒａｓｅ　ｐａｒｔ—ｏｆ－ｓｐｅｅｃｈ　ｔａｇ　ｉｎｆｏｒｍａｔｉｏｎ　ａｎｄ　ｔｈｅ　ａｄｄｉｔｉｏｎａｌ　ｃｏｍｐｏｎｅｎｔ　ｃｏｎｆｉｇｕｒａｔｉｏｎ　ｉｎｆｏｒｍａｔｉｏｎ，ｓｔａｒｔｉｎｇ　ｆｒｏｍ　ｔｈｅ　ｂａｓｉｃ　ｎｏｕｎ　ｐｈｒａｓｅ　ｓｔｒｕｃｔｕｒｅ　ｇｒａｍｍａｒ　ｍｏｄｅｌ，ｅｓｔａｂｌｉｓｈｅｄ　ａ　ｂａｓｉｃ　ｎｏｕｎ　ｐｈｒａｓｅ　ｒｕｌｅ　ｓｅｔ，ｄｅｓｉｇｎｅｄ　ａｕｔｏｍａｔｉｃ　ｉｄｅｎｔｉｆｉｃａｔｉｏｎ　ｓｙｓｔｅｍ　ｏｆ　Ｋａ—　ｚａｋｈ　ｗｈｉｃｈ　ｃｏｕｌｄ　ｃｏｍｐｌｅｔｅ　ｔａｇｇｉｎｇ　ｔｈｅ　ｂａｓｉｃ　ｎｏｕｎ　ｐｈｒａｓｅ　ｏｆ　３００　０００　ｗｏｒｄｓ　ｃｏｒｐｕｓ　Ｋａｚａｋｈ．Ｅｘｐｅｒｉｍｅｎｔａｌ　ｒｅｓｕｌｔｓ　ｓｈｏｗ　ｔｈａｔ　ｔｈｅ　ｍｅｔｈｏｄ　ｉｓ　ｆｅａｓｉｂｌｅ．ａｎｄ　ｔｈｅ　ｐｒｅｃｉｓｉｏｎ　ｉｓ　８０．８％．　Ｋｅｙ　ｗｏｒｄｓ：ｃｏｒｐｕｓ；ｂａｓｉｃ　ｎｏｕｎ　ｐｈｒａｓｅ；Ｋａｚａｋｈ；ｐｈｒａｓｅ　ｓｔｒｕｃｔｕｒｅ；ｒｕｌｅｓ　近年来，基本名词短语识别作为自然语言浅层句法分析的　０１３条哈语基本名词短语的短语库，为开发具有语法功能的自　重要任务之一，在自然语言研究领域越来越受到重视，基本名　动校对系统，完成哈语短语、句子相似度计算等应用系统提供　词短语的识别与分析对机器翻译、信息检索、文本处理和句法　重要信息源。　分析均具有重要作用。目前，随着哈萨克语（简称哈语）信息　处理研究的进展，对哈语语料库标注加工的研究，已基本完成　１　哈语基本名词短语特征　了词处理阶段上的标注，而对哈语短语级标注方法的研究还未　哈语基本名词短语是由语义上能够搭配的两个或两个以　开始，这使得建立大规模实用的哈语熟语料库的目标很难实　上的实词带人表达某种结构关系的词组模式得出的句法单位。　现，对哈语标注语料库在信息处理中的应用成为限制。现阶段　哈语作为一种典型的黏着性语言，单词是通过在词干后按一　系统研究短语内部结构特征，完成对哈语语料库短语级的标　定的顺序连接各种词缀（又称构形附加成分）来构成的，除了　注，是继续进行语料库深加工、建立大规模树库和其他语言知　从外来语引进的词前缀外，语言本身不存在词前缀，而且，哈　识库的先决条件。汉语、英语等其他语言的信息处理实践也证　实了这一点　Ｊ。对此，本文通过对哈语短语类型中基本名词　语中各类后缀的连接有严格的规律可循。因此，哈语的各种　短语的划分和标注研究，展开哈语短语级别的研究。　词后缀对基本名词短语识别率的提高有重要意义。所以，哈　文献［６］将英语基本名词短语定义为简单的非嵌套的名　语基本名词短语的识别研究是在哈语经过词性标注和构形　词短语，即一个基本名词短语内部不能再包含有更小的名词短　附加成分切分的ＸＭＬ文件组成的语料库上进行的探索性　语。本文参考英语的定义，将哈语基本名词短语定义为非嵌套　研究。　的名词短语，参考英语和汉语短语的研究成果”　，并根据哈　２哈语基本名词短语内部构成规则　语自身的特点，从哈语基本名词短语句法属性人手，对哈语基　本名词短语的结构和功能进行比较深入的研究，归纳出了哈语　通过分析语料库，结合《现代哈萨克语实用语法》…　《现　基本名词短语标注规则的基本结构，提出了１６个相应的形式　代哈萨克语结构研究》　，发现哈语的词类信息是构成基本名　化描述规则群体，根据这些规则，设计了哈语基本名词短语识　词短语的最重要因素。因此，本文以词类信息的词性及构形附　别系统，对３０万词级哈语语料库作了基本名词短语标注，并从　加成分为核心，再附加一些限定条件，分析了哈语基本名词短　识别结果中除去标错的条目，合并相同的条目，建立了包含２２　语内部构成规则。　收稿日期：２０１０—０５—１０；修回日期：２０１０—０６．３０　基金项目：国家自然科学基金资助项目（６０７６３００５，６１０６３０２５，６０７６３００５）；国家教育部、　国家语委民族语言文字规范标准建设及信息化科研项目（ＭＺ１１５－９２）　作者简介：孙瑞娜（１９８２．），女，安徽阜阳人，助教，硕士研究生，主要研究方向为自然语言信息处理、计算机应用（ｓｒｎ３０４＠ｓｉｎａ．ｅｏｍ）；古丽拉‘　阿东别克（１９６２一），女（通信作者），教授，博导，主要研究方向为自然语言信息处理、人工智能．　・４５１２・　计算机应用研究　ＢＬＳ１３｝Ｂ　ｌ４ＩＢＬＴｌ５ｌ　ＢＬＴ１６ｌＢＴＪＴ１７　１　第２７卷　２．１　哈语基本名词短语组成结构　在基本名词短语组成结构出现的词性标记中，采用基于　ＸＭＬ文件的哈语语料库词性（ｐｏｓ）标注符号，即ｖ动词，ｎ名　词，ａｄｊ形容词，ｐｒｅｐ介词，ｏｎｏ相声词，ｐｒｏｎ代词，ｉｎｔ感叹　词，ｃｏｎｊ连词，ｒｔｕｍ数词，ａｄｖ副词，［］词性不明。本文将基　本名词短语的结构关系从语料库中提取出来，用统计归纳的方　法，总结出１０个基本结构：ａ）ｎ＋ｎ；ｂ）ｎ＋ｃｏｎｊ＋ｎ；ｃ）ｐｒｏｎ＋　ｅｏｎｊ＋ｐｒｏｎ；ｄ）ｐｒｏｎ＋ｎ；ｅ）ａｄｊ＋ｅｏｎｊ＋ａｄｊ；ｆ）ａｄｊ＋ｉ＇１；ｇ）ａ（Ｉｊ＋　１１０２　ｎ［ＡＬｌｌＡＩ２ＩＡＬ３ＩＡＬ４ｌＡＬ５ｌＡＬ６］＋ｎ［ＢＬＦ１ｌＢＬＦ’２Ｉ　ＢＬＦ３Ｉ　ＢＬＦ４ＩＢＵ１５ｌＢＬＦ６Ｉ　ＢＬＦ７ｌＢＬＳ８ｌＢＬｓ９ｌ　ＢＬＳ１Ｏｌ　ＢＬＳ１ｌｌＢＩＳｌ２Ｉ　ＢＬＳ１３Ｉ　ＢＩ　１４｝Ｂ王　１５ｌＢ【』Ｔ１６ＩＢＬ　１７　ｌ　Ｒ０３　ｎ『ＣＮ１　Ｉ　ＣＮ２　Ｉ　ＣＮ３　Ｉ　ＣＮ４　Ｉ　ＣＮ５　Ｊ　ＣＮ６　Ｉ　ＣＮ７　ｌ　ＣＮ８　Ｉ　ＣＮ９］＋ｎ　　ｌＢＬＦ１　ｌ　ＢＬＦ２Ｉ　ＢＬＦ３　Ｉ　ＢＩ　Ｆ４　ｌ　ＢＬＦ５　ｌ　ＢＬＦ６　ｌ　ＢＬＦ７　Ｉ　ＢＬＳ８　Ｉ　ＢＬＳ９　Ｉ　ＢＬＳ１Ｏ　ｌ　ＢＩ　１１ＩＢＬＳ１２ＩＢＩＳ１３ＩＢＩＪＴｌ４ｌＢ【　１５ＩＢ【　ｌ６ＩＢＩ　１７］　Ｒ０４　ｎ『ＣＴ１　ＩＣ１２］＋ｎ『Ｃ１３１　ＲＯ５　ｎ　４－ＥＣ１　Ｊ　ＥＣ２　Ｊ　ＥＣ３｛ＥＣ４｛ＥＣ５＋ｎ　ａｄｖ＋ｎ；ｈ）ｎｕｌｎ＋ｎ；ｉ）ｖ＋ｎ；ｊ）［］＋ｎ。　结合哈语语法知识，基本名词短语中的连接助词也有规律　可循，且对基本名词短语的正确识别起到一定作用，因此本文　归纳出了基本名词短语中的五种连接助词（ｃｏｎｊ），并制定了相　应的符号标记：ＥＣ１：　和ＥＣ５：　。　Ｒ０６　ｎ＋ｎＩ　ＢＬＦ１　Ｉ　ＢＩ　Ｉ　ＢＬＦ３　Ｉ　ＢＬＦ４　ｌ　ＢＬＦ５　Ｉ　ＢＬＦ６　ｌ　ＢＬＦ７　ｌ　ＢＬＳ８　Ｉ　ＢＬＳ９ｌＢＩ５１０Ｉ　ＢＬＳｎＩＢＩＳ１２ＩＢＩＳ１３Ｉ　Ｂ【ＪＴ１４Ｉ　ＢＬＴ１５Ｉ　ＢＬＴ１６Ｉ　ＢＩ　ｌ７］　１ｔ０７　ｐｒｏｎ＋ＥＣ１　Ｉ　ＥＣ２｝ＥＣ３Ｉ　ＥＣ４Ｉ　ＥＣ５＋ｐｒｏｎ　Ｒ０８　ｐｒｏｎ＋ｎ『ＢＬＦ１ｌＢＬＦ２ＩＢＬＦ３ＩＢＬＦ４ＩＢＬＦ　ＩＢＬＦ６ｌＢＩ　Ｆ７ＩＢＬＳ８ｌ　ＢＬＳ９ｌＢＩＳ１０ＩＢＬＳｌｌＩＢＬＳｌ２ＩＢＬＳ１３Ｉ　ＢＩ　ｌ４ｆ　ＢＩＪＴ１５ｌ　ＢＩ』Ｔ１６ｌ　ＢＩＪＴ１７］　、ＥＣ２：　婶、ＥＣ３：　、ＥＣＡ：　Ｒ０９　ｐｒｏｎ［ＡＬｌＩＡＩ２ＩＡ　ＩＡＬ４ｌＡＬ５ＩＡＩＪ６］＋ｎ［ＢＬＦ１ｌＢＬＦ２ＩＢＬｆ３Ｉ　ＢＬＦ４ｌＢＬＦ５ＩＢＬＦ６ＩＢＬＦ７ＩＢＬＳ８ｌＢ　ｌＢＬＳ１ＯｌＢＬＳｌｌｌＢＬＳｌ２ＩＢＩ　Ｓ３Ｉ　ＢＬＴ１４ｌＢＬＴ１５ＩＢＬＴ１６ＩＢＬＴｌ７　Ｉ　２．２哈语基本名词短语构形附加成分　Ｒ１０　ａｄｉ＋ＥＣ１＋ａｄｉ　根据哈语单词结构特点，各种构形附加成分在组成基本名　词短语时的变化特征对基本名词短语的正确识别有非常重要　的作用。图１为哈语中四种构形附加成分的连接规则。　Ｒ１１　ａｄｉ＋ｎＩ　ＢＬＦ１　Ｉ　ＢＬＦ２　Ｉ　ＢＬＦ３　ｌ　ＢＬＦ４　Ｉ　ＢＬＦ５　Ｊ　ＢＬＦ６　Ｉ　ＢＬＦ７　Ｉ　ＢＬＳ８　ｌ　ＢＬｓ９｝ＢＫＳ１０｝ＢＩ５ｌ１　ｌＢＬＳｌ２ＩＢＬＳ１３ＩＢＩ．Ｔ１４ＩＢ【　ｌ５ＩＢ【ＩＴ１６Ｉ　ＢＩＪＴ１７　ｌ　Ｒ１２　ｖ＋ｎＩ　ＢＩ　１ＩＢＬＦ２ｌＢＬＦ３ＩＢＬＦ４ＩＢＬＦ５ｌＢＬＦ６ｌＢＩ　■ＩＢＬＳ８ＩＢＬＳ９ｌ　ＢＬＳ１０ＩＢＬＳ１１　ｌＢＩ５ｌ２ＩＢＬＳｌ３ＩＢＩＪＴ１４Ｉ　Ｂ【　ｌ５ｌ　ＢＩＪＴ１６ｌ　ＢＩＪＴｌ７　ｌ　Ｒ１３　ｎ＋ｖ『ＡＵＩＡＬ２ＩＡＬ３ＩＡ　ＩＡ　ｌＡＬ６１＋ｎ『ＢＬＦｌＩＢＬＦ２ＩＢＬＦ３Ｉ　ＢＬＦ４ｌＢＬＦ５　Ｉ　ＢＵ１６　ｌ　ＢＬＦ７　ｌ　ＢＬＳ８　Ｉ　ＢＬｓ９　Ｉ　ＢＬｓｌ０Ｉ　ＢＬＳｌ１　Ｉ　ＢＩｓ１２　Ｉ　ＢＩＪｓ１３　ｌ　ＢＬＴ１４ＩＢＬＴ１５　ＪＢＩ　ｌ６　ＪＢＩ　１７　Ｊ　【格式附加成分Ｊｏｒ［领属性附加成分ｊｏｒ［附属附加成分ｊｏｒ　ｌ词干］Ｏｒ［词前缀ｊ　Ｒ１４　ａｄｖ＋ａｄｊ＋ｎ『ＢＩ　１　Ｉ　ＢＬＦ２　Ｉ　ＢＬＦ３　Ｉ　ＢＬＦ４　ｌ　ＢＬＦ５　Ｉ　ＢＬＦｌ６　ｌ　ＢＬＦ７　Ｉ　ＢＬＳ８ＩＢＬＳ９　Ｉ　ＢＬＳ１０　ｌ　ＢＩ５１１　Ｉ　ＢＬＳ１２　ｌ　ＢＬＳｌ３　Ｉ　ＢＩ｜Ｔ１４　ｌ　Ｂ【．Ｔｌ５　Ｉ　ＢＩＪＴｌ６　ｌ　图ｌ　哈语中四种构形附加成分的连接规则　图１中构形附加成分中的词前缀都是外来的，数量少，在　基本名词短语识别中没有意义，在此可以不予考虑。重点统计　分析了基本名词短语构形附加成分中的后缀和词尾，制定了相　应的符号标记，建立了基本名词短语构形附加成分集，如表１　～Ｂ【ＪＴ１７ｌ　Ｒ１５　ｎｕｍ＋ｎ『ＢＩＪＦ１　ＩＢＩ　Ｆ２ＩＢＬＦ３Ｉ　ＢＬＦ４ＩＢＩ　ｌＢＩ　Ｆ６ｌＢＬＦ７ｌＢＩＳ８Ｉ　ＢＬＳ９ｌＢＬＳ１ＯｌＢＬＳ１１　ＩＢＬＳｌ２ｌＢＬＳ１３ＩＢＩ．Ｔ１４ＩＢ【　ｌ５ＩＢ【　ｌ６ｌ　Ｂ工　ｌ７１　Ｒｌ６『１＋ｎ『ＢＬＦ１　Ｉ　ＢＬＦ２ｌＢＬＦ３ｌ　ＢＩ．　１４Ｉ　ＢＬＦ５　ＪＢＬＦ６ｌＢＬＦ７ＩＢＩ　Ｓ８Ｉ　ＢＬＳ９ｌＢＬＳ１ＯｌＢＬＳ１１ｌＢＬＳｌ２ｌＢＬＳ１３ｌＢＩ．Ｔ１４ｌＢ【　１５ＩＢ１．Ｔｌ６Ｉ　ＢＬＩＴ１７］　４所示。　表１哈语基本名词短语构形附加成分（一）　符号　ＡＩ』　表３哈语基本名词短语构形附加成分（三）　符号　名词性后缀　符号　名词性后缀　领属格词尾　．　符号　ＢＬＦ１　领属人称词尾　．　ＣＮ１　　．　＿Ｊ—　ＣＮ７，ｋ　ＣＮ８　ＣＮ９　Ａ工２　．纛Ｉ；　．　ＢＬＦ２，　‘．ＣＮ２　ＣＮ３　ｔ奠　．　｜　．　ＡＬ３　ＡＩＡ　ＡＬ５　ＡＬ６　ｂ　．　．　ＢＩ．Ｆ３　ＢＬＦ４　一　．　．　ＣＮ４　．　ＣＴ１　ｊ　．　．　￣Ｊ，３ｔｓ．　。　．　．　ＢＬＦ５　ＢＬＦ６　．　ＣＮ５　．　≯　ＣＴ２ＣＴ３　；　，Ｌ‘Ｊ　．　ＣＮ６　表２哈语基本名词短语构形附加成分（二）　表４哈语基本名词短语构形附加成分（四）　符号　ＢＬＦ７　ＢＬＳ８　领属人称词尾　．　符号　ＢＬＳ１３　ＢＬＴ１４　领属人称词尾　符号　ＤＦ１　．　复数后缀　．　符号　ＤＦ４　ＤＦ５　复数后缀　一　．　．　ＢＬＳ９ＢＬＳＩＯ　ＢＬＳ１１　童　．　ＢＬＴ１５　’ＢＬＴ１６　ＢＬＴ１７　ＤＦ２　ＤＦ３　．　＾Ｊ．　４　．　ＤＦ６　ｊ　．　．　ＢＬＳＩ２　．　４哈语基本名词短语识别系统　４．１语料的选取　３哈语基本名词短语规则集的建立　结合以上哈语基本名词短语的组成结构规则和构形附加　成分集，建立了哈语基本名词短语规则集，形式化表示如下：　ＲＯ１　ｎ＋１３［ＡＬｌ　Ｉ　ＡＬ２　ｆ　ＡＬ３　Ｉ　ＡＬ４　Ｉ　ＡＬ５　Ｉ　ＡＬ６］＋ｎ［ＢＬＦ１　Ｉ　ＢＬＦ２　Ｉ　ＢＬＦ３Ｉ　ＢＬＦ４Ｉ　ＢＬＦ５ｌ　ＢＬＦ６ｌ　ＢＬＦ７Ｉ　ＢＬｓ８Ｉ　ＢＬＳ９ｌ　ＢＬｓｌＯＩ　ＢＬＳ１ｌ　Ｉ　ＢＬＳｌ２１　本文采用新疆日报（哈语版）２００８年１月份３１天的数据　统计（电子版３Ｏ万多词）作为语料库。其中包括３１天未作词　性标注的ＴＸＴ文件和对应３１天已作词性标注和构形附加成　分切分的ＸＭＬ文件。以３ｌ天的ＴＸＴ文件作为测试语料库进　第ｌ２期　孙瑞娜，等：基于规则的哈萨克语基本名词短语识别研究　标注及附加成分切分错误时而出现。　・４５ｌ３・　行基本名词短语标注，以对应３１天的ＸＭＬ文件作为训练语料　库进行识别所需信息提取。　４．２系统结构　ｂ）由于初次进行哈萨克语短语级别的研究，没有实验先　例，目前还没有能力为基本名词短语标注提供必要的语义信　息，难以避免产生歧义结构。　ｃ）基本名词短语构成规则有待完善。　首先对测试语料库进行文本粗切分，作为输入，常见的切　分标志为分号、逗号、句号、感叹号、问号。再对训练语料库进　行信息提取，提取对测试语料库输入文本作基本名词短语识　别时所需的三个信息，即词性（ｐｏｓ）、构形附加成分（ａｆｆｉｘ）和　单词（ｗｏｒｄ）。最后在规则集中寻找匹配规则，匹配成功，对　输入文本加入边界信息及“ｎｐ”标注符。系统结构如图２　所示。　图２哈语基本名词短语识别系统结构图　４．３基本名词短语识别过程　由哈语基本名词短语组成结构来看，最短为两个词的组　合，最长为三个词的组合。根据规则集特征，作二次匹配，具体　过程如下：　ａ）对输入的经过切分的测试语料，按哈语语序从右向左　扫描，依次读取三个词长的字符串。　ｂ）从ＸＭＬ文件中提取三个词对应的词性序列，先与规则　集中词性组合规则相匹配，若匹配成功，则从规则集中选取此　规则。转ｅ）。　ｃ）若匹配失败，则把该词长减１，取两个词长的词性序列　与规则集中词性组合规则相匹配，成功转则ｅ）。　ｄ）若匹配失败，转ｆ）。　ｅ）从ＸＭＬ文件中进一步提取对应词的构形附加成分序列　与所选取规则中的构形附加成分相匹配，若匹配成功，则在测　试语料库中对该字符串加入基本名词短语边界及“ｎｐ”标注　符，程序指针向左移动，移动个数为匹配成功词长的字符串数，　继续ａ），若匹配失败转ｆ）。　ｆ）程序的指针向右移动，指向所取词长中第二个词的首字　符处，转ａ）。　５实验结果及分析　５．１　实验结果　利用基于规则的方法，采用ｃ＃编写，实现了哈语基本名词　短语识别系统，对３０万词级的哈语语料库作了基本名词短语　标注，建立了哈语基本名词短语库。此识别系统的界面分别　为：基本名词短语标注界面如图３所示，正确识别的基本名词　短语抽取界面如图４所示。　系统从３０万词级语料库中随机抽取１４天的新疆日报　（１．７８　ＭＢ）分别进行测试，统计了对每篇日报标注出的基本名　词短语数和正确标注的基本名词短语数，测试结果如图５所　示。共标出１５　１１９条基本名词短语。其中标注正确的词有　１２　２１９条，准确率为８０．８％。　５．２分析　从实验结果来看，识别方法基本令人满意，但精确率尚需　近一步提高。该方法还不能达到较高的识别率，主要原因有：　ａ）目前语料库加工的校验工作未能跟上，录入错误、词性　图３哈语基本名词短语标注界面　。　器桀最　幡醐　留　加　ｍ　８　６　４　２　图∞∞∞∞∞∞∞∞∞∞∞　４正确识别的哈语基本名词短语抽取界面　１　３　５　８　１１　１４　ｌ６　ｌ９　２ｌ　２３　２６　２７　２９　３１　新疆日报２００８年１月份抽取日期　图５抽取语料的测试结果　６结束语　本文分析并实现了哈语基本名词短语的识别方法，建立了　基本名词短语库，使哈语语料库的加工处理提升到了一个新的　层次，为今后建立一个面向信息处理的哈语语义分类和描述体　系，提供了必要的前提条件。该实验方法从哈语最本质的特　征出发，从宏观上总结出一些规则，比较直观地表达了哈语基　本名词短语组合规律，但该方法在很大程度上依赖于训练语料　库标注的准确性和规则库的完备性。因此，下一步将更新训练　语料库文本，进一步完善基本名词短语构成规则库，研究哈语　动词短语的自动识别、以及基本名词短语规则的歧义消除方　法，并尝试规则和统计相结合的方法，提高哈语基本名词短语　识别系统的效率。　参考文献：　［１］ＡＢＮＥＹ　Ｓ．Ｐａｒｓｉｎｇ　ｂｙ　ｃｈｕｎｋｓ［Ｍ］／／ＢＥＲＷＩＣＫ　Ｐ，ＡＢＮＥＹ　Ｓ，ＴＥＮ—　ＮＹ　Ｃ．Ｐｒｉｎｃｉｐｌｅ—ｂａｓｅｄ　ｐａｒｓｉｎｇ．Ｄｏｒｄｒｅｃｈｔ：Ｋｌｕｗｅｒ　Ａｃａｄｅｍｉｃ　Ｐｕｂ—　ｌｉｓｈｅｒｓ，１９９１：２５７—２７８．　（下转第４５１６页）　・４５１６・　计算机应用研究　第２７卷　幅值的大小可根据不同信号进行调整，可以奇异值矩阵中出现　明显的奇异值对为标准，加入引导信号后的频谱及奇异值分布　如图４所示，从图中可以看出加入引导信号后，５０　Ｈｚ频率成　分成为信号中的主成分，这样就很容易在奇异值分布图中找到　对应的一对奇异值（即Ｏｒ，、ｏｒ　），把奇异值矩阵中ｏｒ　、ｏｒ　除掉　中频率成分频谱幅值的不同把频率成分分离到不同的空间，除　掉相应奇异值就可以滤除相应频率成分。由于采集的信号总　是包含很多频率成分，要分离的频率频谱幅值可能与其他频率　成分相同，而且随着频率的增多，构造Ｈａｎｋｅｌ矩阵进行ＳＶＤ后　相应的频率成分所对应的奇异值更加难以区分，因此提出往信　后重构信号便可以去除原始信号中的５０　Ｈｚ工频干扰。　趔５００　×１０＇　号中加入某一频率正弦型信号作为引导信号，这样可以方便找　出该频率成分对应的奇异值，除掉该奇异值也同时滤除了加入　的引导信号成分。通常用数字滤波器方法设计陷波滤波器时，　为了达到一定的陷波深度，陷波的带宽也会被拉宽，这样周围　的频率就会受到影响而使陷波效果变差，这对于脑磁、脑电等　攀＿５００ｏ　采样点　（ａ）ＭＥＧ｛￣号的时域分布图　襄　！　０　２０　，工二］　，　］　４０　６０　８０　１００　囊；　—————］　（ｂ）＾ｄ［ＥＧ信号的频谱分布图　１５０００　特征频率覆盖了工频干扰频率的敏感信号是极大的损失。而　本文提出的方法不受该限制，这就为信号后期的特征提取和模　式分类提供了更好的数据。此外，该方法也可用于多个频点同　时陷波处理，只需加入不同频谱幅值的引导信号，消除相应的　奇异值序列ｉ　ｊ型１００００　案５０００　ｈ　奇异值后再重构信号即可。　参考文献：　［１］张克南，陆扬，谢里阳，等．基于ＳＶＤ方法的弱故障特征提取方法　［Ｊ］．机床与液压，２０Ｏ６（１０）：２１４－２１６．　［２］赵学智，叶邦彦．ＳＶＤ和小波变换的信号处理效果相似性及其机　理分析［Ｊ］．电子学报，２００８，３６（８）：１５８２－１５８９．　［３］ＡＫＲＩＴＡＳ　Ａ　Ｇ，ＭＡＬＡＳＣＨＯＮＯＫ　Ｇ　Ｉ．Ａｐｐｌｉｃａｔｉｏｎｓ　ｏｆ　ｓｉｎｇｕｌａｒ・ｖａｌｕｅ　高　信ｉ钋布　图４加Ａ．５ｏ　Ｈｚ正弦信号后的频谱　图　３　ＭＥＧ　’加　黧　信号的时域频谱　国　及奇异　藩旧刚　喝仪司开咀刀　口因　圆　、以及奇异值分布图　图５为传统数字滤波器陷波和本文方法进行陷波结果进　行比较，可以看出，虽然数字滤波器也把５Ｏ　Ｈｚ频率滤除，但是　由于要达到该陷波深度，产生了一定的陷波带宽，使得５０　Ｈｚ　频率周围的其他频率成分也同时被削弱，这对后续的信号分析　处理是极其不利的。而本文提出的方法仅滤除了５Ｏ　Ｈｚ的频　ｄｅｃｏｍｐｏｓｉｔｉｏｎ（ＳＶＤ）［Ｊ］．Ｍａｔｈｅｍａｔｉｃｓ　ａｎｄ　Ｃｏｍｐｕｔｅｒｓ　ｉｎ　Ｓｉｍｕ－　ｌａｔｉｏｎ，２００４，６７（１）：ｌ５—３１．　率部分，周围的频率成分很好地被保留了下来，达到了非常好　的陷波效果。　３　———————］　３　一—————一　［４］张波，李健君．基于Ｈａｎｋｅｌ矩阵与奇异值分解（ＳＶＤ）的滤波方法　以及在飞机颤振试验数据预处理中的应用［Ｊ］．振动与冲击，　２００９，２８（２）：１６２—１６６．　｛　：．　：０　２０　４０　６０　８０　１００　０　２０　４０　６０　８０　１００　｛　［５］胡卫红，舒泓，栾宇光．基于奇异值分解的电能质量信号去噪［Ｊ］．　电力系统保护与控制，２０１０，３８（２）：３０—３３．　（ａ）原ＭＥＧ信号的频谱图　（ｂ）数字滤波器陷波后的频谱图　［６］ＳＨＩＮ　Ｋ，ＦＥＲＡＤＡＹ　Ｓ　Ａ，ＨＡＲＲＩＳ　Ｃ　Ｊ，ＢＲＥＮＮＡＮ　Ｍ　Ｊ．Ｏｐｔｉｍａｌ　ａｕ—　ｔｏｒｅｇｒｅｓｓｉｖｅ　ｍｏｄｅｌｌｉｎｇ　ｏｆ　ａ　ｍｅａｓｕｒｅｄ　ｎｏｉｓｙ　ｄｅｔｅｒｍｉｎｉｓｔｉｃ　ｓｉｇｎａｌ　ｕｓｉｎｇ　２　，　———］｛　ｊ　～　ｓｉｎｇｕｌａｒ－ｖａｌｕｅ　ｄｅｃｏｍｐｏｓｉｔｉｏｎ［Ｊ］．Ｍｅｃｈａｎｉｃａｌ　Ｓｙｓｔｅｍｓ　ａｎｄ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ，２００３，１７（２）：４２３－４３２．　（ｃ）本文方法陷波后的频谱图　图５数字滤波器陷波效果与本文提出方法陷波效果比较　［７］ＷＥＩ　Ｊ　Ｊ，ＣＨＡＮＧ　Ｃ　Ｊ，ＣＨＯＵ　Ｎ　Ｋ．ＥＣＧ　ｄａｔａ　ｃｏｍｐｒｅｓｓｉｏｎ　ｕｓｉｎｇ　ｔｒｕｎｃａｔｅｄ　ｓｉｎｇｕｌａｒ　ｖａｌｕｅ　ｄｅｃｏｍｐｏｓｉｔｉｏｎ［Ｊ］．ＩＥＥＥ　Ｔｒａｎｓ　ｏｎ　Ｉｎｆｏｒ－　ｍａｔｉｏｎ　Ｔｅｃｈｎｏｌｏｇｙ　ｉｎ　Ｂｉｏｍｅｄｉｃｉｎｅ，２００１，５（４）：２９Ｏ一２９９．　４结束语　将Ｈａｎｋｅｌ矩阵与ＳＶＤ相结合进行信号陷波的方法完全　不同于传统使用滤波器的陷波方法，本文提出方法根据在信号　［８］张丽艳，殷福亮．一种改进的奇异值分解语音增强方法［Ｊ］．电子　与信息学报，２００８，３０（２）：３５７．３６１．　（上接第４５１３页）　［７］周强．汉语短语的自动划分和标注［Ｊ］．中文信息学报，１９９７，１１　（１）：１—１０．　［２］周强，孙茂松，黄昌宁．汉语最长名词短语的自动识别［Ｊ］．软件学　报，２０００，１１（２）：１９５—２０１．　［８］涂云杰，郑家恒．基于规则的汉语短语标注探讨［Ｊ］．山西大学学　［３］张昱琪，周强．汉语基本短语的自动识别［Ｊ］．中文信息学报，　２００２，１６（６）：１—８．　报：自然科学版，２００２，２５（４）：３０１－３０４．　［９］梁颖红，赵铁军，姚建明，等．基于混合策略的英语基本名词短语　识别——边界统计和词性串规则校正相结合的策略（Ｊ］．计算机　工程与应用，２００４，４０（３５）：１—３．　［４］华沙宝，达胡白乙拉．对蒙古语语料库基本名词短语的定界与统　计分析［Ｊ］．中文信息学报，２００５，１９（５）：５２—５８．　［５］李荣，郑家恒，郭梅英．基于遗传算法的隐马尔可夫模型在名词短　［１０］胡乃全，朱巧明，周国栋．混合的汉语基本名词短语识别方法　［Ｊ］．计算机工程，２００９，３５（２０）：１９９．２０１．　语识别中的应用研究［Ｊ］．计算机科学，２００９，３６（１０）：２４４—２４６．　［６］ＣＨＲＵＣＨ　Ｋ　Ｗ．Ａ　ｓｔｏｃｈａｓｔｉ６　ｐａｒｔｓ　ｐｒｏｇｒａｍ　ａｎｄ　ｎｏｕｎ　ｐｈｒａｓｅ　ｆｏｒ　ｕｎｒｅ—　ｓｔｉｆｃｔｅｄ　ｔｅｓｔ［ｃ］／／Ｐｒｏｃ　ｏｆ　ｔｈｅ　２ｎｄ　Ｃｏｎｆｅｒｅｎｃｅ　Ｏｉｌ　Ａｐｐｌｉｅｄ　Ｎａｔｕｒｌａ　Ｌａｎｇｕａｇｅ　Ｐｒｏｃｅｓｓｉｎｇ．Ｍｏｒｒｉｓｔｏｗｎ，ＮＪ：Ａｓｓｏｃｉａｔｉｏｎ　ｆｏｒ　Ｃｏｍｐｕｔａｔｉｏｎａｌ　Ｌｉｎｇｕｉｓｔｉｃｓ，１９９８：１３６—１４３．　［１１］张定京．现代哈萨克语实用语法［Ｍ］．北京：中央民族大学出版　社．２００４．　［１２］杨凌．现代哈萨克语结构研究［Ｍ］．鸟鲁木齐：新疆大学出版社，　２００２　

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部栏目

基于规则的哈萨克语基本名词短语识别研究