专利名称:一种精确的语料类别标注方法及装置专利类型:发明专利发明人:李成洲,徐兴军申请号:CN201310163422.6申请日:20130507公开号:CN104142912A公开日:20141112
摘要:本发明提供了一种精确的语料类别标注方法及装置,其中所述方法包括:A.将具有初始标注类别的全部语料分为n份,其中1份语料作为校验语料,其余n-1份语料作为训练语料,且n为大于1的正整数;B.提取训练语料的代表性特征;C.对训练语料的代表性特征进行机器学习,以得到分类模型;D.采用所述分类模型对校验语料进行分类,得到校验语料的二次标注类别;E.对二次标注类别与初始标注类别之间存在差异的校验语料的类别进行校正;F.从所述n份语料中选取1份未曾校正的语料作为校验语料,其余n-1份语料作为训练语料,返回所述步骤B。通过上述方式,本发明能够降低语料标注中的错误,提高语料标注的准确性。
申请人:百度在线网络技术(北京)有限公司
地址:100085 北京市海淀区上地十街10号百度大厦
国籍:CN
代理机构:北京鸿德海业知识产权代理事务所(普通合伙)
代理人:袁媛
更多信息请下载全文后查看
因篇幅问题不能全部显示,请点此查看更多更全内容