作者:苏秀芝
作者机构:湖南软件职业学院软件工程系,湖南湘潭411100 出版物刊名:科技创新与应用 页码:57-58页
年卷期:2016年 第25期
主题词:网页去噪 DOM STU Shingle Dice
摘要:主题型网页标题是网页正文内容的高度概括,利于标题与正文相似性之间的关系,提出了基于标题与文本相似度的网页正文提取算法。该算法首先把网页解析成DOM树,再生成STU-DOM,接着对STU-DOM进行粗剪枝。对剪枝后的语义树通过Shingle算法对网页标题与节点文本进行切分,生成标题和节点文本词汇单元集合,利用改进后的Dice系数计算标题与文本的相似性实现网页正文提取。实验结果表明,该抽取方法准确率达到90%以上,具有可观的实用价值。
因篇幅问题不能全部显示,请点此查看更多更全内容