设 计 方 案
目录
目录
一、背景概述 ......................................................................................... 3 二、建设必要性 ..................................................................................... 4 三、建设目标 ......................................................................................... 5 四、核心技术 ......................................................................................... 5 五、系统架构 ......................................................................................... 7 六、工作流程 ......................................................................................... 8 七、系统功能 ......................................................................................... 8 7.1信息采集 .......................................................................................... 8 7.2信息处理 ........................................................................................ 11 7.3舆情分析 ........................................................................................ 12 7.4 舆情展示 ....................................................................................... 12 八、 应用效果 ..................................................................................... 13 九、系统配置 ....................................................................................... 15 9.1 网络带宽 ....................................................................................... 15 9.2 运行环境 ....................................................................................... 15
网络舆情监测系统解决方案
网络舆情监测系统利用互联网信息采集技术、智能信息处理技术
和全文检索技术;结合网络舆情的传播分析模型:对境内外网络中的新闻网页、论坛、贴吧、博客、微博等网络资源进行全网监控、定向采集和智能分析,把互联网读薄,读透,提供相关舆情、负面舆情、热点信息的发现、主题事件监测、分类监测、舆情实进预警、舆情监管、统计分析、辅助决策支持等多层次,多维度的舆情信息的服务,根据用户有网络舆情监测和定向追踪等信息需求,形成简报、报告、图表等分析结果,从而帮助用户及时掌握舆情动向.为领导和舆情工作部门提供信息参考和决策支持.
一、背景概述
随着互联网的快速发展,网络媒体作为一种新的信息传播形式,已深入人们的日常生活.网友言论活跃已达到前所未有的程度,不论是国内还是国际重大事件,都能马上形成网上舆论,涉军涉警事件更是成为部分网民炒作对象,通过这种网络来表达观占、传播思想,进而产生巨大的舆论压力,达到任何部门、机构都无法忽视的地步.可以说,互联网已成为思想文化信息的集散地和社会舆论的放大器. 网络舆情是通过互联网传播的公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点,主要通过BBS论坛、博客、新闻跟贴(回贴) 、转帖等实现并加以强化.当今,信息传播与意见交互空前迅捷,网络舆论的表达诉求也日益多元.对部队
来说,如何加强对涉军涉警网络舆论的及时监测、有效引导,以及对网络舆论危机的积极化解,对维护部队声誉、促进部队健康发展具有重要的现实意义.
\"网络舆情监控系统\"是针对在一定的社会空间内,围绕涉军涉警事件的发生、发展和变化,民众对部队的态度天网络上表达出来
意愿集合而进行的计算机监测的系统统称.
\"网络舆情\"是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和.网络舆情形成迅速,对社会影响巨大,加强互联网信息监管的同时,组织力量开展信息汇集整理和分析,对于及时应对网络突发的涉军涉警事件和全面掌握社情民意很有意义.
二、建设必要性
由于舆情有突发性,随机性,多样性等特点,传统舆情监控已经无法满足目前的形势需要,互联网舆情监测系统应运而生. 各单位对于突发事件,如果有工具能及时监测发现舆情信息及其根源,及时做好危机公关,做好积极的舆论引导工作,处理还处在萌芽状态的舆情,就能控制势态发展,为企业和个人减少损失,挽回无形的、有形的损失.
对于涉军涉警负面信息的监测,是舆情监测的重中之重,必须要有一个舆情发现快,信息全,信息准确,全天候自动监测系统.
三、建设目标
通过对传统媒体网络版(含中央媒体、地方媒体、市场化媒体、部分海外媒体) 、新闻网站、网络社区/论坛/BBS/、社交网站、QQ群、搜索引擎、视频网站、知道、贴吧、\"意见领袖\"的个人博客、微博等,进行多语言全年7*24小时监控与本单位相关的敏感信息,特别是负面信,在第一时间将信息通知到指定责任人,主动掌握舆情进展及未来趋势,为领导决策分析做支撑,为宣传部门提供舆情检测工具.
四、核心技术
1.垂直搜索
垂直搜索引擎是针对某一个行业的专业搜索引擎,是搜索引擎的
细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。垂直搜索是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。 2.元搜索
元搜索引擎(Metasearch Engine),是一种调用其它独立搜索引擎的引擎,亦称“搜索引擎之母(The mother of searce engines)”。在
这里,“元”(Meta)为“总的”、“超越”之意,元搜索引擎就是对多个独立搜索引擎的整合、调用、控制和优化利用。相对元搜索引擎,可被利用的独立搜索引擎称为“源搜索引擎”(source Engine),或“搜索资源”(searcing resources),整合、调用、控制和优化利用源搜索引擎的技术,称为“元搜索技术”(Meta-searching technique),元搜索技术是元搜索引擎的核心。 3.中文文本挖掘
中文文本挖掘是一项综合技术,涉及数据挖掘、自然语言处理、计算语言学、信息检索及分类、知识管理等多个领域.将其用天文本数据中可以发现其隐含知识,即进行知识获取.中文文本挖掘出的数据源是文本数据,可以是Web页面、文本文件、Word和Excel文件、PDF文件等形式的电子文档.
在获取文本信息之前先对文本数据进行预处理,包括数据清洗,如去噪、去重;数据选择,即选择所需文本数据;文本切分,如中文分词、段落切分等.然后提取中文文本的特征信息,包括关键词(高频词) 提取、术语(词组、短语)提取、基于模板的信息抽取、基于语义词典的概念转换、基于浅层句法分析的语法特征提取、基于浅层语义分析的语义特征提取、基于文本分类的文本类别信息获取等操作. 4.信息聚类
聚类是把一组样品按照相似划分为若干类别,使属于同一类别的样品之间的距离尽可能小,而不同类别样品间的距离尽可能大,按照相似性进行聚合.
贝叶斯聚类算法是一个典型的聚类式的层次聚类算法,使用后验概率作为最大化的目标函数,有非常好的聚类效果.
使用聚类分析来做网络舆情监控的专题、热点事件、重点人及重点组织的处理.通过聚类分析,把不同类型的网络信息聚合在一起,用于分析各类别的传播热度.
五、系统架构
网络舆情监测系统利用互联网信息采集技术、信息智能信息处理技术和全文检索技术、对境内外网络中的新闻网页、论坛、微博、贴吧、博客、新闻评论等网络资源进行全网监测、定向采集和智能分析,把互联网读薄,读透.提供相关舆情、负面舆情、热点信息的发现、主题事件监测、分类监测、舆情实时预警、舆情监管、统计分析、辅助决策支持等多层次、多维度的舆情信息服务,根据用户的网络舆情监测和定向追踪等信息需求形成简报、报告、从而帮助用户及时掌握舆情动向.为领导和舆情工作部门提供信息参考和决策支持.网络舆情监控系统由信息采集、信息处理、舆情分析、舆情展示四部分组成. 对武警部队而言,舆情监测的需求既有通用性,也有个性化的特点存在;网络舆情监测系统具有极大的扩展性,凡是需要对舆情、口碑关注的政府、企业、高校和其他组织机构都可以通过本系统进行量身打造,建立适合自己的舆情监测体系.
网络舆情监控系统采用B/S结构相结合的系统架构,利用先进的系统架构,实现基于浏览器的客户端式.
六、工作流程
网络舆情监测系统的工作流程是:
1.网络信息采集系统从互联网上采集新闻、论坛、博客、存储到
舆情数据库中,并通过舆情搜索引擎对海量的舆情数据进行实时索引.
2.舆情分析引擎负责对舆情数据库进行清洗、智能分析和加工.舆情分析引擎依赖于智能分析技术和舆情知识库.
3.舆情服务平台把舆情数据库中经过加工处理的舆情数据发布到Web界面上并展示给用户.
4.用户通过舆情服务平台浏览舆情信息,通过简报生成等功能完成对舆情的深度加工和日常监管工作.
七、系统功能
网络舆情监控系统,是将搜索引擎技术应用在部队舆论情报服务的一次创新.系统利用独有技术,能根据预定的监控关键词在实时发现重点媒体、论坛、博客、微博等网站里的舆情信息,并对信息及时报警.系统利用中文分词技术、自然语言处理技术、中文信息处理技术,对信息进行垃圾过滤、去重、相似性聚类、情感分析、提取摘要、自动聚类等处理,配合专业分析师生成详细的舆情分析报告. 7.1信息采集
自动采集系统是舆情监测系统的核心与基础,因此评价一个舆情监测系统是否优秀的重要指标就是自动采集子系统能否将目标信息及时全面地采集到系统中.
信息采集子系统的职责是对全部网站进行自动采集.系统内置重
点网站有:
(1)新闻类门户网站:如新浪网、网易、人民网、雅虎...... (2)政府机构门户网站:如首都之窗、中国政府网、各地政府网......
(3)信息资讯网站:各地信息港、行业咨询网......
(4)交互性质网站:如强国论坛、天涯社区、西祠社区、网易区、新浪论坛、搜狐社区、BBS贴吧......
(5)传统媒体:人民日报、参考消息、中国日报、解放军报、各省市地区报纸、各地新闻网等媒体网络版
(6)博客:新浪博客、腾讯博客、网易博客、博客中国、博客网.......
(7)微博:Twitter、新浪微博、腾讯微博、网易微博、搜狐微博......
(8)视频网站:Youtube、优酷、土豆网、56视频、酷6网...... (9)搜索引擎:Google、BaiDu、Bing、Yahoo、搜搜、有道... ... (10)社交网站:FaceBook、Google、人人网、豆瓣、开心网、QQ群、QQ空间......
信息采集了系统可以抽取所有新闻文章或主题贴或着最新主题贴内容,还可以抽取某个主题贴的所有回复贴或着最新回复贴的内容.即可指定某个目标网站进行监测,也可以不指定目标网站对于全球范围内网站进行监测,或着进行两者混合监测.即可以监测国内网站,也可以监测国外网站如BBC,CNN等.
信息采集了系统还可以对于基于应用程序的聊天室程序监测,如QQ群聊天室. 7.1.1全网爬虫系统
自主研发了专为舆情系统设计的智能网络爬虫(spider)系统,可以实现高质量和快速的抓取,还支持对新浪微博、腾讯微博、搜狐微博、网易微博等主要微博平台信息的实时抓取. 7.1.2定向抓取源
舆情监测系统对于人工定义的重点站点的新闻、论坛、博客等实现全面的抓取,同时支持对主流新闻网站分页、评论内容的采集以及对论坛点击数、回贴数、回帖内容的抓取. 7.1.3搜索引擎结果
智能爬虫系统还可以自动跟踪多个搜索引擎的搜索结果,对于系统抓取进行补充,确保信息全面无遗漏. 7.1.4多采集线程并行处理
本子系统可以部署在多台计算机上,实现高效的多线程同时并行处理,减少单一服务器采集压力. 7.1.5强大的多语言统一处理功能
可自动处理并保存中文,英文,阿拉伯语,法文,德文,日语,韩语等多国语言,且有多国语言同时并存监测的实际案例. 7.1.6智能文章提取
对于文章类型网页,可以无需配置,直接自动提取文章正文与标题,以及作者发布日期,来源等,自动去除广,栏目,版权等无关的
垃圾内容.这个功能对于舆情监测非常重要,可以大大免除配置的负担.该功能经过我们的多年测试,对于绝大部分文章型页面都可自动准确识别.
7.1.7可无人值守全天候自动采集
可定时行,也可7*24小时运行,可设置采集时间间隔最短为1分钟 7.2信息处理 7.2.1垃圾信息过滤
基于机器学习的垃圾过滤机制可以自动过滤广告、水贴等无效垃圾信息. 7.2.2智能去重
采用\"文章相似性技术\",根据文档内容的匹配程度确定是否重复.去重的级别;根据不同的需要特点分为:URL去重、标题去重、正文去重三个级别. 7.2.3 HTML内容提取
采用自主知识产权的HTML网页文本萃取技术自动提取任意复杂网页中的标题、内容、作者、发布时间等信息,自动跟踪文章分页;对于论坛信息自动分析主贴、回帖以及作者等信息. 7.2.4快照保存
对于每个经过抓取和处理的网页,系统都存有一个纯文本的备份,方便用户快速浏览,也方便用户查看被删除的文章或帖子
7.3舆情分析 7.3.1文章权重计算
综合网站重要程度、文章出现位置、主题相关度、点击回复次数、传播数量以及用户自定义规则等复杂参数计算的文章权重,加上基于自然语言处理技术的训练系统,能准确分析出重要舆情信息. 7.3.2传播轨迹分析
系统可以对于一段时间(自定义范围)内的舆情信息走势进行分析展示,同时可以以不同的载体如论坛、新闻等分类呈现. 7.3.3 自动分类与情感分析
将自然语言处理技术(SLP)应用与舆情监测领域,对信息精准分类并自动做情感分析。 7.3.4 相似文章算法
基于自然语言处理技术,系统根据文章内容相似程度计算相似文章,方便获取同一内容文章的所有传播网站。 7.3.5 爆发趋势分析
对于重要的热点新闻信息,系统会进行分析和追踪,自动统计相关的新闻和论坛传播情况以及舆情的走势,进行爆发趋势分析。 7.4 舆情展示 7.4.1 WEB客户界面
基于云计算模式,用户可以使用WEB浏览器随时登陆系统,在客户界面对舆情状况进行全面的了解。
客户界面包含了如舆情走势、舆情详细信息、最新微博信息、载
体覆盖情况等主要内容,并以列表以及图表展示等可视化方式呈现,方便客户查看。
导航栏清晰明了,方便用户查看各种分类;栏目定制功能,用户可以在首页自行删、减、增添所需要的功能模块。
实时搜索功能,用户可以自定义搜索条件查看系统内抓取的最新监测信息;支持关键词组分类、媒体类型分类、信息属性分类查看。 7.4.2 舆情预警
预警级别显示,显示当日舆情级别,方便用户整体把握,同时呈现预警信息走势和预警信息列表。
建立多个舆情指示,对于突发舆情自动发出预警信号,在最短时间内通过短信或邮件方式通知用户,辅助进行舆情干预和引导。 7.4.3 舆情分析报告
根据舆情分析引擎处理后的结果库生成报告,用户可通过浏览器浏览,并且可以到处生成为word、PDF等格式的本地文档。
专业行业分析师辅助提供相关日报、周报、月报,方便客户对不同时段的重点和热点进行把握。对于突发事件提供详细的事件专题分析报告,对时间舆情数据进行有针对性的解读。
八、 应用效果
本系统对互联网进行实时的自动采集,分析,汇总,监视,并识别其中的关键信息,排除无用信息,及时通知到相关人员,从而为第一时间积极应急响应负面信息,是正确舆论导向提供工具,收集舆情
信息的信息化系统。 比较指标 及时性 人工检测 不及时,随意性强 人工发现事件时间自动主动发现事件,时间及时, 重点目标网站 晚,比较被动, 主动通知责任人 人工通知到责任人 需多人在工作时间,全年7*24小时无人值守,网络信分别登陆各个网站,息的获取工作完全由软件自动进人力成本 手上查阅,还要手上行,检测人员只需在内网集中进行复制黏贴,疲于奔命 内容的浏览、挑选、分类、分析 零碎,不可避免 信息保存 会出错 word文件,分散,统一存放在大型关系数据库中, 数据储存 很难管理,备份与恢集中管理,方便备份与恢复 复不方便。 针对各维度的自动化的统计分析,基于手工统计加估监测报告 图文并茂,具有翔实统计数据支计,数据支持不充分 持,可以每日,每周,每月出报告 覆盖片而,不及时,监测效果 差强人意,浪费人力覆盖全面,实时,自动化,系统化 资源
精确,全面,便于事后追踪 采用本系统 每10分钟采集一次
九、系统配置 9.1 网络带宽
根据采集板块的数量不同,要求的网络带宽也有所不同:300个板块以内建议至少5M,300-5000个板块建议在10M-15M;5000-10000个板块建议在15M-2041之间;另外,带宽与多线程访问有关系,如果带宽大则可以调整线程个数,支持信息的更新快,如果带宽小则调小线程数据量,信息更新相对较慢。 9.2 运行环境
9.2.1 网络爬虫服务器推荐配置
一台网络爬虫服务器支持采集500个板块的信息,因此爬虫服务器配置的数量应根据需要采集板块的数量来定,如采集2800个板块需要6台服务器(不能采用一合超高性能的服务器来代理,否则采集周期会加长),爬虫服务器的配置要求如下表所示:
配置项 CPU 内存 500个模块 硬盘 操作系统 Microsoft Windows Server 2008 R2
描述 双核至强2.13GHz以上 4G 320G Microsoft Windows 2003 Server 9.2.2 WEB管理服务器推荐配置
系统采用一台服务器进行WEB管理,配置由用户数量来定,具体配置如下: 访问人数 300人以内 300-3000 3000-10000 10000-20000 20000以上 配置项 CPU 内存 硬盘 CPU 内存 硬盘 CPU 内存 硬盘 CPU 内存 硬盘 CPU 内存 操作系统 Microsoft Windows Server 2008 R2 描述 双核至强2.131GHz以上 4G 250G 双核至强2.5GHz以上 8G 500G 四核至强2.13GHz以上 8G 1TB 四核二路至强2.13GHz以上 16G 1TB 根据具体情况配置 根据具体情况配置 Microsoft Windows 2003 Server 9.2.3 数据库服务器推荐配置
系统需一台数据库服务器,七配置根据采集板块的数量来定,建议采用磁盘阵列动态扩充容量,具体配置如下: 采集板块数量 200以内 200-1000 1000-5000 5000-10000 10000以上 配置项 CPU 内存 硬盘 CPU 内存 硬盘 CPU 内存 硬盘 CPU 内存 硬盘 CPU 内存 操作系统 Microsoft Windows Server 2008 R2 描述 双核至强2.131GHz以上 4G 1TB 双核至强2.5GHz以上 8G 2TB 四核至强2.13GHz以上 8G 3TB 四核二路至强2.13GHz以上 16G 6TB 根据具体情况配置 根据具体情况配置 Microsoft Windows 2003 Server 十、主要特点
(1)预警及时,舆情信息在第一时间以邮件、短信等方式发送到指定邮箱地址和号码。
(2)系统7*24小时不间断数据采集,精准全面的网络舆情采集,能够对论坛、博客、新闻评论等内容进行全面、精准的采集和及时的更新,为舆情分析提供强有力的数据保障。
(3)多维度实时监测、过滤网络舆情信息,采集到本地的文章会自动标注并分析,具有趋势图直观展现。
(4)专业的舆情监控平台,用户可以根据实际工作需要,将需要关注的信息定制到系统,用户可以随时调出自己需要的资料,直接追踪关注事件的传播源头,把握传播动态,系统自动生成舆情报告,节省用户人力。
附:舆情监控系统界面及功能 一、监控记录界面
界面左侧围栏目导航菜单,共有监控记录、舆情分析、监控设置和系统参数四个菜单。其中监控记录分为四类:论坛监控、微博监控、全网监控、博客监控。
界面右侧显示监控采集的信息。选择类别、时间、排序、条数后,点击“刷新”按钮,则按所选要求显示信息。
每条采集的信息显示标题、摘要、来源、发布时间、正负研判、浏览次数、评论次数、转载次数等内容。
舆情正负研判有自动和手工两种方式:自动研判是根据“监控设置>设置特征词”中的设置进行判断,手工研判是对自动研判的修正。 每条采集的信息科进行人工舆情处理,根据信息的重要程度修改为重点舆情或删除信息,删除的舆情放置到舆情回收站中,可在舆情回收站中进行复原或彻底删除;设为重点的舆情放置到重点舆情库中,可在重点舆情库中复原为普通舆情,或者生成舆情简报,供领导审阅。根据舆情的特性可人工设置为正面舆情或负面舆情。界面下方有“重点舆情库/舆情回收站”链接,其中设为重点的舆情放置到重点舆情库中,删除的舆情放置到舆情回收站中。界面类似于舆情主界面,不同之处见红框标出。
因篇幅问题不能全部显示,请点此查看更多更全内容