舆情信息监测服务系统
舆情信息监测服务系统是一个高度集成的专业化数据检索和分析系统,总体上包括舆情信息采集、舆情分析引擎、舆情监测应用三个核心功能。从互联网采集新闻、论坛、博客、微博、平面媒体、微博等舆情信息,并存储到舆情数据库中,并通过舆情搜索引擎对海量的舆情数据进行实时索引。对采集的数据进行智能筛选,萃取准确的舆情信息。舆情分析引擎负责舆情数据库进行智能分析和加工。舆情服务平台把舆情数据库中经过加工处理的舆情数据发布到Web界面上并展示给客户。客户通过舆情服务平台浏览舆情信息,通过简报生产等功能完成对舆情的深度加工。整个系统结合了C/S、B/S两种不同的应用模式,并形成了优势互补。系统共分四大功能模块。分别为:信息采集功能、信息处理功能、舆情分析功能、舆情展示功能。 (1)信息采集
信息采集可自定义监测站点击监测关键词,新闻、论坛、博客、微博。结合元搜索技术(搜索引擎结果补充),确保信息全面性。
定向抓取源:云腾舆情监测分析系统收录7000个监测网站,包含站点数约为15万个站点,对这些站点中的新闻,论坛,博客等实现全面的抓取,同时支持对主流新闻网页分页、评论内容的采集以及对评论点击数、回帖数的抓取。
搜索引擎结果:云腾智能爬虫系统还可以自动跟踪多个搜索引擎的搜索结果,对监测数据进行补充。
自定义URL来源采集频率:除系统常规监测范围外,还可以自定义需要重点监测的信
息,客户可以设定采集的栏目、URL、更新时间、扫描间隔等,以便及时发现目标信息源的最新变化,并以最快的速度将个性化关注内容采集到本地。 (2)信息处理
垃圾信息过滤:基于机器学习的垃圾过滤机制可以自动过滤广告、水贴等无效垃圾信息。 智能去重:采用“文章相似度技术”,根据文档内容的匹配度确定是否重复、去重的级别;根据不同的需要特点分为:URL去重、标题去重、正文去重三个级别。
HTML内容提取:采用自主知识产权的HTML网页文本萃取技术自动提取任意复杂网页中的标题、内容、作者、发布时间等信息,自动跟踪文章分页;对于论坛信息自动分析主贴、回帖以及作者等信息。
快照保存:对于每个经过抓取和处理的网页,系统都存有一个纯文本的备份,方便客户快速浏览,也方便客户查看被删除的文章或帖子。 (3)舆情分析
文章权重计算:综合网站重要程度、文章出现位置、主题相关度、危机程度、点击回复次数、传播数量以及客户自定义规则等复杂参数计算的文章权重,加上基于自然语言处理技术的训练系统,能准确分析出重要舆情信息。
传播轨迹分析:系统可以对于一段时间(自定义范围)内的舆情信息走势进行分析展示,同时可以以不同的载体如论坛、新闻等分类呈现。
自动分类与情感分析:将自然语言处理技术(NLP)应用于舆情监测领域,对信息精准分类并自动做情感分析。
相似文章聚类去重:基于自然语言处理技术,系统根据文章内容相似程度技术相似文章,方便获取同一内容文章的所有传播网站。采用“文章相似性技术”,根据文档内容的匹配程
度确定是否重复、去重的级别;根据不同的需要特点分为:URL去重、标题去重、正文去重三个级别。在详细信息列表里,分为“过滤”与“不过滤”,展示相关文章;媒体覆盖分析:系统可以对于监测信息的媒体类型进行展示,同时对于信息的主要传播媒体自动识别,进行综合分析,以图表呈现。 (4)舆情展示
在舆情信息呈现上,信息监测平台支持多种互联网终端设备和接入方式。除了传统的移动设备Web网页接入方式,还可以通过短信、邮件对信息进行及时推送,同时还可以通过移动设备客户端(Android客户端、iOS客户端、平板电脑客户端等 如图 )进行信息交互。
WEB客户界面:基于云计算模式,客户可以使用WEB浏览器随时登陆系统,在客户界面对舆情状况进行全面的了解。客户界面包含了如舆情走势、舆情详细信息、最新微博信息、载体覆盖情况等主要内容,并以列表以及图表展示等可视化方式呈现,方便客户查看。导航栏清晰明了,方便我们中心查看各种分类;实时搜索功能,可以自定义搜索条件查看系统抓取的最新监测信息;支持关键词组分类、媒体类型分类、信息属性分类查看。
舆情预警:预警级别显示,显示当日舆情级别,方便客户整体把握,同时呈现预警信息走势和预警信息列表。建立多个舆情指标,对于突飞舆情自动发出舆情信号,在最短时间内通过邮件方式通知客户,辅助进行舆情干预和引导。
舆情分析报告:根据舆情分析引擎处理后的结果库生产报告,客户可通过浏览器浏览,并且可以导出生成为Word、PDF等格式的本地文档。方便客户对不同时段的重点和热点以及对事件舆情数据的把握。
因篇幅问题不能全部显示,请点此查看更多更全内容