项目技术方案
大数据平台方案设计
1.1
需求分析
1.1.1 采购范围与基本要求
建设XX高新区开发区智慧园区的人口库(12万居民)、法人库(1200家企业)、地理信息库(已建设区域35平方公里的3维电子地图、未建设区域80平方公里的航拍电子地图)、视频库(1000个摄像点)、大数据处理平台、数据管理服务平台。
1.1.2 建设内容要求
1.1.2.1
人口库
人口库的基本信息以公安部门户籍和暂住人口信息为基础,整合人社、计生、民政、教育等多个部门信息资源,建设统一规范的人口库和人口信息服务平台。
(1)人口库的内容目录
序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 社居民区服务信息 社区党建信息 社居民区服务信息 人员车辆信息 人口基本信息 信息目录(一级) 信息目录(二级) 人员信息(常驻) 人员信息(暂住) 户籍成员信息 死亡信息 驾驶人员信息 机动车信息 电动车信息 房主信息 房屋变动信息 党员信息 培养党员信息 党员流入信息 党员流出信息 准生证信息 婚前检查信息 孕前检查信息 婚育证信息 可编辑
社会发展局 组织人社局、 村(居)委会 房管局、村(居)委会 公安局(交警系统) 公安局 可能的信息源单位 . 序号 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 工伤信息 医疗信息 社保基本信息 民政信息 卫生信息 信息目录(一级) 信息目录(二级) 节育手术信息 计生处罚信息 社区卫生服务机构信息 医疗机构信息 医疗资源信息 卫生许可信息 社会组织信息 区域地名信息 最低保障收入人员信息 精准扶贫对象信息 单位信息 参保人员信息 退休待遇信息 转移人员信息 失业登记和失业保险信息 城镇职工基本医疗保险账户信息 门慢信息 定点医疗机构和定点零售药店信息 伤残认定信息 劳动能力鉴定信息 工伤待遇信息 组织人社局 村居管理委员会 社会发展局 社会发展局 可能的信息源单位 养老保险信息 失业信息 (2)人口信息服务平台功能需求
数据库层:能够安全存储人口库的内容目录中列出的信息内容,对居民、企业、政府提供安全的人口信息服务,为人口大数据分析提供基本数据源。
应用支撑层:包括门户框架、数据库维护、报表组件、数据挖掘等,用于为应用层提供应用支撑。数据挖掘提供常见的数据分析/挖掘工具、通用算法,利用大数据平台的计算能力进行分析,对人口库数据进行数据挖掘与发现,提供有价值的分析结果。
应用层:包括人口信息服务、人口专题分析、公共服务等。 1.1.2.2
法人库
法人库以工商部门的企业信息为基础,整合各参建部门系统中的法人信息,如机构代码、机构名称、机构类型、经济行业、业务经营范围、机构地址、法定代表人等字段信息,建成标识统一、
可编辑
.
结构科学、查询快捷、动态管理的法人信息库。制定与交换平台对应的相关标准、制度和规范管理体系,实现工商局、地税局、国税局、质量技术监督局等法人数据相关业务部门之间的网络互联和业务数据的实时交换与应用。
(1)法人库的内容目录
序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 企业经营信息 税务信息 工商注册信息 企业基本信息 信息目录(一级) 信息目录(二级) 股东(投资者)信息 法人信息 地址与联系信息 工商登记信息 工商变更信息 工商注销信息 工商吊销信息 税务登记信息 税务注销信息 税务登记验换证信息 企业发票信息 组织架构 发展战略 品牌 产品与服务信息 人力资源信息 高端技术和设备 财务报表 资质信息 信用信息 荣誉信息 文化 违规处罚等不良信息 企业 税务局 工商质监局 工商质监局,企业 可能的信息源单位 (2)法人信息服务平台功能需求
数据库层:能够安全存储法人库的内容目录中列出的信息内容,对居民、企业、政府提供安全的法人信息服务,为法人大数据分析提供基本数据源。
应用支撑层:包括门户框架、数据库维护、统计与报表组件、数据挖掘等,用于为应用层提供应用支撑。数据挖掘提供常见的数据分析/挖掘工具、通用算法,利用大数据平台的计算能力进行分析,对法人库数据进行数据挖掘与发现,提供有价值的分析结果。
可编辑
.
应用层:包括法人信息服务、法人专题分析、公共服务等。 1.1.2.3
地理信息库
以国土资源部空间地理数据框架作为基础,采用分布式存储并行计算的技术思路统一搭建地理信息库,再与智慧园区建设涉及的各类专题图层进行融合、关联,实现统一共享,逐渐形成XX高新区权威、丰富的地理信息数据库。要求根据不同信息资源类别,提供数据库表结构设计。
地理信息库维护文件主要提供地图基本操作、地图测量、图层控制、空间分析等信息服务功能。 地理信息库配置一套高性能GIS工具软件,基于高性能云GIS平台搭建,实现空间数据的统一管理,完成空间数据检查、转换、入库、管理、制图显示、服务发布等一系列空间数据分析处理功能。
(1)地理信息库的内容目录
序号 1 信息目录(一级) 电子地图数据 信息目录(二级) 三维电子地图:已建设区域30平方公里 航拍电子地图:未建设区域60平方公里 建筑、道路、水系、绿地、农田等 已建设区域30平方公里,分等级实现重点城区精细三维模型数据和其它地区简易模型数据 路灯、交通灯、屏显、导示牌、标志性行道树、线缆、地下管网等 规划用地数据 企业(项目)数据 可能的信息源单位 国土资源部、中标单位测量 国土资源部、中标单位测量 中标单位测量、建设 2 地理实体数据 3 三维模型数据 4 5 6 城市部件数据 规划数据 POI数据 城管等部门 规划局 规划局、办公室等 (2)地理信息库管理平台功能需求
数据处理:格式转换、坐标转换、属性编辑、数据裁切。
数据质检:矢量数据检查、栅格数据检查、三维模型数据检查、元数据检查。 入库更新:矢量数据入库、影像数据入库、三维模型数据入库、元数据入库。 数据输出:矢量数据提取、栅格数据提取。
查询浏览:地图浏览、数据加载、SQL查询、空间查询、数据对比浏览、元数据查询。
可编辑
.
历史数据管理:历史版本数据比较、版本数据提取。 系统管理:权限管理、日志管理、备份恢复。 1.1.2.4
视频库
(1)视频库的内容目录
序号 1 2 信息目录(一级) 视频 视频特征 视频目录 视频文件 视频特征文件 信息目录(二级) 可能的信息源单位 视频监控系统 数字摄像装置 (2)视频库管理平台功能需求
与视频监控系统的接口、视频入库、视频目录管理、视频文件管理、视频特征文件生成、视频检索、视频异常发现等。 1.1.2.5
大数据处理平台
(1)大数据基础平台
提供基础管控、基础服务的大数据基础支撑功能。大数据基础平台要充分利用目前先进的大数据处理技术,保证系统技术的前瞻性和先进性。大数据基础平台要求提供海量数据的采集、存储、计算、接口服务能力;需要满足海量、异构的大数据的存储、共享、开放及分析挖掘方面的要求;需要采用主流的大数据的技术架构,全面满足结构化数据、半构化数据及非结构化数据的存储、处理及计算要求;提供多种数据采集工具,支持多种格式数据采集;提供接口服务,供二次开发应用等。
大数据基础平台要求能够管理大数据中心集群的物理服务器资源,控制分布式程序运行,隐藏下层故障恢复和数据冗余等细节,为大数据处理平台提供统一的管理、监控、维护等日常管理功能。主要包括:资源管理、安全管理、运维管理、集群部署及监控、任务调度等功能,同时配备友好的管理界面。
①数据采集要求
大数据处理平台数据主要来自数据资源中心,包括基础库(人口库、法人库、地理信息库、视
可编辑
.
频库)数据、主题库(业务数据库)数据和互联网数据,同时也支持其他外部系统数据来源。数据采集系统要求提供多种数据采集工具,支持多种格式数据采集。对于结构化数据、非结构化数据以及网络数据采用不同的采集工具进行数据导入。支持多种数据采集方式,比如ETL、FTP、文件导入导出、关系数据库数据等。
②分布式存储要求
平台能够根据结构化数据和非结构数据的不同特点,分别提供数据仓库和分布式列式数据库存储服务,底层支撑技术支持分布式文件系统,所有的数据可以形成多份副本均匀分布存储在各个服务节点的存储上,保证数据可靠性和提高读写效率。
③大数据计算引擎要求
离线计算引擎(Mapreduce):离线分布式计算作为一个海量结构化数据离线处理与分析服务,着力于实时性要求不高的海量数据(TB/PB级别)离线处理。支持并行化、容错、数据分布、负载均衡。离线计算引擎需要具有PB级的存储处理能力和计算吞吐能力,支持多应用多实例并发同时计算并隔离应用数据和程序的能力。
支持Mapreduce等批量数据分布式计算框架。 支持分布式内存计算框架。
支持作业查询预处理调度算法,可根据业务属性对指定的多个队列按照优先级的配置进行任务的提交。
具备高可靠性,支持主控节点双机,避免单点故障不可恢复。 具备高度可扩展,可动态增加/削减计算节点,真正实现弹性计算。 支持离线计算组件界面配置化,可以对配置进行查看和修改,并立刻生效。 支持离线计算组件性能指标界面可视化,通过界面实时监控组件性能指标。 支持多租户权限管理能力,支持不同用户之间的资源隔离。 支持多应用多实例并发同时计算并隔离应用数据和程序的能力。
可编辑
.
内存计算引擎(Spark):基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。由于中间输出和结果可以保存在内存中,从而不再需要读写分布式文件系统,能更好地适用于数据挖掘与机器学习等需要迭代的算法。
支持作业查询预处理调度算法,可以根据业务属性对指定的多个队列按照优先级的配置进行任务的提交。
支持审计日志可查询,在管理运维的界面中可以进行内存计算引擎日志的查询。
支持相关存储目录规整,对内存计算引擎的数据目录进行规整,修改默认配置,并提供界面上的修改配置的地方。
支持配置界面化,能够在管理运维界面上对内存计算引擎的配置进行查看和修改,并能够同步到前台立刻生效。
支持通过界面展示性能指标,能够在界面上查看内存计算引擎的性能指标数据。
支持on Yarn 等方式,在管理运维界面上安装服务,可以在安装的时候,选择On Yarn等的方式安装。
支持内存计算引擎的Master的HA等,可以对内存计算引擎的master角色进行HA等部署,以保证该节点的高可用性。
实时计算引擎(例如spark streaming、Storm):实时分布式计算需要提供大吞吐量的实时流式数据处理。要求保证高可靠性的前提下让数据处理更加实时,具备低延时、容错和分布计算特性。采用分布式计算框架提供实时计算服务,可按需扩容。支持高并发低延时的数据处理。
计算引擎:支持SPARK STREAMING等实时计算框架、STORM分布式流式计算框架两种计算框架功能。
支持对流数据的处理,数据可以建立关联处理。
高效处理数据:支持消息的分流、合流、聚合的消息处理。
数据按业务分析,可支持不同的应用接入,并对应不同的应用输出计算结果。
可编辑
.
事件监测:对数据处理低延时,满足事件监控等实时性要求很高的场景。 具备高可靠性,支持主控节点双机,具备自动容错能力,避免单点故障不可恢复。 支持实时计算组件界面配置化,可以对配置进行查看和修改,配置修改立刻生效。 支持实时计算组件性能指标界面可视化,通过界面实时监控实时计算组件性能指标。 ④全文搜索引擎(例如solr)
提供丰富的查询语言,同时实现可配置、可扩展并对查询性能进行优化,提供一个完善的功能管理界面。可以实现集中式的配置信息、自动容错、查询时自动负载均衡、自动分发的索引和索引分片和事务日志等多种特色功能。
可以对搜索引擎集合进行快照,可以周期、定时创建集合快照,对索引数据进行备份。 提供搜索引擎数据切换自动化工具,一键式操作实现搜索引擎数据从一个集群切换到另外一个集群,安全可靠。
提供搜索引擎节点扩容数据重分布自动化工具,搜索引擎节点扩容后数据均匀的重分布到新增节点上,负载均匀的分担到各节点上。
支持搜索引擎服务自动拉起功能,提高可靠性。除管理平台界面手工停止服务之外的异常服务停止后都会自动拉起,保证服务连续可用。
⑤资源管理(例如yarn)
资源管理要求能够实现调度和分配集群的内存和计算等资源给上层应用和服务,能够管理运行在集群节点上的任务的生命周期和资源使用,提供静态资源池和动态资源池功能。在多用户运行环境中,能够支持计算额度和访问控制,作业优先级和资源抢占,达到在保障公平的前提下,有效地共享集群资源。支持VIP队列管理,支持根据业务需要指定作业在指定的计算节点上运行,隔离重点任务和普通任务,保障重点任务的物理资源。要求给出详细的设计方案。资源管理能够面向海量数据处理和大规模计算类型的复杂应用提供统一的资源管理和调度。提供通用的并行计算框架,要求兼容批量分布式计算、内存分布式计算、流式计算等多种编程模式。具备高可扩展性,支持作
可编辑
.
业定点调度,支持优先级高的作业优先分配到资源。能够自动检测故障和系统热点,重试失败任务,保证作业稳定可靠运行完成。
支持作业定点调度,指定作业在哪些主机上运行,隔离重点任务和普通任务。 支持队列增加优先级属性,优先级高的作业优先分配到资源。 支持白名单功能,限制客户端向集群的resourcemanager提交作业。 支持提交权限,限制无权用户提交作业并运行。
支持队列属性修改图形化,在图形化界面中配置新增、修改、删除队列属性。
支持队列属性增加“最大作业提交数”属性,在图形化界面中新增“最大作业提交数”属性可配置
⑥分布式协作服务(例如Zookeeper)
分布式协作服务提供分布式、高可用的协作服务,可以用来构建分布式应用。它能为分布式文件系统、分布式列式数据库、离线计算、资源管理与调度、数据仓库等大数据组件提供重要的功能支撑。在分布式应用中,通常需要分布式协作服务来提供可靠的、可扩展的、分布式的、可配置的协调机制来统一各系统的状态。
帮助系统避免单点故障,建立可靠的应用程序。 提供分布式协作服务和维护配置信息。 ⑦安全管理
安全管理能够提供以用户为单位的身份认证和授权,能够对集群数据资源和服务进行访问控制,包括系统用户、应用用户的身份和权限管理,日志管理等。
⑧运维管理
主机管理:可以对已经添加的主机及其运行状态进行查询,可以对单台主机进行全面监控。通过在已添加主机安装代理,支持通过代理访问计算集群提供相关组件服务和操作。要求给出详细的设计方案。
可编辑
.
服务管理:对大数据平台包含的各个组件服务提供的管理界面,可对各组件运行状态进行监控,可执行启、停操作;除手动停止服务外,系统监测到服务异常终止时可以自动拉起服务,并可以根据需要打开或关闭自动拉起开关。可对具体角色实例进行管理。为避免应用之间在申请组件服务时相互干扰,提升应用的健壮性和可靠性,应支持相同组件的服务既共享物理资源,又相互独立。要求给出详细的设计方案。
告警管理:告警管理功能包括告警查看、阀值设置。监控系统各类异常,在管理界面上实时呈现。支持集群内不同节点差异化告警阈值设置。
系统管理:包括系统配置、巡检、备份。其中,系统配置包含版本设置和SNMP设置。巡检功能需要支持自动巡检和手动巡检两种方式。提供备份功能,包含快照和集群间备份。支持服务日志级别动态调整,支持组件配置项快速查找功能,并且用户可以根据需要新增自定义组件配置项。
⑨展现界面设计
详细展示大数据平台的运行情况。界面展示内容包括主页界面、集群界面、主机管理界面、告警管理界面、安装界面、系统管理界面、日志界面、安全界面等。
主页界面:可以整体查看集群的整体运行状况,包括主机、服务等资源的数量、在线情况;运行负载情况;以及告警信息。
集群界面:包含服务管理、静态资源池、动态资源池等;其中,服务管理界面提供对大数据平台各组件运行状态进行监控,可执行启、停操作;静态资源池界面和动态资源池界面可对根据服务状态对资源进行静态和动态调整。
主机界面:可以查询已添加的主机及其运行状态,也可对单台主机进行全面监控。 告警界面:主要包含告警查看和阀值设置。
安装界面:包括安装集群、安装主机、安装服务、机架管理、升级服务、升级主机。 系统管理界面:包含巡检报告、开关设置、版本设置等内容。
日志界面:分为操作日志、系统日志、安全日志。可以按照查询条件对日志进行查询操作,并
可编辑
.
可对日志可以进行分类、删除、过滤、导出。
安全界面:包含部门管理、用户管理、角色管理等。 ⑩集群部署及监控
集群部署与监控能够提供整个云操作系统以及上层应用服务的部署、配置管理以及服务的自检和自举。
集群部署:支持自动化的安装部署,使用工具进行自动安装,简单快捷。主要功能包括:集群安装、主机安装、服务安装、服务升级、主机升级、机架管理。
运行监控:可以整体查看大数据集群的整体运行状况。包括主机、服务等资源的数量、在线情况;运行负载情况;以及告警信息。同时监控大数据平台各组件运行状态、硬件资源占用情况(硬盘、CPU、内存等)等,如果被监控对象出现异常情况,监控系统就会在相关管理告警页面发出告警通知。
(2)大数据多维分析查询系统 ①总体要求
大数据多维查询系统要求提供超大数据规模数据查询,支持PB级数据量。针对海量数据可以进行任意维度的密集计算与检索, 支持建立OLAP Cube,提供MOLAP能力。支持高并发、低延时的在线数据应用系统,能够提供高并发的实时计算查询服务, 对于百亿行级别的数据可在亚秒级时间返回查询结果。大数据多维查询系统主要面向传统架构中OLAP(联机分析处理)数据访问场景,利用多维分析技术,针对特定分析主题,设计多种可能的观察方式,设计相应的分析主题结构,使用户在多维模型基础上进行快速、稳定、交互式访问,以达到复杂分析和数据预测的作用,实现实时联机分析处理的效果,面向高并发、海量、低延时的业务场景。
②创建数据模型
系统能够根据维度和指标的要求,从现有的数据表中选择可对应维度或指标的字段,将这些字段的信息分别保存在维度表和度量表中。支持层级维度、联合维度、可推导维度等维度降维优化技
可编辑
.
术。根据业务的聚合需求,支持定义度量的聚合形式,包括SUM、MIN、MAX、COUNT、COUNT_DISTINCT等。可定义分区类型、分区列和开始日期等,以支持采用增量构建方式对Cube进行构建。
③分析查询处理
系统能够根据维度指标定义及关联关系,提供多维数据的分析查询处理,在查询过程中能够分别根据上钻、下钻、切片、切块、旋转、TOPN等操作进行相应的处理。
支持web页面向导式模型构建及任务监控。支持ANSI SQL查询标准,对外提供标准的ODBC、 JDBC驱动及REST API接口。
(3)大数据智能分析系统 ①总体要求
大数据智能分析系统提供各类数据的融合与共享服务,要求集成丰富的数据挖掘算法,能够对海量数据提供高效的分析和计算。数据分析挖掘引擎支持并行化统计算法和机器学习基础算法库,支持的并行化基础算法,能够处理大数据集。
②算法库
大数据智能分析平台,需集成丰富的机器学习、数据挖掘算法,包括但不限于分类、预测与回归、聚类、降维、推荐/协同过滤、相似度等算法,支持对海量数据进行高效的分析和计算,支持图计算和图挖掘,支持用户扩展算法库。
聚类分析:集成常用的聚类分析算法对数据进行抽象的分组分类。 分类分析:在设定好的分类之中,对数据进行归类。
关联分析:集成常用关联分析算法,对数据之间的关联关系进行分析,得出不同数据之间的关联关系。
回归分析:集成常用回归分析算法。
特征分析:集成常用特征分析算法,挖掘数据潜在的特征。
可编辑
.
图挖掘:基于图和图并行计算框架提供图挖掘工具,主要包含:连通图、最短路径、三角关系计数、社区关系。
③智能分析系统
数据准备:通过对业务需求分析,搜索所有与业务对象有关的内部和外部数据信息,从中选择出适用于数据挖掘应用的数据,并进行数据预处理。数据预处理可以加快分析过程,提高分析结果的精度,针对不同的数据类型缺失值的处理各不相同,需要结合业务场景。
数据探索:通过统计分析和关联分析等手段,能够深入挖掘多源多维数据之间的关联性,从不同的维度分析数据,加深对数据的理解,提取可能对业务结果相关的影响因子,探索发掘数据的内在规律特征,为分析模型对业务进行定量与定性的结合分析。
数据构建:根据数据源类型、业务要求建立对应的数据模型。通过分类、聚类、关联、回归、特征分析等机器学习算法和分析方法,对海量多样化数据进行进行模型构建和数据分析挖掘。数据模型的设计包括设计和准备数据源,数据的处理,选取和设计数据算法。数据模型的建立是一个预定义、评估、优化的过程。
模型评估:利用评估算法对模型进行评估,评估数据分析结果的合理性、合法性,评价模型的优劣。根据分析结果及时调整和优化数据模型,如果结果不符合预期,需要调整参数进行机器学习,重新估算。
可视化智能分析工具:要求提供可视化智能分析工具,加速数据分析模型设计。可视化智能分析套件为数据分析提供直观的图形化用户界面,用于设计分析流程。实现完整的建模步骤,从数据加载、汇集、到转化和准备阶段,再到数据分析和产生预测阶段。 1.1.2.6
数据管理服务平台
数据管理服务平台是一个管理、展现平台,主要包括:数据治理与监控系统、数据服务集成管理系统和大数据展现门户等。
(1)数据治理与监控系统
可编辑
.
数据治理与监控系统是一个数据治理和数据监控的综合管理系统,对数据资源中心和大数据处理平台两大部分数据进行治理和管控。数据治理按照数据全生命周期来管理,要求包含:数据源管理、数据质量管理、数据地图管理、数据血缘管理、数据安全管理和元数据管理等;数据监控与数据治理相辅相成,实现对数据资源的全程监控,包括:全局数据监控、部门数据监控、数据存储使用监控和数据异常监控等内容。
①数据标准管理
术语标准管理: 包括限定词、同义词、术语等信息库的管理。
元数据管理:元数据记录了数据源的结构信息,有了元数据才能对数据源进行各种操作,元数据管理需要提供对各数据源的元数据进行注册,加载,查看等功能。
数据源管理:数据源管理包括:基础环境的管理、标准编码管理等。
基础环境管理:基础环境配置管理用于进行一些基础信息的配置,包括:源、目标数据源的配置、标准数据库表结构配置及其编码表的配置等。
②标准编码表管理
用于对数据中心数据涉及的编码表及其编码项进行定义。 ③数据处理管理
提供完善的数据处理功能,如数据清洗、数据比对、数据加载、数据转换、数据共享等功能。 ④数据规则与质量管理
数据质量监控是根据预设的规则来检测数据中的质量问题,检测规则可自主配置,也可以自主编写规则表达式。数据质量监控与系统调度关联使用,发现脏数据,避免错误的数据流入下游应用。
⑤数据地图
数据全局视图:展示从外部源到内部库,到输出数据库的数据整体流向,展示类别数目、库数目、表数目、分别统计库、表、字段、作业、任务等数量。从表数目和数据存储量的角度展示数据库中按月度变化的动态信息,以直观的图形化进行动态展示。并且可以区分不同部门进行统计。
可编辑
.
数据动态分布:从表数目和数据存储量的角度展示数据仓库中按月度变化的动态信息,以直观的图形化进行动态展示。并且可以区分不同部门或者租户进行统计。
数据血缘:数据血缘以历史事实的方式记录每项数据的来源,处理过程,应用对接情况等,记录了数据表在治理过程中的全链血缘关系。数据血缘就是通过对数据处理的全过程追踪,找到以某个数据对象为起点的所有与该对象相关的元数据和它们之间关系的一种技术手段。
(2)数据服务集成管理系统
搭建基于企业服务总线(ESB)的服务集成管理系统,构建数据服务的统一通信通道,即使在协议不同、格式不同、标准不同的情况下,服务与对接服务之间都可以实现交互通信,传递消息,以便实现服务集成管理目标,从而实现各类数据服务的统一管理,面向政府用于、企业、公众、开发者,提供便捷的数据服务。具体包括:
①服务注册与发布
提供服务定义、注册、审核和发布功能,发布前可以对服务的配置参数进行审核与修改,配置通道,发布后,自动生成/更新对应服务的配置文件(如WSDL),连同服务参数配置,更新至服务目录中;提供对注册/发布服务的连通性测试;
②服务生命周期管理
提供服务的注册、变更、下线的申请、审核、复核功能,检查和确认服务状态以执行变更、下线;根据服务优化管理中的服务拓扑分析,调整服务层级分类或整合服务,以实现优化;提供服务版本的管理;
③流程管理
支持服务申请、服务变更、服务下线等服务生命周期管理中相关流程的管理功能; ④服务目录管理
提供服务目录的浏览和检索;提供服务目录/服务定义/服务状态的查询和管理,包括权限的过滤和管理;
可编辑
.
⑤接入系统管理
设置和管理服务请求方和接入请求系统的映射关系;设置和管理服务提供方和接入服务系统的映射关系;设置和管理服务请求方、服务提供方在服务治理系统的用户映射关系;
⑥接口数据管理
提供数据字典的定义和管理,提供服务方法接口和数据字典字段的映射关系设置。 (3)大数据展现门户
大数据展现门户是智慧园区大数据中心对外服务窗口,门户包括两个方面:政务数据资源门户(内部数据门户)和公众数据门户(外部数据门户)。
政务数据资源门户作为大数据管理部门信息发布和资源服务的总管理入口,为各级政府部门提供信息资源展示、在线信息服务、信息检索、系统集成访问等功能。另外,针对系统管理员、各级领导、政务用户的不同应用需求,提供个性化工作台。
公众数据门户提供政务部门可公开各类数据的下载与服务,为企业和个人开展政务信息资源的社会化开发利用提供数据支撑,推动信息资源增值服务业的发展以及相关数据分析与研究工作的开展。
①政务数据资源门户
门户基本管理:政务数据资源门户主要是提供政务大数据中心数据成果的展示和应用访问入口的应用集成。提供单点登录、访问权限管理,后台内容管理等功能。
在线查询服务:针对政务数据中心,开发高效率的在线查询服务。人口信息、法人信息、宏观经济、信用信息等面向政府部门提供信息服务,空间地理信息服务包括地图基本操作、地图测量、图层控制、空间分析以及相关数据融合等信息服务功能。
信息资源综合展示:能通过可视化的方式展示区域内信息资源的全景,即:部门信息资源的分布情况,需求情况、使用情况,需要按照不同视角进行呈现,要求包含但不限于:资产总体视图、组织机构视角、服务对象视角、信息资源视角、协同主题视角。
可编辑
.
用户交流模块:为用户提供交流的手段,每个授权用户都可以在交流板块上提出问题、见解或者是进行讨论,针对交流的问题可以选择是否公开。
用户帮助模块:为用户提供平台功能及其操作方法的介绍和帮助说明,使各级用户尽快掌握使用方法。
②公众数据门户
为了实现政务数据对社会的开放,带动大数据产业发展,利用政务大数据促进信息产业创业创新,建设数据对外开放的门户,实现政务大数据的对外开放。针对公众数据门户将要充分利用政府门户网站,在现有的门户网站上开辟一个政务数据开放的入口,点击后即可进入公众数据门户。公众数据门户的主要功能有:资源目录、数据开放接口、APP应用、互动交流等。
资源目录:社会公众可以通过资源目录查找到需要的数据,找到相应数据的获取方式,数据可以是通过下载方式获取也可以通过数据接口的方式获取,无论哪种方式都需要用户注册认证后才可以获取。用户可以通过数据资源主题的方式查找,也可以用户数据来源各部门的方式查找。
数据开放接口:用户可以通过此功能查找到可以调用的数据接口,并可以查找到数据接口的调用方式、说明文档、代码示例等相关内容,通过功能应用开发人员可以方便的通过数据接口获取所需要的数据。
互动交流:互动交流功能是网站用户与网站管理人员进行互动交流的模块,在这里网站管理人员可以将网站的使用说明和一些常遇到的问题及解决方法公布出来,网站管理人员也可以在此公布调查问卷,征求普通用户的意见。同时,普通用户也可以在这里提出自己的疑问,让管理人员进行解答。
可编辑
.
1.2 设计方案
1.2.1 总体平台设计
1.2.1.1
总体架构
智慧园区大数据平台的核心是建立面向宏观经济发展、社会公共服务的数据库和数据服务。总体架构由支撑体系(标准规范支撑体系、管理运行维护支撑体系、安全支撑体系)、网络系统、信息共享平台软硬件系统环境、数据库体系(中心交换库、基础数据库、主题库、发布库、宏观经济数据库管理系统、元数据库系统)、应用系统(数据交换处理系统、应用支撑系统、数据综合分析系统)组成。
图 大数据平台总体架构图
信息共享平台通过网络收集统计系统和各共建部门的信息资源,并有效地将这些信息资源进行分类整理,实现跨部门、跨行业的宏观经济管理信息共享,并向用户提供数据服务;
数据库体系:由元数据控制,实现数据的交换、存储和发布,整合共建单位现有信息资源,构建主题库和发布库,为数据服务提供支持。 1.2.1.2
体系结构图
智慧园区公共基础数据库信息共享平台划分为工作(生产)区、发布(共享)区和互联网信息发布区。在工作(生产)区构建宏观经济数据的采集、整合、处理和存储系统;在发布(共享)区构建宏观经济数据的发布与共享、存储与备份和专网门户系统等环境支撑系统;在互联网信息发布区构建互联网门户系统,为社会公众提供宏观经济信息服务。如下图表所示:
图 园区大数据平台体系结构图
1.2.1.3 总体流程图
智慧园区大数据平台采用在线填报、数据库对接和基于消息的数据交换三种采集方式,集中采集、整合、存储各共建部门指标数据。中心交换数据库存储各共建部门交换来的原貌数据,基础数
可编辑
.
据库是对原貌数据进行审核转换和加工而成,是主题数据库和发布库构成的基础。元数据库对数据的采集交换、整合、存储、分析和发布全过程进行定义和约束。专网和互联网的用户可通过门户系统,分别对发布(共享)区和互联网信息发布区的数据进行访问。
智慧园区大数据平台总体流程图如下:
图 园区大数据平台总体流程图
1.2.2 人口基础数据库设计
在没有数据标准的情况下,人口基础数据库数据中心对同一个数据字段可以从多个数据来源采集数据。如:婚姻状态字段可以从计生部门和公安部门采集。对于同一个数据字段,中心对于该数据字段保存多个来源的版本。人口基础数据管理系统提供工具、服务来展现数据的不一致性,数据管理员根据工作制度,对数据字段进行电话等多种手段核实字段的真实数值。中心通过数据交换系统以数据服务的方式从各业务部门采集数据,保存到公共数据缓存库,使用人口基础数据管理维护系统进行数据比对、冲突检查、数据审核、数据转换。当数据达到一致性、完整性要求时,数据将由公共数据缓存库转存到人口基础数据发布库中,并通过数据交换系统以订阅/发布的方式提供给各业务部门使用。
人口基础数据管理系统维护一个面向对象的公共数据模型,公共数据模型是公共数据标准规范的实现。公共数据维护系统控制着公共数据的输入和输出,为数据质量把关。人口基础信息综合查询系统采用B/S结构,客户端采用浏览器,用户界面是实现不同功能的网页。
综合查询系统的操作页面要求易于使用,使用户能够方便快捷的对网页提供的各项功能进行操作。采用菜单树的方式展开系统的功能。
人口基础信息综合查询系统可以有针对性地,按照用户授权的不同,为不同用户提供不同层次的人口资源公共查询服务。
人口基础信息功能如下图所示。
人口基础数据库管理应用系统功能模块列表:
可编辑
. 编号 1 用户角色管理 2 3 4 5 系统管理 6 7 8 9 10 11 12 13 14 15 16 清洗比对管理 17 18 19 20 21 手工比对管理 22 23 24 数据授权管理 25 26 27 28 29 信息服务 人口信息服务 可编辑
授权管理 数据交换申请 查看授权申请 数据交换申请 交换申请列表 交换审批列表 人口信息查询 反馈信息查看 手工比对历史 反馈信息列表 申请查看授权 清洗比对结果 接收处理 比对规则管理 清洗结果查看 比对结果查看 手工比对历史 手工比对信息 接收数据查看 系统监控管理 计生帐户管理 民政帐户管理 系统日志管理 系统网络布局 部门交换频率 接收公安数据 接收社保数据 接收卫生数据 接收计生数据 接收民政信息 清洗规则管理 部门帐户管理 角色信息管理 公安帐户管理 社保帐户管理 卫生帐户管理 一级模块 二级模块 三模块 系统帐户管理 . 编号 30 31 32 33 基础信息统计 34 35 36 37 人员参保分析 38 39 计划生育分析 40 育龄妇女比例 参合人员情况 地区育龄分布 统计分析 地区分布统计 人口文化程度 人口民族统计 地区人口统计 社保人员情况 一级模块 二级模块 人口码表信息 人口共享指标 三模块 人口码表信息 可共享指标 人口性别统计 人口年龄统计 1.2.2.1 数据接收服务
接收数据的查询是针对各部门交换汇总的信息,进行以部门为单位的信息查询。通过查询工作,可以了解各部门实际提交的信息情况,并实现信息详查和统计工作。系统提供了按部门查询的查询方式。 1.2.2.2
中心数据查询
人口中心数据,就是经过数据比对梳理完成的人口基础信息。针对人口信息量大,涵盖范围广、内容繁杂的特点,在人口基础信息中心数据库设计中,采用信息扩展和关联的方法,逐级分领域和部门展示人口基础信息和扩展信息。如下图所示。
图 人口基础信息关联设计
系统根据部门需求进行查询分类,各部门根据本部门业务相关信息进行检索。如公安部门可根据身份证号、姓名、性别、民族为检索条件,进行基本信息的查询;可根据姓名、暂住证号、身份证号为检索条件,进行暂住人口信息的查询操作。
其他部门检索与查询操作类似。
可编辑
.
1.2.2.3 决策支持子系统
决策支持子系统是根据业务需要,基于人口基础信息,进行数据挖掘,实现统计报表操作,为领导决策提供快速的报表支持。查询列表如下图所示。
图 决策支持子系统查询列表
1.2.2.4 授权管理
授权管理,就是提供信息需求部门申请查询授权,信息提供部门审批授权的功能。
申请部门选择对应的信息表,向信源部门提出申请;信源部门根据业务规则,对申请部门提供授权或不授权,此外,授权功能提供时限控制和授权使用次数控制。 1.2.2.5
数据清洗比对管理
数据比对系统通过数据比对引擎,实现对人口基础信息的比对工作。
依据的业务需要,数据比对包括比对操作,各部门数据的过滤查询,各部门信息比对入库结果查询。人口基础信息的比对,依据其特点,采用自动比对和人工参与比对结合的方式,实现基础信息的比对功能。
数据过滤查询是针对部门提交的数据,进行梳理过滤与清洗,得出的清洗出的问题数据进行查询操作。
与数据过滤查询类似,数据入库查询是将部门信息与人口基础信息总表信息进行比对,并经过相关部门审批确认,比对出现差异错误信息的查询。 1.2.2.6
信息核验
结合比对系统人工比对功能,提供部门提出比对结果意见功能。当部门业务信息进入比对系统后,如出现基础信息库和业务应用源头部门信息不匹配,需要业务人员参与的情况下,提供业务部门信息核验功能。
可编辑
.
1.2.2.7 系统管理
系统管理功能是实现对使用人口基础信息查询系统的用户进行管理。
人口基础信息综合查询系统提供用户、角色、权限的设定。即每个申请的用户,根据其角色,享有角色指定的权限。系统管理员可以根据用户情况,赋予固定角色。
系统管理员可制定新增用户指定角色以及分配权限。 系统管理分为用户管理和角色管理。
(1)用户管理:管理系统用户,以及给系统用户分配角色和权限。
(2)角色管理:角色管理是对每个角色进行查询,并分配相应权限,系统管理员可以根据角色权限,以及每个用户的允许查询权限为用户授权。
1.2.3 法人基础数据库设计
法人基础数据库系统实现法人基础数据查询、统计和管理等功能的应用系统。系统主要功能包括:
法人基础信息管理应用系统功能模块列表:
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 接收处理 接收数据查看 系统监控管理 系统管理 部门帐户管理 一级模块 二级模块 用户角色管理 三级模块 系统帐户管理 角色信息管理 市场监管帐户管理 民政帐户管理 地税帐户管理 国税帐户管理 系统日志管理 系统网络布局 部门交换频率 接收工商数据 接收质监数据 接收民政数据 接收地税数据 可编辑
. 编号 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 统计分析 信息服务 共享信息管理 法人信息服务 部门信息统计 法人码表信息 基础信息统计 行业类型统计 企业类型统计 部门数据差异 授权管理 数据交换申请 手工比对管理 部门数据比对 数据授权管理 清洗比对结果 清洗比对管理 一级模块 二级模块 三级模块 接收国税信息 清洗规则管理 比对规则管理 清洗结果查看 比对结果查看 手工比对历史 手工比对信息 手工比对历史 工商有质监无 申请查看授权 查看授权申请 数据交换申请 交换申请列表 交换审批列表 信息公开管理 信息管理日志 法人信息查询 部门信息总数 法人码表信息 企业增长趋势 行业类型统计 企业类型统计 部门数据差异 1.2.3.1 系统管理
管理系统用户,以及给系统用户分配权限,其中包括用户角色管理、角色信息管理、部门账户管理、系统日志管理、系统网络布局查看以及部门交换频率查看。如下图所示: 1.2.3.2
授权服务
法人基础数据库系统设计原则遵循“谁提供谁维护”的原则,在中心形成的法人基础数据库中的法人信息,对于公开开放的数据,不需要经过部门授权就可以查看,但对于部门未开放或者指定对象开放的数据,其他部门需要查询该部门的数据需要向数据提供部门提出申请,在申请通过后,
可编辑
.
才可在授权允许的范围内进行查询。
授权服务主要功能包括:
(1)数据授权管理:通过申请查看授权向数据提供部门提出查询申请,信息所属部门可以对其他部门对本部门信息提请的查看申请进行审批授权。可以设置授权的查看次数和有效期限,也可以永久授权。
(2)数据交换申请:如果部门希望其他部门数据交换到本部门,通过数据交换申请向数据所属部门发送申请,申请得到授权后,通过自主交换的方式将数据交换到本部门的指定数据库内。
(3)共享信息管理:部门设置信息共享的级别,包括:授权开放、公众开放、部门开放等。同时通过信息管理日志查看用户的操作记录,以确保信息的安全。 1.2.3.3
接收服务
提供中心接收到各部门原始数据的查询功能,以及数据的清洗比对功能,具体功能包括: 接收数据查看:查询中心接收到各部门发送的原始数据。
清洗比对管理:管理和维护各个部门提供的原始数据的清洗和比对规则。可以增加、删除及保存规则。在系统后台会根据制定的规则来对接收的数据进行清洗和比对处理。
清洗比对结果:可以根据清洗和比对批次、时间段等条件查询清洗和比对结果,如比对成功和不成功的数据量及所占比例,以及未匹配数据的详细数据和未匹配成功的原因(如企业注册号相同,企业名称不同等)。
手工比对管理:对于通过比对规则比对不一致的数据,通过手工比对管理进行手工比对,比对一致的,通过手工操作更新中心法人信息库,比对仍不一致的,反馈到未匹配数据表,通过交换平台反馈相关部门进行核查。手动比对管理主要解决数据比较特殊,无法制定通用比对规则的数据之间的比对。
部门数据比对:进行部门间的数据比对,如工商有质监无的数据、工商有国税无、工商有地税无、质监有国税无、质监有社保无、国税有社保无等。
可编辑
.
1.2.3.4 信息服务
根据查询条件或者组合条件查询法人信息,返回的结果为清洗比对后的准确数据,对于需要授权的数据,需要先通过授权服务进行授权申请。具体功能包括:
(1)法人信息服务:查询法人信息,用户也可按条件查询。 (2)部门信息统计:查看各部门法人信息的数据总量。
(3)法人码表信息:对于有国家标准的代码表,均会转换成国家标准的代码存入法人基础信息库,如行业类别、法定代表人性别等,对于部门专有的代码表,通过法人码表信息列出,供其他部门下载和使用。 1.2.3.5
统计分析
提供报表统计功能,结合各类基础信息,形成各类报表,提供多种统计功能,辅助领导决策。提供列表、折线图和柱状图等多种展示方式,统计内容主要包括:基础信息统计、行业类型统计、企业类型统计、部门数据差异统计等。
1.2.4 地理信息基础数据库设计
1.2.4.1
基础数据
(1) 遥感影像数据
本项目是XX高新区主要区域影像数据,建设范围为30平方公里。 (2) 遥感影像数据处理 ➢ 几何校正,正射校正
遥感影像在获取过程中,受到如大气吸收与散射、传感器定标、地形等因素的影响,且它们会随时间的不同而有所差异。因此,在多时相遥感影像中,除了地物的变化会引起影像中辐射值的变化外,不变的地物在不同时相影像中的辐射值也会有差异。利用多时相遥感影像的光谱信息来检测地物变化状况的动态监测,其重要前提是要消除不变地物的辐射值差异。
可编辑
.
➢ 数据融合
数据融合实质上是将高分辨率影像空间特征与低分辨率影像多光谱特征组合到一副影像,使得融合后影像即具有高分辨率影像空间特征,又具有低分辨率影像多光谱特征。
➢ 数据裁剪与镶嵌 a. 镶嵌
当研究区超出单幅遥感影像所覆盖的范围时,通常需要将两幅或多幅影像拼接起来形成一幅或一系列覆盖全区的较大的影像。在进行影像的镶嵌时,需要确定一幅参考影像,参考影像将作为输出镶嵌影像的基准,决定镶嵌影像的对比度匹配、以及输出影像的像元大小和数据类型等。镶嵌得两幅或多幅影像选择相同或相近的成像时间,使得影像的色调保持一致。但接边色调相差太大时,可以利用直方图均衡、色彩平滑等使得接边尽量一致,但用于变化信息提取时,相邻影像的色调不允许平滑,避免信息变异。
b. 裁剪
影像裁剪的目的是将研究之外的区域去除,常用的是按照行政区划边界或自然区划边界进行影像的分幅裁剪。
➢ 图像增强
图像增强是指按特定的需要突出一幅图像中的某些信息,同时削弱或去除某些不需要信息的处理方法,其目的是使得处理后的图像对某种特定的应用,比原始图像更合适。处理的结果使图像更适应于人的视觉特性或机器的识别系统。图像增强主要可分为三类:频域图像增强方法、小波域图像增强方法、空域图像增强方法。
➢ 匀光匀色处理
由于光学遥感影像获取的时间、外部光照以及其他因素的影响,导致获取的影像在色彩上存在不同程度的差异,这种差异会不同程度地影响后续数字正射影像生产、数字城市和数字省区无缝影像数据库建设以及其他的影像工程应用中影像的使用效果。为了消除影像色彩上的差异,需要对影像
可编辑
.
进行色彩平衡处理,即匀光处理。
(3) GIS专题数据库
GIS空间数据库指的是地理信息系统在计算机物理存储介质上存储的与应用相关的地理空间数据的总和,一般是以一系列特定结构的文件的形式组织在存储介质之上的。空间数据库的研究始于20 世纪 70年代的地图制图与遥感图像处理领域,其目的是为了有效地利用卫星遥感资源迅速绘制出各种经济专题地图。由于传统的关系数据库在空间数据的表示、存储、管理、检索上存在许多缺陷,从而形成了空间数据库这一数据库研究领域。而传统数据库系统只针对简单对象,无法有效的支持复杂对象(如图形、图像)。
GIS空间数据主要有两种组织策略,一种是基于分层的数据组织,另外一种是基于特征的数据组织。基于分层的数据组织是目前常用的也是比较成熟的数据组织策略,基于特征的数据组织是未来GIS数据组织的发展方向,但目前还不成熟。本系统就是采用基于分层的数据组织策略,将空间信息分为地图集、图层集和图层。其中系统用到的图层主要有行政图层、道路图层、河流图层、灾害点图层、监测点图层等。在数据管理方面,前端采用FeatureBase进行管理,后台采用SQL Server 2008很好的解决了网络环境下多用户并发操作、权限管理等诸多问题,同时系统采用多级缓冲机制,大大加快了用户操作地图功能的速度。
矢量数据:主要是指城市大比例尺地形图。此系统中图层主要分为底图层、道路层、单位层,合理的分层便于进行叠加分析、图形的无逢拼接以实现系统图形的大范围漫游。矢量数据一般通过记录坐标的方式来尽可能将地理实体的空间位置表现的准确无误,显示的图形一般分为矢量图和位图。
图层: 图象都是由一层或多层图层组成。图层功能允许让多张图片进行叠加放置并保存在一个文件中。通过对图像分层放置,您能够有效的把多张图片 混合在一起,隐藏或显示每个单独的图层,文本、绘图和图象可以在各自的图层上被添加、删除、移动和编辑而不会影响其它图层。
地形数据:地形数据是能够表示地球表面高低起伏状态的数据,即具有高程信息的数据。数字高程模型(DEM)是一种对空间起伏变化的连续表示方法,是一种特殊的DatasetGrid数据模型,
可编辑
.
每个网格的值为高程值,而且有标准的颜色表来表示,这对分幅DEM图像的合成很有帮助。
(4) 三维模型
➢ 主城区精细化三维建模
本项目主城区精细化三维建模和普通三维建模面积为30平方公里。 1.2.4.2
1)
平台建设 基础平台
a. 平台构成
主要由系统软件(操作系统、网络软件等)、数据库软件(如Oracal、SQL Server等)、GIS软件平台、应用软件(GIS 二次开发软件、GIS组件库等)组成。层次结构如图所示:
图 GIS层次结构图
b. 基本功能 ➢ 地图浏览
系统提供地图放大、缩小、平移、鹰眼、全图等基础地图操作,地图底图服务采用金字塔地图静态缓存切片技术,配合优化后的客户端加载,实现了高效地图刷新,地图操作基本无刷白。同时在地图数据加载过程中,实时提供进度条显示,方便让用户了解地图数据加载情况。
电子地图具有平滑过渡,使用时不会出现刷白的现象。 ➢ 图层功能
图层是地理数据存储的基本单元,图层存储可以是空间矢量数据(如点、线、面)和属性数据,也可以是一组带地理配准的栅格影像数据,它们都是一组与主题相关的数据单元。
系统提供基础底图图层和专题图层,基础底图可以是矢量二位电子地图,也可以是遥感影线数据,一般作为地图背景数据。专题图层通常为空间矢量数据,针对不同业务,可以加载一个或多个相关业务专题图层,进行空间属性分析。
➢ 数据目录
可编辑
.
空间数据目录,是指按照一定的格式和标准,对空间数据资源的基本情况进行描述的目录。根据不同的应用属性,目录以多种形式组织和展开。
基础数据源选择
提供矢量电子地图、卫星遥感影像、DEM基础数据源数据的目录,提供地图基础底图的切换。 专题数据筛选
提供专题、部门、热门分类的专题数据目录,可自由进行组合叠加。 空间分析
提供针对数据目录中的专题数据进行空间分析的功能,可以实现空间检索和缓冲区检索。 空间检索:提供矩形、圆形、多边形、手绘自由面等多种方式进行空间检索。 缓冲区检索:提供点、线、面基于缓冲半径的缓冲区检索。 数据搜索
图层检索:提供基于数据目录的图层检索,通过指定数据目录中的一个或多个专题图层进行关键字检索。
全文检索:提供基于搜索引擎的全文检索,通过关键字在所有专题图层中进行相关性检索,可以根据词典,提供分词、同义词等方式的模糊检索。
空间标注
点标注:提供基于空间点要素的标注功能,可以实现多种样矢量点和图标点的标注功能。 线标注:提供基于空间线要素的标注功能,可以实现多种样式线符号的标注功能。 面标注:提供基于空间面要素的标注功能,可以实现多种要素面要素的标注功能。 文字标注:提供基于空间点的问题标注功能,可以实现文字自由空间标注。 量算功能
长度量算:提供空间距离量算功能,可以通过多点折线和手绘自由线进行距离长度量算功能。 面积量算:面积空间面积量算功能,可以通过多边形和手绘自由面进行面积量算功能。
可编辑
.
地图输出
地图打印:提供当前地图打印功能,将地图输出到打印机进行输出。
地图保存:提供地图截图功能,截图后可保存到剪切板,或者保存为多种格式的图片文件。 2)
空间分析
空间分析是基于地理对象的位置和形态特征的空间数据分析技术,其目的在于提取和传输空间信息,是利用各种空间分析模型及空间操作对地理数据库中的空间数据进行深加工,进而产生新的知识。
a. 缓冲区分析
缓冲区分析是地理信息系统中常用的一种空间分析方法,是对空间特征进行度量的一种重要手段。缓冲区分析是研究根据数据库的点、线、面实体,自动建立其周围一定宽度范围内的缓冲区多边形实体,从而实现空间数据在水平方向得以扩展的信息分析方法。它是地理信息系统基本的空间操作功能之一。从空间变换的观点看,缓冲区分析模型就是将点、线、面地物分布图变换成这些地物的扩展距离图,图上每一点的值代表该点距离最近的某种地物的距离。实际上,缓冲区就是地理目标或工程规划目标的一种影响范围。
b. 叠置分析
叠置分析是地理信息系统中常用的提取空间隐含信息的方法之一,叠置分析是将有关主题层组成的各个数据层面进行叠置产生一个新的数据层面,其结果综合了原来两个或多个层面要素所具有的属性,同时叠置分析不仅生成了新的空间关系,而且还将输入的多个数据层的属性联系起来产生新的属性关系。其中,被叠加的要素层面必须是基于相同坐标系统的,基准面相同的、同一区域的数据。
c. 窗口分析
地理信息除了在不同层面的因素之间存在着一定的制约关系之外,还表现在空间上存在着一定的关联性。对于栅格数据所描述的某项地学要素,其中的(i,j)栅格往往会影响其周围栅格的属性特征。充分而有效地利用这种事物在空间上相联系的特点,是地学分析的必然考虑因素。窗口分析是指对于栅格数据系统中的一个、多个栅格点或全部数据,开辟一个有固定分析半径的分析窗口,并在该窗口内进行诸如极值、均值等一系列统计计算,或与其它层面的信息进行必要的复合分析,
可编辑
.
从而实现栅格数据有效的水平方向扩展分析。
d. 栅格数据分析
栅格数据由于其空间信息隐含属性信息明确的特点,可以看作是最为典型的数据层面,通过数学关系建立不同数据层面之间的联系是GIS提供的典型功能,空间模拟尤其需要通过各种各样的方式将不同的数据层面进行叠加运算,以揭示某种空间现象或空间过程。同矢量数据多边形叠置分析相比,栅格数据的更易处理,简单而有效,不存在破碎多边形的问题等优点,使得栅格数据的叠置分析在各类领域应用极为广泛。
e. 水文分析
水文分析专题主要是利用地图的基本应用功能以及地图标识功能, 对各个水位站的地理位置坐标数据、各个水位站监测到的水情数据在地 图上进行加载,形成一个专题图层,以直观的方式将相关的数据信息集 中显示在一张地图上,以供用户查看和浏览,方便用户对各个水位站的 地理位置以及实时的水情数据等相关信息进行查看。
f. 动态分段
动态分段是在数据库中纪录道路的每种属性的起止点到道路原点的距离,并不是真的将道路切断存储,适合于动态的分析,顾名动态分段。
采用动态分段之后,一个路段(Segment),是路网上两个交点间连线或者弧的一部分,路段的长度用其占连线的比例来表示,具有唯一的标识码。在GIS数据库中,路段是依附于路网数据,本身没有坐标。由于采用动态分段将道路的各种属性以及其分布集中在一个图层中进行管理,采用线性定位方法,因而容易实现各种“点线”以及“线线”的叠加查询分析。
动态分段是对现实世界中的线性特征及其相关属性进行抽象描述的数据模型和计算手段,它可以根据不同的属性按照某种度量标准对线性要素进行相对位置的划分,而对同一个线要素,可以根据不同的度量标准得到不同的相对位置划分方案。
图 动态分段数据模型
可编辑
.
g. 插值分析
在实际工作中,由于成本的限制、测量工作实施困难大等因素,我们不能对研究区域的每一位置都进行测量(如高程、降雨、化学物质浓度和噪声等级)。这时,我们可以考虑合理选取采样点,然后通过采样点的测量值,使用适当的数学模型,对区域所有位置进行预测,形成测量值表面。插值之所以可称为一种可行的方案,是因为我们假设,空间分布对象都是空间相关的,也就是说,彼此接近的对象往往具有相似的特征。
h. 地图裁剪
地图裁剪是从地图矢量数据集合中提取所需信息的过程,它是空间数据处理过程中经常遇到的问题。在进行地形图的开窗、放大、漫游显示和空间目标提取,以及多边形叠置分析时,必须进行数据裁剪。裁剪就是把裁剪区域内地理实体及他们之间的拓扑关系表达出来,可分为两个步骤:一是将区域中的地图元素提取出来,建立矢量数据的简单数据结构;二是将这些地图元素之间的拓扑关系提取出来,建立矢量数据拓扑关系的表示结构。裁剪后的地图矢量数据不仅含有该区域中各个地理实体的抽象,而且还有对各个地理实体之间拓扑关系的描述,是认识该区域的基础。
3)
拓扑功能
拓扑关系是指空间数据的位置关系。
空间拓扑描述的是自然界中地理对象的空间位置关系,是地理对象空间属性的一部分。在地理对象中涉及的拓扑关系有邻接,关联和包含。这个很容易理解。那么在GIS中,运用拓扑有什么好处?拓扑的主要目的是保证数据的质量,提高数据的精度。这也就是在GIS软件中,虽然实现的方式不同,但最终的目的无非是保证数据的质量。
地理对象的拓扑关系,主要有以下三种:
相邻: 是指对象之间是否在某一边界重合,例如行政区划图中的省、县数据。 重合: 是指确认对象之间是否在某一局部互相覆盖,如巴士线路和道路之间的关系。 连通: 连通关系可以确认通达度、获得路径等。
可编辑
.
4) 网络分析
在GIS中,网络分析是指依据网络拓扑关系(结点与弧段拓扑、弧段的连通性),通过考察网络元素的空间及属性数据,以数学理论模型为基础,对网络的性能特征进行多方面研究的一种分析计算。
在GIS中,作为空间实体的网络与图论中的网络不同。它作为一种复杂的地理目标,除具有一般网络的边、结点间的抽象的拓扑含义之外,还具有空间定位上的地理意义和目标复合上的层次意义。具体说来,网络就是指现实世界中,由链和结点组成的、带有环路,并伴随着一系列支配网络中流动之约束条件的线网图形,它的基础数据是点与线组成的网络数据。
网络分析是通过模拟、分析网络的状态以及资源在网络上的流动和分配等,研究网络结构、流动效率及网络资源等的优化问题的领域。对地理网络、城市基础设施网络进行地理分析和模型化,是地理信息系统中网络分析功能的主要目的。
网络分析的基础是网络的建立,一个完整的网络必须首先加入多层点文件和线文件,由这些文件建立一个空的空间图形网络,然后对点和线文件建立起拓扑关系,加入其各个网络属性特征值,如根据网络实际的需要,设置不同阻强值,网络中链的连通性,中心点的资源容量,资源需求量等。一旦建立起网络数据,全部数据被存放在地理数据库中,由数据库的生命循环周期来维持其运作。
地理信息系统中的网络分析就是对交通网络、各种网线、电力线、电话线、供排水管线等进行地理分析和模型化,然后再从模型中提炼知识指导现实,从网络分析应用功能的角度上,网络分析划分为路径分析、最佳选址、资源分配和地址匹配。
在路径分析中有以下几类的分析处理方向:
静态最佳路径:由用户确定权值关系后,即给定每条弧段的属性,当需求最佳路径时,读出路径的相关属性,求最佳路径。
动态分段技术:给定一条路径由多段联系组成,要求标注出这条路上的公里点或要求定位某一公路上的某一点,标注出某条路上从某公里数到另一公里数的路段。
N条最佳路径分析:确定起点、终点,求代价较小的几条路径,因为在实践中往往仅求出最佳路径并不能满足要求,可能因为某种因素不走最佳路径,而走近似最佳路径。
可编辑
.
最短路径:确定起点、终点和所要经过的中间点、中间连线,求最短路径。
动态最佳路径分析:实际网络分析中,权值是随着权值关系式变化的,而且可能会临时出现一些障碍点,所以往往需要动态地计算最佳路径。
资源分配主要是优化配置网络资源的问题,资源分配的目的是对若干服务中心,进行优化划定每个中心的服务范围,把所有连通链都分配到某一中心,并把中心的资源分配给这些链以满足其需求,也即要满足覆盖范围和服务对象数量,筛选出最佳布局和布局中心的位置。资源分配网络模型由中心点(分配中心)及其状态属性和网络组成。分配有两种方式,一种是由分配中心向四周输出,另一种是由四周向中心集中。这种分配功能可以解决资源的有效流动和合理分配。
选址功能是指在一定约束条件下、在某一指定区域内选择设施的最佳位置,它本质上是资源分配分析的延伸,例如连锁超市、邮筒、消防站、飞机场、仓库等的最佳位置的确定。在网络分析中的选址问题一般限定设施必须位于某个节点或某条链上,或者限定在若干候选地点中选择位置。
地址匹配实质是对地理位置的查询,它涉及到地址的编码。地址匹配与其它网络分析功能结合起来,可以满足实际工作中非常复杂的分析要求。所需输入的数据,包括地址表和含地址范围的街道网络及待查询地址的属性值。
5)
海图数据
电子海图(Electronic Chart,EC)是用数字形式表示的以描写海域地理信息和航海信息为主的海图,它与国际海上人命安全条约(SOLAS)所需要的纸质海图等效,电子海图亦称为数字海图(Digital Chart)。它同时是一个内容、结构、格式均标准化了的数据库,这个数据库由官方授权的权威航道测量部门制作发行,供ECDIS使用,其系统显示界面如图所示。
电子海图的结构一般分为电子海图目录、物标分类编码系统、用户数据格式的ENO、ENC改正数据库、海图图式符号库、用户数据库、航海信息咨询系统数据库等主要部分。
电子海图目录:ENC中存储的海图,一般要根据比例尺(全球图、沿岸图等)的不同划分成几个比例尺级别。如我国海区可以划分成1:100万、1:25万等几个比例尺级别。为了有效的使用海图数据,必须摒弃原纸质海图图幅的限制,将每级比例尺的海图所覆盖的整个区域划分成大小合
可编辑
.
适的单元,对两幅纸质海图重叠的部分只取一次数据。
6)
三维分析
GIS的优势在于能够直观直接地展示复杂的地理信息,同时具有强大的空间分析功能。三维GIS突破了空间信息在二维平面中单调展示的束缚,可以更加准确真实地展示现实环境,为信息判读和空间分析提供了更好的途径。某些特定的分析功能,如地质分析、日照分析、空间扩散分析、通视性分析等高级空间分析功能仅能在三维GIS中实现。
三维GIS是模拟、表示、管理、分析客观世界中的三维空间实体及其相关信息的计算机系统,能为管理和决策提供更加直接和真实的目标和研究对象。
三维GIS的实现关键在于三维数据模型的建立。对空间实体及空间关系的准确、有效表达是三维空间建模的主要任务,它应具备以下功能:空间实体及空间关系的定义及描述与表达方法,空间实体和非空间实体之间的直接或间接关系的描述与表达、空间数据操作的分类定义及操作符号和操作规则描述、空间实体和非空间实体之间的相互制约机制及限定时间序列下的动态变化,空间数据的完整性及一致性检验规则等,目前提出的三维空间数据模型可分为3类,即:面模型、体模型和混合模型等。
7)
三维特效扩展
在基于三维可视化场景中,最基本的空间查询是空间点的三维坐标查询,它是其他交互操作和空间分析的基础。由于消隐处理,计算机屏幕上的三维模型的像点与三维模型的大地坐标不是一一对应的,必须确定鼠标点捕捉到2D屏幕坐标所对应的3D大地坐标才能进行正确的空间分析和查询操作,这实际是将计算机的2D屏幕坐标反解为3D空间坐标,是透视投影的逆过程。
通视分析是以某一点为观察点,研究某一区域通视情况的地形分析,属于对地形进行最优化处理的范畴,通视功能的实现是指一个视点在多个方向上的可见性。它的算法原理是从DEM中的某个像素向周围像素发出一系列射线,并计算从视点A到周围每个像素X的坡度角,若此坡度角大于已有坡度角中的最大角,则像素X是可见的,否则不可见。
可编辑
.
1.2.4.3 GIS平台
(1) 海量数据管理
支持元数据的定义,可以创建、编辑和管理元数据。
系统基于OGDC标准(Open Geo-DataBase Connectivity,开放式空间数据库连接标准),实现了无差别访问多种数据来源,将不同平台的不同格式数据加载到同一个场景中展示,包括矢量、栅格、影像、栅格目录、文本注记、网络、三维矢量、多分辨TIN等数据类型。支持业界先进的数据模型Geodatabase。
系统的数据引擎支持的数据格式,支持WMS、WFS、WMS、KML\\KMZ等标准格式数据和编目服务(Catalog Services)等,提供对OGC地图标准的广泛支持。支持任意等级建立影像数据金字塔以及金字塔的部分更新,支持LZW、JPEG、JPEG2000等压缩技术存储影像。
系统支持多种矢量数据存储格式,有OGC的ST_Geometry格式、SQL Server的Geometry和Geography格式。支持OGC空间SQL语句直接访问矢量数据。
系统直接支持ENVI的文件格式,可直接读取、显示ENVI格式。
系统保证在DBMS中存储矢量数据的空间几何完整性,支持属性域、子类,支持定义空间数据之间的规则,包括关系规则、连接规则、拓扑规则等。
系统支持多版本数据管理技术。支持多用户并发编辑和访问。支持多级树状结构的地理数据模型级别的数据库复制和同步技术。
系统提供平台级(非二次开发)的角色服务安全访问控制LDAP,Token Service认证。 系统支持使用python脚本调用来完成地理空间数据的处理和分析。 (2) WebGIS功能
系统支持对二维/三维场景进行各类漫游操作:放大、缩小、平移、倾斜、旋转量算、视图回溯、图层控制等操作。
系统支持基于Web的在线地图数据编辑,包括点、线、面的空间数据编辑和属性编辑,支持
可编辑
.
多用户并发编辑。
系统支持基于Web在服务器端实现高级GIS分析功能,除了二维地图显示外,还包括三维地图显示、高级GIS空间分析(叠加分析、邻近分析、数据管理)等。
系统提供GIS服务创建和管理框架,支持便捷的创建和管理二维/三维地图显示服务,影像服务,要素服务,搜索服务,几何服务。
系统提供免费的、可定制的三维数字地球客户端,可访问并使用服务器平台所发布的GIS服务,如三维GIS服务、在线GIS分析服务。
系统软件通过了OGC认证,支持发布各种开放数据格式,如WMS、WFS、WCS、KML等;并提供针对WMS的SLD支持。
系统提供GIS服务的创建和管理框架,基于此框架可以很方便地创建和管理二维/三维地图显示服务,索引查询服务,要素编辑服务,OGC服务,远程空间数据库访问服务,地理定位服务,和自定义高级GIS分析服务、遥感影像服务。
系统支持发布搜索服务可对企业内的GIS内容和文件夹进行索引查询,支持用户快速查找。 系统提供交互式数据下载功能的GIS分析工具,支持数据压缩并通过电子邮件发送数据。 系统提供几何形状运算服务,支持动态计算自动闭合、凸多边形、裁剪、加密、求差、距离、综合、相交、偏移、重塑、截断/延伸、组合。
系统支持时态感知图层,存储数据集某时间段的状态信息。发布地图服务时,保留时态信息,并可通过地图服务访问。基于时态信息,可改变地图的显示或进行时间查询。
系统支持要素附件,提供了地图上地理要素相关的附件上传和关联的方法。附件例如Txt、PDF和图像文件,包含要素的补充信息。当发布地图服务后,客户端可查看和下载附件。
系统支持发布影像服务,提供多种客户端控制设置,如每次请求的最大影像尺寸、每次镶嵌的最大栅格数、默认重采样方法、压缩方法、镶嵌方法、每次请求返回最大记录数、每次请求最大下载数。
可编辑
.
系统支持缓存地图与动态地图叠加使用功能,相对固定的数据:采用缓存地图方式,大大提高效率;动态数据:采用动态地图方式,便于信息处理。支持将多类型、多精度影像、地形叠加分组分层显示例如:可支持影像数据集、SIT、GeoTif、WMS、web地图缓存、文件缓存等多种数据存在形式,支持不同范围、不同投影、不同分辨率的影像叠加显示,支持图层的叠加、半透明显示,图层顺序控制、可见性控制等。此外,还支持各种海量矢量数据、三维模型数据的叠加显示,矢量数据的显示无需进行预处理且具有高效、依地形显示的特点。
系统支持多种缓存格式:紧凑缓存格式将所有切片打包成大的Bundle文件,而不是将单个切片存储成单个文件;混合模式缓存支持在同一缓存中使用不同图片格式的切片。
系统提供协同缓存创建工具,支持缓存切片的导入和导出。系统具有开放性特征,能用国际上通用的多种主流开发语言实现应用的开发,并预留了接口。支持COM、.NET、J2EE、Flex、Silverlight;系统提供多种开发框架,例如Java ADF、.Net ADF、Flex、Silverlight、JavaScript等。
系统提供基于IOS、Windows Phone和Android平台的API,具有良好的可扩展性、支持Java、C#和Objective-C开发。
系统免费提供多个可配置的Flex、Silverlight富客户端应用程序模板和插件,简化开发。 系统能调用Virtual earth地图和Google Map地图,提供全球免费底图地图服务。
系统提供的LOD技术支持多层地理、地质、环境等海量二、三维数据的动态加载,支持海量矢量数据的快速显示,提供丰富多样的表现形式,使矢量数据与三维叠加达到理想效果。
系统可以按指定的点与点之间或者矢量线进行飞行显示、矢量数据的浏览,实现二维和三维空间数据、属性报表和影像之间的联动浏览查询,在浏览飞行进程中实现定位、放大、缩小等漫游操作,可以设定观察高度、飞行速度、方向角、显示的水平比例尺高程比例尺等参数信息,可以设定山洪、地理、行政、环境等其他相关的矢量信息在漫游图形上加载显示;可在影像上进行业务信息的标注链接,具备无限的关联空间;
系统提供鹰眼控件、图层管理控件和图例控件、地图基本操作控件等辅助工具。把它们与Web
可编辑
.
Control等主要功能控件绑定后,不用编写任何代码就能直接实现相互间的连动。
(3) 远程数据代理功能
通过远程数据代理,可实现对标准的WMS、WFS等OGC标准的空间数据共享、集成。 数据是GIS的灵魂,GIS的空间数据有着和传统GIS并不相同的使用模式。特别是在互联网提出Web2.0概念并在互联网应用上取得重大发展的时候,分布式框架下的空间数据也应当引入一些崭新的概念和应用。下面在分布式GIS框架下分别从数据的访问、分析、编辑和搜索4个方面探讨它们的重要功能与特点。
空间数据的共享访问。分布式GIS的各个节点的空间数据虽然是异构的、非标准的,但是在分布式框架下,这些过去的困难都不是问题,因为节点内部对于用户来说是透明的,另外,元数据的共享也在一定程度上提高了空间数据共享的准确性和明确性。
支持ESRI,ArcGIS,ArcGIS Server,SuperMap,MapGIS的数据访问。
在分布式计算模式环境中,无论是硬件平台还是软件平台都不可能做到统一。而大规模的应用软件通常要求在软硬件各不相同的分布式网络上运行。为了克服这种局限性,更好地开发和应用能够运行在这种异构平台上的软件,迫切需要一种基于标准的、独立于计算机硬件以及操作系统的开发和运行环境,中间件技术应运而生。采用中间件是介于应用系统和系统软件之间的一类软件,它使用系统软件所提供的基础服务(功能),衔接网络上应用系统的各个部分或不同的应用,达到资源共享、功能共享的目的。
1.2.5 视频基础数据库设计
1.2.5.1
建设规划
视频图像信息数据库是一个提供除传统连续视频流以外的视频图像内容信息流的存储和相应服务的基础视频资源库,是一个提供除传统视频监控实时浏览、云镜控制、录像下载回放等基本功能以外的、与公安实战应用能深度结合的视频图像信息资源系统。
可编辑
.
视频图像信息数据库有广义和狭义之分,广义上的视频图像信息数据库涵盖所有用于存储视频、图像及其结构化描述信息等内容的存储系统,包括目前用于存储连续视频流的存储系统。狭义上的视频图像信息数据库指用于存储视频监控设备自动抽取或人工采集和标注的视频片段、图像、索引、标签、视频结构化描述信息的数据库,如卡口图像和车辆通行信息、案/事件信息等。
视频库建设主要针对XX高新区开发区智慧园区视频监控系统产生的视频图像信息,进行统一的存储和管理,利用大数据视频分析技术提取视频文件特征值,及时发现视频文件中的异常信息进行预警研判等。 1.2.5.2
设计方案
XX高新区智慧园区视频图像信息数据库系统指用于存储视频监控设备在事件触发下自动抽取,或人工值机和现场巡查、以及案件研判过程中采集和标注的视频片段、图像、索引、标签、视频结构化描述信息的数据库,以及支撑视频图像信息对象应用的相关服务功能。
视频库的内容目录:
可能的信息源单序号 信息目录(一级) 信息目录(二级) 位 视频目录 1 视频 视频文件 2 视频特征 视频特征文件 数字摄像装置 视频监控系统 视频图像信息数据库系统存储XX高新区开发区智慧园区视频的核心信息和部分特征信息,主要包括视频目录管理、视频文件管理、视频特征文件生成、视频检索、视频异常信息等。
视频库采用数据同步更新等策略保持数据库一直处于热备状态,有效的保证平台运行的稳定性。
1) 逻辑结构
视频库结构从逻辑概念上主要分为如下几个部分: 管理模块
可编辑
.
主要包括管理用户、权限等信息表。 内容模块
主要包括视频目录、视频文件、视频检索等信息表。 日志/事件模块
主要包括管理用户日志、故障通知、报警事件等信息表。 特征模块
主要包括视频特征文件信息、视频异常信息等的信息表。 2) 访问模型
视频图像信息数据库由于职能定位不同具体建设方式与XX高新区开发区智慧园区已有的视频监控系统数据库有所不同,但是数据库接口应该一致。
由于传统的SQL数据库技术已经难以满足大数据、结构化非结构化混合数据等应用的需求,当前各类NoSQL数据库和云数据库等技术发展非常迅速,所以本技术不具体规定数据库内部的具体表结构的实现,而是从数据库访问接口操作以及操作对象角度去制定相应的协议。
从系统总体架构中抽取视频图像信息数据库系统模型包含了视频图像信息数据库系统的内置服务功能。所有服务功能都要从接口功能中去体现。本模型具体规定了以下四个服务接口:
(1)视频图像信息实时采集接口(简称A接口):是视频图像信息采集系统与视频图像信息数据库之间的服务接口,主要是将采集的视频图像信息实时写入视频图像信息数据库。
(2)视频图像信息应用服务接口(简称B接口):是视频图像信息数据库系统与视频图像信息应用平台之间的服务接口,是将视频图像信息数据库系统功能以服务的方式开放给上层本地应用程序,包括独立的视频图像信息实战应用平台、各警种的业务系统等。值机人员在视频巡逻过程中通过视频监控联网共享平台采集的视频图像信息和侦查人员在侦查与研判过程中所采集与形成的视频图像信息均通过该接口存入视频图像信息数据库。
(3)视频图像信息批量数据交换接口(简称C接口):是视频图像信息数据库系统与公安信息化
可编辑
.
系统之间的批量数据交换接口。如交警对于违章车辆信息入库后需要进行人工核对,经过人工核对后的包括车牌在内的过车记录信息是准确的,如果将这部分经过人工核对的过车记录信息批量交换到视频图像信息数据库中,对相对应的过车记录信息进行更新,可以提高视频图像信息数据库的数据质量,另外也可实现案件受理登记信息的实时批量导入。
(4)视频图像信息联网共享服务接口(简称D接口):是上下级视频图像信息数据库系统之间的联网共享服务接口,实现视频图像信息数据库跨区域的共享应用。
1.2.6 大数据处理平台
1.2.6.1
大数据基础平台
(1) 架构设计
SDC Hadoop大数据基础平台集工作台、工作流开发环境、任务调度、数据管理、数据检索、集群运维管理系统和应用门户为一体,为用户提供基于大数据的基础解决方案,全面满足不同行业、不同人群对大数据的个性化要求。其架构设计如下图:
运维管理(SDC Console):SDC Console是大数据运维管理系统,为SDC Hadoop供高可靠、
安全、容错、易用的集群管理能力,支持大规模集群的安装部署、监控、告警、用户管理、权限管理、审计、服务管理等。
SDC Hadoop集成开发工具:提供了web图形化方式操作,包括流程控制、作业调度、数
据管理、数据搜索、元数据管理、文件管理等功能。
HDFS: Hadoop分布式文件系统(Hadoop Distributed File System) ,提供高吞吐量的数据
访问,适合大规模数据集方面的应用。
Zookeeper:提供分布式、高可用性的协调服务能力。帮助系统避免单点故障,从而建立可
靠的应用程序。
HBase:提供海量数据存储功能,是一种构建在HDFS之上的分布式、面向列的存储系统。
可编辑
.
Elasticsearch:提供了一个分布式多用户能力的全文搜索引擎。 Parquet:面向分析型业务的列式存储格式。
YARN 资源管理系统,它是一个通用的资源模块,可以为各类应用程序进行资源管理和调
度。
Tachyon:分布式内存文件系统,可以在集群里以访问内存的速度来访问存在tachyon里的
文件。
Redis:提供基于内存的高性能分布式K-V缓存系统。
MapReduce:提供快速并行处理大量数据的能力,是一种分布式数据处理模式和执行环境。 Spark:基于内存进行计算的分布式计算框架。 Strom:提供分布式、高容错的实时计算系统。
Hive:建立在Hadoop基础上的开源的数据仓库,提供类似SQL的Hive Query Language语
言操作结构化数据存储服务和基本的数据分析服务。
Impala:提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。 Spark Streaming:建立在Spark上的实时计算框架,通过它提供的丰富的API、基于内存的
高速执行引擎,用户可以结合流式、批处理和交互试查询应用。 Kylin:支持在超大数据集上进行秒级别的SQL及OLAP查询。 (2) 功能模块 大数据运维管理
大数据运维管理为大数据存储供高可靠、安全、容错、易用的集群管理能力,支持大规模集群的安装部署、统一监控告警、统一用户权限管理、日志查询、服务管理等。
服务管理
提供服务管理,支持对各项资源及服务进行创建、删除、启停、重启、配置、升级、部署、维护等操作:
可编辑
.
统一监控告警
提供集群监控功能,集成大数据服务、可视化服务、数据挖掘服务等,并对服务器CPU、服务资源、服务状态(警告、错误、隐患)进行实时监控,并以图表形式呈现。支持异常邮件报警,便于用户及时发现问题并处理:
日志查询
提供日志分析友好的Web界面,可以帮助用户汇总、分析和搜索重要数据日志: 统一用户权限管理
提供统一用户权限管理,方便管理员对用户进行管理: SDC Hadoop集成开发工具
提供了web图形化方式操作,包括流程控制、作业调度、数据管理、数据搜索、元数据管理、文件管理等功能。
流程控制
工作流是由多个节点和节点间的依赖关系所组成的一组逻辑和规则,形成一张有向无环图(DAG图)开发者可通过开发面板和管理面板新建工作流来新建工作流进入工作流设计器,在工作流设计器中通过拖拽不同类型节点并连线的方式来开发一个工作流,提供基本的数据集成、数据计算、数据调度等组件的工作流设计,支持工作流的新增、删除、修改、查询、测试运行、格式化、提交、保存。支持设置工作流任务定时执行,并实时监控任务执行情况,支持运行日志查看。
实时概况
采用多视图实时对流程运行进行监控,从状态、时段、步骤类型、耗时等不同角度查看过去12小时或24小时内所有流程的运行统计概况,帮助用户第一时间获知全局运行情况,并提供强大的性能分析报告优化流程调度:
流程设计:通过简单的拖拽方式即可完成数据特征提取,样本数据建立,数据挖掘场景构建等复杂流程设计,界面简洁,操作简单:
可编辑
.
工作流列表和工作流设计在同一页面,方便用户快速的切换工作流进行操作,提供工作流新增、删除、修改、查询、运行、保存功能:
提供工作流组件参数配置,满足用户各类流程设计需求: 用户可设置工作流调度,让流程任务定时执行:
提供工作流运行、暂停功能,运行过程中实时返回各步骤运行结果:
运行监控:展示进行中和已完成的工作流信息,信息主要包含流程名称、状态、提交者、启动时间、结束时间、运行进度:
提供关键词搜索流程功能,支持按状态和周期筛选工作流,方便用户快速查找:
提供运行中的工作流暂停、终止功能;提供已完成的工作流再次运行、查看运行日志功能: 作业调度
通过多时间维度的计算任务调度、在线运维、监控报警等功能为大数据开发提供稳定的计算调度能力,可以支持超过百万级的调度任务量。
数据管理
支持关系型数据、Hadoop等多种方式的数据查询操作。可指定数据库进行查询,支持历史查询记录查看:
提供图表化的查询结果展示,支持条状图、折线图、圆形图、映射图;图表还可按升序、降序及正常序显示查询结果:
支持查询结果导出为XLS和CSV格式,还可保存到HDFS或者Hive中: 数据搜索
通过平台建立多维索引,实现分布式实时搜索与分析引擎,可实时对数据进行深度搜索: 元数据管理
对元数据进行管理和操作,查看表结构、表的存储位置及样本数据。支持从文件创建一个表、手动创建一个表以及Hadoop体系与传统关系型数据库之间大批量数据的传输。
可编辑
.
查看元数据信息,如表结构、样例数据及存储位置等,支持指定数据库查看:
支持手动创建一个表,后续数据导入到该表文件夹下,可实现对数据的查询等操作;同时也支持从数据文件中导入数据的方式创建一个表:
文件管理
文件管理主要功能是实现对Hadoop文件的管理,实现海量数据文件的分布式存储。支持对文件进行新增、删除、修改、查询、权限更改等操作。支持查看历史记录以及从回收站恢复删除的文件:
分布式文件系统HDFS
HDFS是Hadoop的分布式文件系统,实现高吞吐量的数据访问,适合大规模数据集方面的应用,为海量数据提供存储。
HDFS包含主、备NameNode和多个DataNode。在HDFS内部,一个文件分成一个或多个“数据块”DataNode集合里,NameNode负责保存和管理所有的HDFS元数据。客户端连接到NameNode,执行文件系统的“命名空间”操作,例如打开、关闭、重命名文件和目录,同时决定“数据块”到具体DataNode节点的映射。DataNode在NameNode的指挥下进行“数据块”的创建、删除和复制。客户端连接到DataNode,执行读写数据块操作。
分布式批处理引擎MapReduce
MapReduce 是用于并行处理大数据集的软件框架。MapReduce 的根源是函数性编程中的map和reduce函数。Map函数接受一组数据并将其转换为一个键/值对列表,输入域中的每个元素对应一个键/值对。Reduce函数接受Map函数生成的列表,然后根据它们的键缩小键/值对列表。MapReduce起到了将大事务分散到不同设备处理的能力,这样原本必须用单台较强服务器才能运行的任务,在分布式环境下也能完成了。
统一资源管理和调度框架YARN
YARN是Hadoop2.0中的资源管理系统,它是一个通用的资源管理模块,可以为各类应用程序
可编辑
.
进行资源管理和调度。YARN不仅局限于MapReduce一种框架使用,也可以供其他框架使用,比如Tez、Spark、Storm等。YARN主要分为ResourceManager、ApplicationMaster与NodeManager三个部分。
ResourceManager:RM是一个全局的资源管理器,负责整个系统的资源管理和分配。它主要由两个组件构成:调度器(Scheduler)和应用程序管理器 (Applications Manager) 。
✓ 调度器根据容量、队列等限制条件(如每个队列分配一定的资源,最多执行一定数量的作业等),将系统中的资源分配给各个正在运行的应用程序。调度器仅根据各个应用程序的资源需求进行资源分配,而资源分配单位用一个抽象概念Container表示。Container是一个动态资源分配单位,它将内存、CPU、磁盘、网络等资源封装在一起,从而限定每个任务使用的资源量。此外,该调度器是一个可插拔的组件,用户可根据自己的需要设计新的调度器,YARN提供了多种直接可用的调度器,比如Fair Scheduler和Capacity Scheduler等。
✓ 应用程序管理器负责管理整个系统中所有应用程序,包括应用程序提交、与调度器协商资源以启动ApplicationMaster、监控ApplicationMaster运行状态并在失败时重新启动它等。
NodeManager:NM是每个节点上的资源和任务管理器。一方面,它会定时向RM汇报本节点上的资源使用情况和各个Container的运行状态;另一方面,它接收并处理来AM的Container启动/停止等各种请求。
ApplicationMaster:AM负责一个Application生命周期内的所有工作。包括: ✓ 与RM调度器协商以获取资源。
✓ 将得到的资源进一步分配给内部的任务(资源的二次分配)。 ✓ 与NM通信以启动/停止任务。
✓ 监控所有任务运行状态,并在任务运行失败时重新为任务申请资源以重启任务。 分布式数据库HBase
HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。HBase适合于存储大表
可编辑
.
数据(表的规模可以达到数十亿行以及数百万列) 访问可以达到实时级别。HBase集群由主备Master进程和多个RegionServer进程组成:
利用Hadoop HDFS(Hadoop Distributed File System)作为其文件存储系统,提供高可靠性、
高性能、列存储、可伸缩、实时读写的数据库系统。 为Spark和Hadoop MapReduce提供海量数据实时处理能力。 利用ZooKeeper作为协同服务。 分布式内存计算框架Spark
Spark是一个并行数据处理框架,能够帮助用户简单的开发快速,统一的大数据应用,对数据进行,协处理,流式处理,交互式分析等等。
Spark具有如下特点:
快速:数据处理能力,比MapReduce快10-100倍。
易用:可以通过Java,Scala,Python,简单快速的编写并行的应用处理大数据量,Spark
提供了超过80种高层的操作符来帮助用户组件并行程序。
普遍性:Spark提供了众多高层的工具,例如Spark SQL,MLib,GraphX,Spark Stream,
可以在一个应用中,方便的将这些工具进行组合。
与Hadoop集成:Spark能够直接运行于Hadoop 2.0的集群,并且能够直接读取现存的
Hadoop数据。尤其,Spark和Hadoop紧密结合,可以通过大数据基础平台 Console部署安装Spark。
Spark Streaming是一种构建在Spark上的实时计算框架,它扩展了Spark处理大规模流式数据的能力。
Spark SQL是Spark中用于结构化数据处理的模块。Spark SQL提供了一种通用的访问多数据源的方式,可访问的数据源包括Hive、Avro、Parquet、ORC、JSON和JDBC数据源,这些不同的数据源直接也可以实现互相操作。Spark SQL复用了Hive的前端处理逻辑和元数据处理模块,使用
可编辑
.
Spark SQL可以直接对已有的Hive数据进行查询。另外,SparkSQL还提供了诸如API、CLI、JDBC等诸多接口,对客户端提供多样接入形式。
分布式搜索ElasticSearch
ElasticSearch是一个实时分布式搜索和分析引擎: 可用于全文搜索、结构化搜索、文本分析;
提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口,目的是通过简单
的RESTful API来隐藏Lucene的复杂性,从而让全文搜索变得简单; 使用Java开发的,用于复杂应用底层的搜索功能开发。 Elasticsearch不仅仅是Lucene和全文搜索,还支持以下特性: 分布式的实时文件存储,每个字段都被索引并可被搜索; 分布式的实时分析搜索引擎;
可以扩展到上百台服务器,处理PB级结构化或非结构化数据。 Elasticsearch是面向文档(document oriented)的: 可以存储整个对象或文档(document)。
同时会索引(index)每个文档的内容使之可以被搜索。
在Elasticsearch中,可以对文档(而非成行成列的数据)进行索引、搜索、排序、过滤。 数据仓库 Hive
Hive是建立在Hadoop上的数据仓库框架,提供类似SQL的Hive Query Language语言操作结构化数据,其基本原理是将HQL语言自动转换成MapReduce任务或Spark任务,从而完成对Hadoop集群中存储的海量数据进行查询和分析。Hive主要特点如下:
海量结构化数据分析汇总;
将复杂的MapReduce编写任务简化为SQL语句。
灵活的数据存储格式,支持JSON,CSV,TEXTFILE,RCFILE,SEQUENCEFILE,ORC
可编辑
.
(Optimized Row Columnar)这几种存储格式。中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等)录等。
Hive为单实例的服务进程,提供服务的原理是将HQL编译解析成相应的MapReduce或者HDFS任务:
流处理 Storm、Spark Streaming
Apache Storm是一个分布式、可靠、容错的实时流式数据处理的系统。在Storm中, 先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology) 被提交给集群,由集群中的主控节点(master node)分发代码,将任务分配给工作节点(worker node)执行。一个拓扑中包括spout和bolt两种角色,其中spout发送消息,负责将数据流以tuple元组的形式发送出去;而bolt则负责转换这些数据流,在bolt中可以完成计算、过滤等操作,bolt自身也可以随机将数据发送给其他bolt。由spout发射出的tuple是不可变数组,对应着固定的键值对。
Spark Streaming是一种构建在Spark上的实时计算框架,它扩展了Spark处理大规模流式数据的能力。Spark Streaming具备以下特性:
能运行在100+的结点上,并达到秒级延迟。
使用基于内存的Spark作为执行引擎,具有高效和容错的特性。 能集成Spark的批处理和交互查询。
为实现复杂的算法提供和批处理类似的简单接口。 分布式缓存层(Tachyon、Redis)
Tachyon是Spark生态系统内快速崛起的一个新项目。本质上,Tachyon是个分布式的内存文件系统,它在减轻Spark内存压力的同时,也赋予了Spark内存快速大量数据读写的能力。Tachyon把内存存储的功能从Spark中分离出来,使Spark可以更专注计算的本身,以求通过更细的分工达到更高的执行效率。Tachyon可以有效地解决如下问题:当两个Spark作业需要共享数据时,无需再通过写磁盘,而是借助Tachyon进行内存读写,从而提高计算效率。在使用Tachyon对数据进行
可编辑
.
缓存后,即便在Spark程序崩溃JVM进程退出后,所缓存数据也不会丢失。这样,Spark工作重启时可以直接从Tachyon内存读取数据了。当两个Spark作业需要操作相同的数据时,它们可以直接从Tachyon获取,并不需要各自缓存一份数据,从而降低JVM内存压力,减少垃圾收集发生的频率。
Redis(REmote DIctionary Service)支持多种数据类型,集群扩容、减容,Balance。
数据类型:包括 string(字符串)、list(链表)、set(集合)、zset(有序集合)、 hash等。 集群扩容、减容:当集群需要提供大规模的处理能力时,可以一键式扩容一对或多对主从
实例。在此过程中,系统会自动完成数据迁移和数据平衡,用户无需其他操作。 Balance:出现扩容异常、部分实例掉线等异常场景时,Redis集群中的数据可能会分布不均
匀,此时可以通过管理界面上提供的Balance功能,让系统自动对集群数据进行平衡,保证集群的健康运行。
分布式应用程序协调服务 ZooKeeper
ZooKeeper是一个分布式、高可用性的协调服务。主要支持以下特性: 帮助系统避免单点故障,建立可靠的应用程序。 提供分布式协作服务和维护配置信息。
ZooKeeper集群中的节点分为三种角色:Leader、Follower和Observer,其结构和相互关系。通常来说,需要在集群中配置奇数个(2N+1)ZooKeeper服务,至少(N+1)个投票才能成功的执行写操作。
(3) 功能特性 安全性加固
SDC Hadoop大数据基础平台通过架构安全、认证安全、文件系统层加密实现多维度安全管理。架构安全基于微服务架构方式,针对每个微服务请求之间保持服务的相互认证;用户认证安全基于用户和角色的认证体系,支持安全协议Kerberos,使用LDAP作为账户管理系统,提供单点登录能
可编辑
.
力;文件系统层针对表、字段的存储关键信息动态加密,集群内部用户信息禁止明文存储。
统一工作台
SDC Hadoop统一工作台提供丰富的可视化组件,包括批量采集、实时采集、实时消息、批量计算任务、机器学习等任务类型。提供自动化的二次开发助手和开发样例,帮助软件开发人员快速上手。相较于开源的工作流拖拽,提供更为便捷和灵活的体验与交互。
资源动态管理
SDC Hadoop大数据基础平台在统一存储上建立资源管理层,提供企业用户统一的计算资源管理、动态资源分配、多租户之间资源配置和动态共享,灵活支持多租户多服务在统一平台上平滑运行;在可管理性方面优势显著;大数据基础平台基于YARN,支持同时运行多个计算框架。
统一运维管理
SDC Hadoop大数据基础平台作为企业级解决方案,开发了用户友好的图形化管理界面、提供了系统安装、集群配置,资源级别安全控制、监控及预警等多方面支持,在可管理性方面优势显著;
全链路大数据管理
SDC Hadoop大数据基础平台提供个性化的数据建模、数据查询、收藏、管理功能,用户可轻松收藏所关注的数据表,同时可对数据表的生命周期、基本信息、负责人等信息进行管理,也可查看数据表存储信息、分区信息、产出信息、血缘信息等内容。
海量批处理和高速流处理
SDC Hadoop大数据基础平台基于Labmda架构,有机集成了Hadoop、Spark、Storm等计算框架和HDFS、Hbase等数据存储服务,真正做到海量批处理和高速流处理的能力。
海量数据搜索
SDC Hadoop大数据基础平台分布式实时搜索与分析引擎,可实时对数据进行深度搜索,支持多维度的数据展现形态。
可编辑
.
1.2.6.2 大数据多维分析查询系统
(1) 架构设计
SDC UE大数据多维分析查询系统整体架构如下图所示: (2) 功能模块 ➢ 多数据源管理
支持多种数据源的连接,包括:主流关系型数据库RDBMS、Excel/CVS文本数据源、基于hadoop的大数据平台数据源以及其他多种JDBC数据源。
类型 数据源描述 可直接使用已有数据源,也可以定义新的数据源。支持:Oracle、MySQL、SQLServer、RDBMS数据源 PostgraSQL等主流关系型数据库。 支持高级数据源 基于JDBC的数据集市DataMart、基于hadoop的大数据平台数据源 Excel数据源支持 集成大数据基础平台 API定制化的第三方可直接上传.xls .xlsx 或.cvs 文件,并可读取其中的每个sheet页签。 集成大数据基础平台,实现一体化解决方案。 预留通过标准的API接口,实现读取第三方自定义定制化数据源的能力。 数据源 ➢ 数据建模
数据源建好之后,支持对数据表进行进行数据建模,构建BI分析需要的维度、指标。大数据多维分析查询系统支持星型、雪花模型,拖拽式可视化建模。模型创建后,系统自动生成Cube,供BI分析使用。
平台智能识别出维度和指标信息,并且支持对维度、指标的转换。 ➢ 工程化管理
支持工程模式的管理,一个工程下支持多个页面,也支持多个分组,分组下还可以新建页面,便于对多个可视化页面进行分类管理。工程发布后,工程名字即是发布报表的一级菜单,里边的分组是二级菜单。
可编辑
.
支持对工程的新增、删除、发布、复制、导入、导出功能。 ➢ 可视化编排
SDC UE大数据多维分析查询系统是基于纯JS代码开发的IDE,可以在各种浏览器下实现报表制作。通过所见即所得拖拽方式实现灵活的可视化布局,极致的用户体验。您只需要通过拖拽,无需编程能力,在设计器上任意发挥创意,即可创造出专业的BI报表和可视化数据展现Web页面。
支持字体对齐,组件对齐,组件分布,组件层级控制等等,相关操作非常便利: 字体对齐支持:文本左对齐、文本居中对齐、文本右对齐。
组件对齐支持:左对齐,左右居中,右对齐,顶端对齐,上下居中,低端对齐。 支持组件横向自动分布,组件纵向自动分布。 画布上支持标尺,提供标尺对齐线。 提供坐标显示、设置,长度、宽度直接设置。 支持画布大小选择,自定义社会。
支持拷贝、粘贴、上下左右移、回退、重做、保存、全部保存等快捷键。 当组件重叠的时候,支持设置组件层级,可以置顶或者降底。 样式
支持对不同的组件,包括基础组件、图标组件、GIS组件等设置不同的样式,以满足不同的需求场景。
柱状图属性配置 面积图属性配置 主题
系统可以改变整个报表设计器的主题风格。 报表主题可以改变报表页面的主题风格。 模板
可编辑
.
为了提高开发效率,为开发者提供了自定义布局模板和业务模板的保存。方便后续的项目可以继承之前项目的一些成果进行复用。布局模板只继承页面设置框架。业务模板在布局模板的基础上集成了和业务相关的数据模型的绑定。
可以将饼图和一个混合图配置好之后,把他们一起保存为自定义业务组件,保存到平台中。下次相同的业务场景,就可以直接将这个自定义业务组件“饼图+混合图组合组件”拖到页面中,不需要再重新配置。
➢ 组件库
系统既支持柱状图、折线图、饼图、雷达图、散点图、玫瑰图、气泡图、矢量地图等多种基本图表,同时支持漏斗图、词云图、GIS地图等特殊图表,满足不同场景的数据展现需求。特别是系统支持丰富多样的WEB组件。
图表组件
当前支持的有:面积图、条形图、趋势图、混合图、饼图、折线图、柱状图、折线堆积图、柱状堆积图、面积堆积图、表格、条形堆积图、南丁格尔玫瑰图、嵌套饼图、仪表盘、大规模散点图、标准气泡图、漏斗图、雷达图等等,样式丰富,且支持自定义扩展。
图标组件及相关功能介绍如下: 表格组件
SDC UE大数据多维分析查询系统具备灵活额表格组件,实现对详细数据的表格化呈现。 表格的能力支持:每页行数控制、加载上限、滚动高度设置、单元格冻结、复选框、行序号、分页、搜索、多了排序、表头设置、数据区设置、背景及背景图片设置、奇偶行设置、边框设置、网格线设置,同时支持动态筛选、动态列选择、动态排序、异步加载、表格渲染、数据导出等动作。
➢ 地图组件 GIS地图
GIS组件支持用户自定义图层,提供多种控件和渲染方式,支持两种底图,支持卫星图。将带
可编辑
.
有“地域性”或“区域性”特征的信息通过地图的形式进行展现,更加直观地监控每个地区的业务情况。
GIS组件功能列表:
一级功能 二级功能 基础图层 功能点描述 支持卫星、矢量、地形图三种,支持天地图、google、高德的底图 通过图层展示业务数据绑定的结果,支持用户在地图上进行对象选择,并进行业务属性查询。每个图层上承载的是单一类型的对象,可以对图层管理 业务图层 应一种渲染规则。支持第三方业务图层,如县级以下行政区划边界,河流、道路等,自定义图标、展示字段、符号样式、可以设置过滤条件 图层事件绑定 空间数据模型 模型绑定 业务模型绑定 基本渲染 渲染设置 条件渲染 热力图 图层管理控件 图例 放大缩小 拖拽平移 卫星/矢量底图切换底图,依赖基础图层配置 切换 控件 测距、测面 鹰眼图 比例尺 筛选器 距离、面积测量 支持业务模型关联,配置关联条件 按照图层类型(点、线、面)提供不同的基础渲染形式 可根据业务数据配置条件,满足不同条件采用不同的渲染形式 支持热力图渲染,可调节模糊半径、取值范围以及渲染配色 控制图层的显示、层级、透明度以及文字 可根据图层和渲染器配置,设置显示图例类型和样式,支持图片图例 地图放大缩小 支持鼠标拖拽 支持图层响应鼠标单击,支持弹窗、跳转、联动 支持空间数据绑定 显示比例尺 可按模型和图层设置过滤条件 按图层检索定位,能够控制检索范围(当前业务图层,本期不支持第位置检索 三方接口的位置检索) GIS图层设置:
可编辑
.
GIS筛选器设置: 矢量迁移地图
支持迁移、流向场景的质量地图。用于直观地体现各种数据在省(直辖市)、市(州)的流动。 矢量分布地图
支持全国、省(直辖市)、地市(州),三级分布地图。
让用户非常直观地监控不同地区的业务发展和绩效情况。地图区域采用不同颜色进行显示、或在地图区域上放置不同颜色的旗帜,决策层可以清楚了解企业的战略执行,并通过在地图上实现下钻操作及联动图形,探索问题的根源,增强洞察力。
多维BI分析
SDC UE大数据多维分析查询系统提供了各种常见的OLAP分析操作,除基本的分组聚合外,还可以进任意多维度分析,包含:钻取、切片、切块、旋转、排序、过滤等分析功能。
拖拽式自由分析
在多维BI分析一体化工作台中,您可以选择任意数据模型中的任意维度、度量进行自主拖拽分析。同一个模型中,所有的数据已经关联在一起了,这就决定了多维及时分析的自由度。同时,在一个页面就能进行数据模型选择、维度指标选择、图表选择、图表样式设置、数据预览。
多层钻取
在进行BI分析时,支持自由创建维度间的层级关系,构建维度分级。将具备层级的维度应用到各种图表上,即可实现自动多层钻取能力,逐层分析和查看各种数值情况。下钻之后,还能自由地返回上级。
组合过滤
提供以条件过滤的方式进行多维切片、切块分析。条件过滤可以应用到任意一个维度,即使该维度没有被用在图表上进行分析,增加了过滤的宽泛和强大性。过滤条件支持:大于、小于、大于等于、小于等于、包含、不包含、不等于、等于等各种条件判断,同时,每个条件判断支持采用逻
可编辑
.
辑表达式的方式组合,形成强大的过滤模型,满足各种切片和切块需要。
聚合
在数据分析工作中,除了对普通数据的维度、度量进行直接分析和观察数据的整体效应外,分析平均数、最大值、最小值、分位数等需求也是常见的。如果汇总方式仅有单一的求和汇总,则很难满足这类需求。
在SDC UE大数据多维分析查询系统中,能进行数据动态呈现的所有表格、图表、基本WEB组件除可进行分组或交叉汇总外,可以针对以选择的任意度量进行求和、求最值、求平均、求分位数等,并且它们之间可以实时切换。
自定义计算度量
度量(指标)可以来自于原始的数据字段,同时也可以是通过公式计算得来。
SDC UE支持创建自定义计算字段。这些新增字段是通过原有的一个或者多个数据字段,采用几十种普通的数学公式函数计算而来。比如:有一个垃圾短信字段、一个正常短信字段,那么在原本没有总发送短信字段的时候,就可以通过这两个字段相加而得到。
数据格式转换
针对度量数据,支持在分析时对这些数据进行格式转换,包含:时间转换、浮点数转换、流量转换、百分比转换、单位转换、经纬度转换、枚举值转换、服务区时间转换等等,还可以采用JavaScript代码,自定义转换函数。
数据格式转换及自定义代码 页面级编排
SDC UE大数据多维分析查询系统不仅仅能进行BI分析,编排通用的Dashboard报表页面,也能基于丰富的WEB组件,像Dreamweaver一样设计出用于数据呈现、数据查询、数据联动、数据分析的全套WEB系统。
相比于普通可视化分析产品只能编排出全图表式的Dashboard页面,SDC UE编排出的WEB
可编辑
.
页面支持丰富的WEB组件,以进行数据查询、图表之间联动、页面间联动和参数传递。
WEB表单组件
为了在进行BI分析的同时,也能编排出一个完整的数据呈现WEB系统。SDC UE增加了独有的WEB表单组件。通过这些组件,可以设计出多样化的,具备交互能力的WEB系统。使得BI分析和页面展现一体化。
当前支持的有:文字控件、文本编辑、按钮、下拉框、单选框、复选框、上传组件、时间组件、矩形组件、开关组件、超链接组件、树组件、表单容器、Tab容器、查询容器、图片、菜单、行布局、状态设置、列布局、iframe容器、胶片容器、线条等等,样式丰富,且支持自定义扩展。
部分WEB组件的功能介绍如下: 动态查询
丰富灵活的查询条件,支持运行时动态查询。
通过丰富的查询手段,既能满足普通用户自助式的简易查询需求,又能满足数据分析师的专业需要。业务用户可以轻松的访问、浏览和探察数据;满足业务人员自助式的、零编程的、快速的定制查询,数据分析。
事件可编程
可以为大多数组件设置事件动作的响应,包含:左键单击、左键双击、鼠标进入控件、鼠标划过控件、鼠标离开控件、控件初始化完成、控件渲染完成等等。
联动设置:多表可配置进行维度、度量关联分析,帮助用户深入了解数据关系。支持多表联动,单向联动,多向联动。联动操作触发的控制条件:
可以选择多种动作类型,包含:联动、跳转、服务调用、弹出窗口、关闭窗口、自定义动作。 事件触发后的组件动作:
跳转设置:可以通过跳转功能,来实现钻入和钻出的效果,跳转到预先设置好的不同维度的页面,查看下级数据。同理也可在钻入后的页面设置跳转动作到原页面,实现钻出效果。在钻入钻出
可编辑
.
的同时,支持带入参数值,并且可以自定义写入代码来实现相关效果。
调用接口设置:当组件所对应的的事件动作类型为服务调用时,可以设置服务访问类型为API接口。当点击URL之后,可以选择预先定义好的接口来进行触发相应的处理,如查询数据,事务处理流程等等。
接口选择页面,支持检索和分页:
弹窗设置:当组件所对应的的事件动作类型为弹出窗口时,可以设置弹窗内容,以及通过参数设置,可以控制弹出窗口的样式如标题,背景色,遮罩等等。
JavaScript开发接口:当需要配置的参数格式不满足项目要求时,开发者也可以通过Json代码自定义参数,通过代码转换成自定义参数。
实时分析/计算引擎
独有的实时分析/实时计算引擎将会帮助SDC UE相比传统的 BI 系统得到十倍以上的提升。针对 TB 级、PB 级的数据量的所有分析请求能根据不同请求对象自动进行负载均衡,保障结果能在一秒之内返回结果。这一架构的好处及技术显而易见的:
尽量发挥机器系统的特点,避免远程访问数据库,加快数据的计算; 精心设计的存储结构以利于高速运算;
特有的跨粒度计算、内存计算、流计算、库内计算、列存储、并行计算等技术来加速数
据的计算;
避免频繁的 IO 访问和远程访问数据库。
得益于SDC UE大数据多维分析查询系统跨粒度计算,所有的计算都会被以最优化的方案转化为库内计算,从而获取最好的性能。各种常见的汇总函数,以及几乎所有的统计函数都支持。为了更好的理解数据,我们提供了自定义模型能力,可将以形成业务模型进行引用。
我的报表 发布与授权
可编辑
.
SDC UE大数据多维分析查询系统的页面支持按照工程级发布,在发布时,可以对这个工程及所有页面进行授权管理,确定能被哪些用户查看。
报表查看人员可以在“我的报表”查看在自己权限内的所有报表工程以及相关页面。报表发布页面以缩略图的方式只管呈现。
导出
每个Dashboard报表支持多种方式的导出,包括: 针对单个图表,支持以图片的方式直接导出到本地; 支持将页面编排效果导出为PDF格式的文件。 引用
SDC UE大数据多维分析查询系统发布的报表工程、页面,能通过URL或者API接口方式嵌入到第三方应用系统。根据安全要求以及第三方系统特性,同时支持免登陆方式和权限认证方式。
集成与安全 基础管理
提供完整的基础管理系统,包含:地区管理、部门管理、人员管理、安全管理、日志管理、系统设置等。提供统一的登录认证门户。
安全管理
提供用户、角色、权限三级管理机制。通过用户管理控制进行按照部门、地区、不同角色、不同用户进行精细化授权。
对于URL的访问安全,同时支持免登陆模式和认证模式。对于免登陆模式,可以直接打开URL页面。对于一些需要进行权限保护的URL页面,系统提供统一的权限管理机制,所有试图打开SDC UE大数据多维分析查询系统所发布的页面URL的第三方系统,都需要申请和登记,系统会为这些系统分配唯一标志,只有符合条件的系统才能够调用SDC UE大数据多维分析查询系统的报表页面。因此,就算外部系统或者其他人员拿到了这些URL页面地址,也无法访问。
可编辑
.
对于数据安全,在报表配置页面,针对每一个维度、指标,都可以进行脱敏处理,包含:对数据加密显示或者屏蔽显示。
部署与集成
SDC UE大数据多维分析查询系统能够非常方便的与其他应用进行集成。提供专门的SDK组件、丰富的二次开发调用接口,配以深入浅出的帮助和样例文档,让开发者很容易就能上手。
在平台集成和客户化功能方面,大数据多维分析查询系统开发的报表是完全基于HTML5技术,可以灵活和第三方进行集成应用和跨平台部署。
平台支持基于CAS认证的标准SSO单点登录技术和接口,可以很轻松地集成其他业务系统,同时也能被集成到第三方业务系统(要求提供标准的SSO接口)中去。
国际化
SDC UE大数据多维分析查询系统支持中文、英文双语版本,支持双语实时切换,面向全球的客户使用。无需单独购买版本。
(3) 功能特性 极致的用户体验 ✓ 安装和维护成本低 ✓ 支持一键式自动部署
✓ 无需技术背景,业务人员即可操作
✓ 只需部署一次,使用人员无需单独安装,随时随地办公,只需要一个浏览器即可 丰富简单的数据建模
✓ 主流关系型数据库(RDBMS) ✓ Excel/CVS文本数据源
✓ 基于类hadoop的大数据平台、数据仓库、数据集市 ✓ 其他JDBS/ODBC数据源
可编辑
.
✓ 灵活数据建模功能,让零基础用户轻松驾驭多源数据 自由式轻松编排
✓ 全拖拽式图形化编排,只需要动动鼠标 ✓ 自由布局,自动排版
✓ 多种样式主题,一键切换,一键整体换肤,无需单个配色 ✓ 多种排版工具栏、快捷操作,具备Microsoft PPT一样的编排体验 惊艳的组件
✓ 多达50个以上的图表组件 ✓ 支持3D图表 ✓ 支持GIS地图组件
✓ 支持矢量地图(分布图、迁移图等) 多维度智能分析
✓ 支持多维分析:多层钻取、切片/切块、旋转、排序 ✓ 支持并行计算,内存计算,秒级刷新 ✓ 支持动态绘制、动态刷新、动态维度切换 简单而又有深度
✓ 以用户为本,支持多用户类型
✓ 具备面向业务人员的傻瓜相机式使用,也支持专业人员的单方相机式使用 ✓ 支持一键式、傻瓜式、自动式编排和分析 ✓ 全称无需编码也能轻松设计输出报表 ✓ 支持复杂的WEB系统级设计
✓ 支持复杂多样的组件事件配置、事件响应动作、参数传递 ✓ 支持采用Javascript、JSON等脚本语言进行自定义编程
可编辑
.
安全可依赖
✓ 提供地区、部门管理,支持集团式、分区式用户权限管理 ✓ 提供用户、角色、权限三级管理 ✓ URL集成具备免登陆式和权限认证式 ✓ 支持数据级别访问安全控制 1.2.6.3
大数据智能分析系统
(1) 架构设计
SDC Miner大数据智能分析系统整体架构如下图所示:
SDC Miner大数据智能分析系统是以数学模型训练从创建,到模型管理应用,全生命周期为核心的体系化建设方案,并在此基础上,拓展多样化的数据输入、导入接口,并建立基于客户账户个性化应用的算法管理体系,并辅以基础管理功能提供整体管理功能。从而实现客户多样化体系化的算法模型应用需求。
(2) 功能模块
大数据挖掘是一项系统性的工程,其涉及到数据探索、数据处理、模型建立、模型训练等一系列过程。因此,单一的步骤不足以表示大数据挖掘的全过程。SDC Miner大数据智能分析系统使用建模的概念来表示整个过程。其主要建模流程及功能如下所述:
数据源
关联数据是建模的第一步,用户可以在数据源直接连接数据库或导入本地数据,并可通过新建文件夹或保存到相关的文件夹的方式来对数据进行方便有效的管理。
支持多种数据库类型
✓ 基于大数据的 HIVE、HDFS 等;
✓ 传统关系型数据库Oracle、Mysql 、DB2、PostgreSQL等。 支持多种格式的本地数据
可编辑
.
本地数据支持类型:excel、txt、csv等。 模型训练
建模过程是一个不断尝试不断探索的过程。用户从原始数据出发,经过对数据的探索和处理,运用合适的算法,最终形成业务上可用的模型。
图 流程设计示意图
易用性模型搭建
在SDC Miner大数据智能分析系统中,每一个流程都是由多个算法组成,复制一个算法的同时也复制了其参数配置,极大的方便了用户快速构建大规模数据挖掘系统。每个算法接受若干输入,产生若干输出。每个算法的输出都可以作为其他算法的输入。用户只需把自身业务系统相关的算法拖拽到设计面板内,按需连接输入输出端,即可完成流程设计。
多类型算法支持
SDC Miner大数据智能分析系统内置 流程多分支设计
在建模的过程中,会有很多尝试性的步骤,用户还可以通过在流程设计中添加算法分支的方式来对比进行不同的尝试方法,然后根据预测结果找到最佳的预测算法,帮助客户产生更多价值。
流程管理
✓ 在流程设计过程中,用户可以随时保存操作步骤,下次打开该流程时继续进行设计。 ✓ 当流程设计完毕后,用户可以保存设计步骤,这样就可以在同类型条件下使用该流程来输出模型结果,大大缩减了流程重设计的时间。流程只记录了原始数据如何一步一步转换为最终模型结果的过程,所不同的是,该流程只保留了输出模型结果的必要步骤,不再保留用户在建模时所做的尝试性工作。
可视化结果
建模的目的就是将读取的数据通过一系列算法组合得到最终的模型结果。然后通过数据统计和
可编辑
.
分析图表等可视化的方式展示,供用户更直观的从图表中发掘数据背后的意义。
实时监控
在模型搭建或运行期间,用户可随时查看每个算法的运行状态、运行结果和时间。还可查看其运行日志,便于用户排查运行故障。
自定义算法
SDC Miner大数据智能分析系统从业务落地出发,帮助客户有效的管理大数据挖掘的各个阶段,不仅为客户内置了丰富多样的数据挖掘算法,同时也为用户提供了强大的自定义算法功能及其便捷的管理系统。
客户可根据自身业务需求上传算法JAR包,并可对自定义算法进行编辑、启用、停用和删除操作,以便于对算法进行管理。
编辑自定义算法:用户可根据业务实际需求,对自定义算法进行基本信息、端口信息、参
数信息相应的配置;
启用自定义算法:启用某个自定义算法后,它将在算法库的相应分类下展示,便于用户设
计流程时调用;
停用自定义算法:停用某个自定义算法后,它将在算法库的相应分类下删除,便于用户对
算法库进行整理;
删除自定义算法: 删除某个自定义算法后,它将在算法库和算法列表中同时删除(但不影
响占用流程的运行),便于用户对自定义算法的管理。 (3) 功能特性 强大的预测模型
✓ 提供行业里最全面的系列建模技术 ✓ 支持GB到PB级数据量训练 超大数据集
可编辑
.
✓ 高吞吐量的数据读取
✓ 高可扩展性,轻松应对数据量持续增长 高性能处理
✓ 高效的并行化处理方式
✓ 流式的数据访问,一次写入多次读写 ✓ 高效的结构化、非结构化处理性能 简洁的模型训练
✓ 无需编写代码,简单拖拽即可操作 ✓ 可快速创建、更新模型配置 流程多分支同时训练 ✓ 支持流程多个分支同时训练
✓ 提供简洁易懂的可视化分析报告对比训练结果 丰富的数据挖掘算法 ✓ 几十种数据挖掘算法 ✓ 可覆盖各类业务分析需求 强大的扩展性 ✓ 支持多种类数据源
✓ 可以支持Excel、txt、csv等本地数据
✓ 可连接HIVE、HDFS、Oracle、Mysql 、DB2、Postgresql等数据库 可信赖的安全控制
✓ 提供用户管理及多种权限控制设置 ✓ 支持数据级别访问安全控制 ✓ 支持资源级别访问安全控制
可编辑
.
1.2.7 数据管理服务平台
数据管理服务平台是一个管理、展现平台,主要包括:数据治理与监控系统、数据服务集成管理系统和大数据展现门户等。 1.2.7.1
数据治理与监控系统
(1) 架构设计
SDC数据治理与监控系统是对数据资产管理行使权力和控制的活动集合(规划、监控和执行)。数据治理职能指导其他数据管理职能如何执行。
大数据治理贯穿在数据管理的整个过程中,重点关注的是有关数据的战略、组织、制度等高层次的话题,并通过制定和推行战略、组织、制度,将其他几个数据管理职能贯穿、协同在一起,让数据治理工作能够成为一个有机的整体而不是各自为政。
数据治理与监控系统,作为数据平台的管控系统,从制度、标准、监控、流程结果方面提升数据信息管理能力,解决目前所面临的数据标准问题、数据质量问题、元数据管理问题。建立统一、规范并且唯一的数据标准来解决信息交互、集成、统计、决策等诸多难题,有效地提高检验管理过程控制和质量.
SDC数据治理与监控系统平台架构如下:
图 数据治理与监控系统平台架构图
(2) 功能模块 1) 治理准备
治理准备主要依托元数据完成数据标准的建立,实现从逻辑建模到物理建模的全过程管理。 治理准备功能模块不仅提供技术元数据,如建模设计、数据元、代码集,数据集等,还提供业务分类、段码管理等业务元数据。丰富、灵活的、规范的元数据管理为实现互联互通、信息共享、业务协同以及安全可靠提供必要前提。
a) 数据元管理
可编辑
.
数据元标准管理主要包括数据元管理、数据类目管理以及代码管理功能。数据元的表示规范遵循 GB/T 19488.1-2004。
数据元的类型支持中文字符,字母字符,数字字符,数值型,字母数字字符,日期型,时间性,二进制类型(用来表示图形,相片,图片之类的数字流):
➢ 提供对数据元进行新增,修改,删除,导出,导入等功能; ➢ 支持分数据元类目对数据元进行管理和维护;
➢ 提供对数据元类目进行新增,修改,删除操作,用户可以根据自己需要自定义数据元类目,
然后对数据元进行管理;
➢ 支持按照数据元名称、标记等不同维度对数据元进行查找,方便用户对数据元的定义、格
式等关键信息进行了解。 数据元管理界面: 数据元新增界面: b) 代码集管理
用户可以通过代码集管理模块对所需要的所有代码集进行管理、维护,主要操作包括新增,修改,删除,导出,导入;
可通过代码名集名称、序号等信息对代码集及其代码进行查找,已查看代码集的取值范围。 代码集管理界面: 代码集新增界面: c) 数据集管理
数据集,即数据的集合。主要用于对数据元分类管理,并建立数据项。 数据集管理主要包括:
➢ 支持代数据集管理操作:新增、修改、删除、查看、查询; ➢ 支持前段码的发布功能;
可编辑
.
➢ 支持段码模板的下载和数据的导入导出功能。 数据集管理页面: 新增数据集页面: 添加数据项页面: 查看数据集页面: 查看数据项页面: 数据集送审页面: d) 目录管理
采用目录服务技术,对数量多、分类广、分散在不同机构的信息资源特征进行描述;通过对目录内容采用灵活的多级目录配置方式,根据使用者适合自己业务领域的信息资源目录查找关心的信息资源,并可对资源信息进行维护,形成机构之间信息资源物理分散、逻辑集中的信息共享模式,实现以目录树的形式展现标准信息,帮助用户查找定位目录内容。
若在上级目录系统或其他平台已有目录,在目录标准中需要创建时,只需配置好相关连接信息,通过Webservice,调用其他系统的信息到目录标准管理进行自动编目,不需要进行二次创建和配置,节省使用者的配置时间,提高工作效率。
支持逐级对不同的目录类型(如主题目录,资源形态目录等)的目录进行新增、修改、删除等操作,并支持对目录进行编号以及对目录类型的增加、修改、删除等功能。
目录标准管理界面: e) 段码管理
段码管理主要是对信息类的编码进行管理,它分为:前段码和后段码;其中,前段码的分配需要办理人员向管理人员提出需求后,交由管理人员统一分配,避免信息重复。后段码为信息类进行审核并发布后,在后段码管理中对信息类的后段码信息进行查询。
前段码由5位数字组成,其中前2位主要区分不同的省、自治区等,第3位为省级目录管理者
可编辑
.
和政务部门,第4位为地市目录管理者和政务部门,第5位为区县目录管理者和政务部门,管理者通过选择所属地区和部门,自动生成相应的编码信息,如:29002,代表省发展改革委的编号,其中,290为省级部门管理者编号,02代表发展改革委的部门编号。
前段码的结构和规则具体如图所示:
图 前段码规则图
前段码管理界面:
后段码由7位数字和字母组成,其中前2位主要区分不同的部门,由省级目录管理者分配编号,第3位为大写字母,标识信息类所属类型,由各部门定义,第4位为大写字母,标识信息类主体类型,第5~7位由数字组成,由顺序号001~999组成;如:10AB001,其中10表示部门为XX高新区经济技术开区,A代表信息类所属业务类别为婚姻登记,B表示信息类主体类型为自然人,001代表信息类的顺序号。
后段码是各部门的信息资源,后段码的结构和规则具体如图所示:
图 后段码规则界面
f) 建模设计
支持可视化拖拽方式,对多种类型的数据库进行物理建模;
用户可在web界面上进行表分类、表创建、表关系配置,支持从多元数据库中读取已有表,并配置表关系。
物理建模管理界面: 物理建模设计界面: 2) 治理过程
治理过程,以校验和跟踪各个业务系统数据质量问题、提供数据质量提升的有效解决方案,最终提高业务数据质量为目标。通过项目建设,提高数据质量检查的有效性,为多个业务系统的数据质量保驾护航。
通过制定、实施数据质量检验,暴露各系统数据质量问题。持续监控各系统数据质量波动情况
可编辑
.
及数据质量规则占比分析,定期生成各系统关键数据质量报告,掌握系统数据质量状况。结合系统提供的清洗组件以及数据质量问题处理流程为各系统数据质量提升提供有效支撑。
a) 质量规则
制定统一的数据质量校验体系,统一数据质量度量、数据质量逻辑处理、执行的规范化步骤,可提升整体数据质量。对不满足要求的数据,可快速分析出数据的问题并闭环处理。
数据质量校验规则是为源系统中存在的数据质量问题建立标准数据规范,从而得到有效的、可用的数据。
质量规则管理界面: 质量规则设计界面: b) 任务调度
通过制定的规则、基础数据、数据映射关系,创建需要执行的数据校验任务。 任务调度界面: c) 调度历史
对已建立的数据校验任务,进行实时的、有效的过程化监控管理,让系统分析人员能够快速分析校验任务的执行状态、执行成功、执行失败情况。
调度历史: d) 问题数据
根据建立的规范的校验问题的处理流程,通过流程的处理流程对系统中未处理、已处理的数据质量问题进行统一管理。
问题质量问题流程: 数据问题处理界面: 3) 治理结果
提供多维度的进行数据关联,建立复杂的数据魔方地图来满足数据分析需求。
可编辑
.
系统不仅提供基于DB,HIVE的SQL语句查询。 a) 数据配置
支持按表导入数据;灵活的数据表拖拽、自定义条件和显示字段数据功能。能够根据不同的业务场景,自定义拼装想要的数据。
数据填报:支持模板下载,数据导入。 数据填报界面:
魔方配置:支持表拖拽,条件配置,魔方授权。 魔方配置管理界面: b) 数据资产
支持数据查询,数据台账,数据网盘,数据魔方,资产目录。 c) 数据查询
支持对结构化数据进行管理和查询,包括关系型数据库,HIVE。 数据查询界面: d) 数据台账
对校验完成的数据进行统一管理和存储,可查看、导出、删除结构化数据; 支持按分类、按部门、按表进行检索。 数据台账查询界面: e) 数据网盘
对校验完成的数据进行统一管理和存储,可查看、导出、删除非结构化数据; 支持按分类、按部门进行检索。 数据网盘查询界面: f) 数据魔方
支持按照业务跨库重新组装数据能力。
可编辑
.
数据魔方查看界面: g) 资产目录
3D动态展示目录资源与数据集之间的关系,能快速定位资源。 资产目录界面: h) 共享服务
支持服务的创建,授权和发布。 服务管理界面: 4) 审核管理
严谨的、规范化的审核管理机制,进一步加强了元数据的有效性、合理性和易用性。 审核管理是用于审核送审的目录分类和数据集信息。包含: 审核配置:用于对审核类型的操作人员进行授权。 审核任务:对送审的数据集或目录标准进行审批。 a) 审核配置
通过审核配置,用户可将目录分类和数据集审核权限授权给审核人员,被授权人员可进行审核操作。
审核配置页面: b) 审核任务
用户可批量审核任务或进行单条审核操作,支持目录分类与数据集的审核功能,支持审核任务的查询与查看。
审核任务页面: 审核任务查看页面: 5) 系统管理
系统管理模块主要提供数据源,映射关系,系统日志管理和目录分类。
可编辑
.
a) 基础管理
提供基础数据的配置,例如:地区的配置、部门的配置、用户的配置等。 b) 数据源配置
管理员在资源库配置中设置数据库表相关信息,如:数据库表名、实例名、服务器IP、用户名、密码等。
支持各类数据库的连接,如:Oracle、MySQL、HIVE,HBASE;能够适应目前大数据的需求。 数据源管理界面: c) 目录分类
支持目录分类的新增与管理。 目录分类界面: d) 映射关系管理
映射关系管理:建立源数据和数据字典之间的链接关系,通过关系的建立,可查看治理后的标准数据;
支持映射关系自动匹配功能和自定义配置功能。 映射关系管理界面: e) 系统日志
查看用户的操作日志。 系统日志界面: (3) 功能特性 行业标准规范管理
针对数据中心的数据结构建立标准,制定校验标准、开放标准、访问标准、技术标准等。提供基于行业、主题、服务的统一标准规范制定功能,包括目录、信息类、数据元以及代码集;为实现互联互通、信息共享、业务协同以及安全可靠提供必要前提。
可编辑
.
全生命周期管理
支持从数据标准建立,数据质量治理,数据资产管理,数据分析整个全生命周期的数据管理能力;提供数据全生命过程的任务调度和监控能力;提供数据资产的统计分析能力。
提供数据标准梳理工具,使得元数据更合规;支持策略集的质量巡检方式,保障数据的完整性;建立数据治理规范体系,形成治理趋势分析。
数据存储质量
数据的存贮质量是指数据被安全的存贮在适当的介质上,采用了适当的方案和技术来抵制外来的因素,使数据免受破坏。
数据安全加固
提供全方位数据清洗,校验和加密能力,保障数据的一致性,完整性、唯一性和准确性;提供配置化的度量规则和校验方法生成能力,提供灵活的调度执行能力;灵活生成数据质量评估报告。
支持数据及资源级别访问安全控制,可灵活对脱敏数据进行管理。 可视化建模设计
支持可视化拖拽方式,对多种类型的数据库进行物理建模;
用户可在web界面上进行表分类、表创建、表关系配置,支持从多元数据库中读取已有表,并配置表关系。
多维度数据管理
支持对结构化数据,半结构化数据和非结构化数据的管理和查询,包括关系型数据库表,视频,文档、图片,音频等。提供基于文本、word的全文检索。强大的可视化文件管理能力。
支持按照业务跨库重新组装数据,查询数据,开放数据的能力。 无缝集成数据源
可编辑
.
支持多种主流数据源的数据治理管理能力,如:Oracle、Mysql,Hadoop等,实现数据源的无缝集成。
全景化信息开放与检索
支持主题的数据台账;基于元数据的信息管理,提供3D数据资源目录与导航;多渠道的数据访问机制(Hadoop、Hbase、API、Webservices)。 1.2.7.2
数据服务集成管理系统
(1) 架构设计
SDC Publication数据服务集成管理系统产品,旨在为用户提供符合SOA架构的中间件运行环境和开发管理工具。它基于工业标准( HTTP/s,JMS,XML,SOAP,WSDL等),实现了对服务化技术的全面支持,并提供了分布式的企业服务总线ESB功能,确保应用系统间互联互通的可靠性和松耦合。
数据服务集成管理系统还提供了从企业应用集成的设计、开发、部署,到运行、管理、监控各个生命周期阶段的工具,方便用户充分利用SOA方法,解决企业应用与服务集成问题。
1) 体系架构图
SDC Publication数据服务集成管理系统产品由开发工具、ESB服务器和管理中心3大核心部分组成。
图 数据服务集成管理系统组成结构
ESB服务器
ESB服务器是数据服务集成管理系统产品的运行环境,是流程、适配器、组件的运行服务器。使用者创建的流程均部署、运行在ESB服务器内。
ESB总线
SOA体系结构中ESB(企业服务总线)处于服务消费者和提供者的中间,提供中介功能来完成服务提供者的查找、访问、路由及服务治理等功能。ESB总线提供寻址转换、访问、路由等常用
可编辑
.
能力。
此外,ESB总线提供了对同步/异步等通讯方式的支持,集成了基于JMS标准的消息通讯方式,便于创建服务、流程间的可靠消息传递、消息的路由、和发布订阅等分布式集成应用。
流程引擎
用户使用开发工具创建提供服务中介功能的流程,ESB服务器内置的流程引擎解释并执行流程,实现应用系统的接入和服务化,以及已有Web服务的中介转换。
适配器
适配器是外系统接入业务集成平台的桥梁,是多种异构系统之间互连互通及互操作的重要组件。数据服务集成管理系统提供的适配器分为入站适配器和出站适配器两类,分别用于外部应用系统调入到ESB,以及ESB调出到外部应用系统。
开发工具
开发工具是用于配置中介流程、组件及适配器开发工具,它提供了完整的从设计、开发、配置到打包部署整个阶段的GUI(Graphical User Interface,图形用户界面)工具, 帮助用户快速利用和充分发挥数据服务集成管理系统的服务中介功能。
管理中心
管理中心包括系统配置、运维、监视、服务目录4大功能模块,是对ESB服务器及部署在ESB服务器上面的服务、流程、共享项目等运行状况的集中监管。
管理中心采用最新互联网技术,以“服务”为核心,在运、管、监层面支持强大的数据可视化能力。
管理中心提供REST API,方便用户快速扩展和自行实现。 (2) 功能模块
数据服务集成管理系统产品主要功能列表。
能力 功能模块 功能点 可编辑
. 提供对消息头、消息体、消息属性的处理组件(设置、移除等操作); 消息处理 式自定义消息处理。 ESB总线 格式转换 器; 支持对DOM、XML String、SDO、JAXB、Byte数组等数据类型的转换; 提供可扩展能力,允许以表达式语言方式自定义转换,支持多种表达式语言:javascript、xpath、xquery、simple、method、header、property、constant; 流程引擎 流程控制 定时器适配器 多种策略,对流程进行调度功能 支持WSDL1.1、SOAP1.1/1.2、UDDI2.0、WS-Security 1.0等规范; 适配器 Web Services 适配器 有Web服务; 提供完善的安全保障,包括HTTPs、消息加密/解密、消息签名/验签、身份认证(用户名/密码、证书)等,并提供基于JAAS方式的身份验证扩展; 提供Web Services附件处理能力,支持发布Web服务和调用外部已串行执行(PipeLine) 扇出(MultiCast) 内容路由(Choice) 动态路由(RecipientList) 内容丰富(Enrich) 消息过滤(Filter) 消息分割(Splitter) 事务处理(Transaction) 异常处理(Try-Catch) 支持定时、周期、配置时间表等支持XSLT转换,提供图形编辑提供可扩展能力,允许以Java方可编辑
. 支持将超大附件转储成临时文件的功能; 支持和多种开发平台进行交互:Axis、Axis2、CXF、.net等; 支持动态路由功能。 支持对文件目录/子目录下变化文件的监控捕捉,提供通配符、正则表达式等多种文件匹配模式; 文件适配器 多种后置处理操作; 输出方式。 送消息的功能; 对象等多种消息类型; JMS适配器 式; 久/非持久等属性; 支持动态路由功能。 支持HTTP/HTTPS 1.1规范; 既支持访问外部HTTP服务,也支持对外发布HTTP服务; HTTP适配器 请求命令; 支持REST; 支持HTTP post/get/delete/put等支持消息优先级、消息超时、持式; 支持请求、请求/应答两种处理模支持点对点、订阅/发布等消息模支持文本、二进制、键值对、流、支持JMS1.1规范,提供接收和发支持文件内容追加、覆盖等多种支持按文本、二进制、流等多种文件内容解析或生成方式; 支持文件移动、删除、重命名等可编辑
. 支持动态路由功能。 支持静态配置SQL语句、动态传递SQL语句、动态传递SQL语句参数等方式; DB处理组件 类型相互转换。 系统配置 角色定义; 运维 运维; 及相关的审批; 服务目录 管理中心 类型、服务源等; 监视 提供服务关系的查看,包括访问者、访问IP、访问者说明等; 提供运行监视的查看,包括历史和实施的单服务和多服务对比的可视化展现。 日志&告警 发; 开发工具 记录性能监控统计数据; 异常告警与通知功能。 可视化拖拉拽方式的流程设计开记录流程级日志; 记录流程跟踪明细数据; 服务的发布、卸载; 服务的分组、分类; 服务的查询。 按照服务的分类、运行状态、管控状态、接入类型进行可视化展现; 提供服务详情的查看,包括接入服务的发现、注册、变更、注销,ESB服务器和服务的增删改查等用户权限管理功能,基于用户和支持消息格式与DOM、JSON等 内置常用的流程控制、消息处理、数据转换、适配器等组件; 可编辑
. 提供共享项目机制,Java程序资源可以被多个服务流程共享; 流程逻辑和部署环境相分离; 支持和CVS、SVN等版本控制库集成,满足团队开发的需要; 功能。 支持对开发Java代码的在线调试a) ESB服务器
标准的ESB总线
内置支持开放式标准的ESB总线,提供服务的定义、开发、注册、认证、路由、监控、审计等功能,支持同步/异步、单向/双向等多种服务调用及通讯方式,支持JMS、Http/s、等标准通讯协议和消息格式,可与消息中间件无缝集成,能够实现分布式异构系统间的松耦合,可以灵活地应对不断增加的应用集成需求,成为用户可信赖的SOA基础设施。
表:数据服务集成管理系统支持工业标准
标准领域 支持的标准 WS-I Basic Profile、SOAP、WSDL、WS-Attachment、MTOM、WS-Security、JAX-WS、Web服务 JAX-RPC、JAAS、SAAJ、REST 服务注册发现 通讯协议 数据类型与处理 监控管理及其他 REST JMS、HTTP/s、JDBC、SOAP、REST CSV、XML、XPATH、XQUERY、XSLT、JAXB、DOM、JSON、JAVASCRIPT REST、JMX 跨平台、轻量级架构
基于Java实现,保证了集成平台本身及创建的服务、组件和业务流程应用能够跨平台部署和运行,支持市场上常见的Linux、Windows及大多数Unix操作系统。
采用OSGi轻量级架构,可以复用更多第三方应用组件,可以方便地定制和扩展适配器组件,可以进行应用组件的“热插拔”而无需停止正在运转的ESB系统,方便小业务模块变更。
可编辑
.
支持分布式应用及部署
ESB服务器支持分布式应用及部署,用户开发的服务流程可以分布式部署到网络上的多个ESB服务器,实现分布式运算和应用,并支持分布式网络的可靠、安全及高效通讯和消息传输,这可以大大降低集中式部署带来的中心性能瓶颈。
支持企业级服务质量
提供对运行流程的监控诊断、错误告警等功能;提供事务机制、跨网络的消息可靠传输和安全机制、异常补偿机制,保证事务一致性。
提供安全保障
提供了基于WS-Security规范的安全保护机制。提供完整的Web Service跨网络通讯的安全机制,包括HTTPS、Web Service访问的身份验证机制,消息加密/解密传输机制,消息的签名和验签机制,在传输层、消息层、应用层提供安全防护措施。
b) 轻量级流程引擎
可根据业务需要,使用流程引擎将多个不同服务、组件等进行编排重组,敏捷支撑面向业务的实现和重组。
支持EIP模型
EIP(Enterprise Integration Pattern,企业集成模式)很好地总结了当前企业应用集成的各种模式,并提供了通用的概念和表达模型,使用户更容易完成应用集成的流程设计和模型描述,被视为基于消息技术解决应用集成问题的最佳实践。数据服务集成管理系统支持EIP模型,可以高效地解析、运行基于EIP模式的集成流程。
流程控制组件
提供多种流程模式控制组件,比如顺序执行、扇出、消息过滤、消息分割、内容路由、动态路由、内容丰富、异常处理、事务处理等组件,方便用户快速构建流程。
可编辑
.
流程调度组件
提供灵活配置的流程调度功能,支持固定周期和时间表两种调度策略。 c) 丰富的适配能力
适配器是外系统接入业务集成平台的桥梁,是多种异构系统之间互连互通及互操作的重要组件。
Web服务适配
支持Web Service规范族,提供调用外部系统Web Service的功能,提供将业务流程封装成Web Service供外部系统调用的功能。
提供完善的安全保障,包括支持HTTPs协议、消息加密/解密、消息签名/验签、用户身份认证等,并提供基于JAAS方式的身份验证和授权扩展机制。
提供Web Service 附件处理能力,支持将超大附件转储成临时文件的功能。 支持和Axis、Axis2、CXF、.NET等多种技术开发的Web服务互相调用。 支持动态路由功能。可在消息中动态指定调用外部系统Web Service服务的地址。 JMS适配
支持JMS1.1规范,提供接收和发送消息的功能。
支持文本、二进制、键值对、流、对象等多种消息类型;支持点对点、订阅/发布等消息模式;支持请求、请求/应答两种处理模式;支持消息优先级、消息超时、持久/非持久等属性。
支持动态路由功能。可在消息中动态指定连接的队列名。 HTTP适配
支持HTTP/HTTPS 1.1规范,提供调用外部系统HTTP服务的功能,提供将业务流程封装成HTTP服务供外部系统调用的功能。
支持REST,可以代理外部系统发布的REST服务。
支持动态路由功能,可在消息中动态指定调用外部系统HTTP服务的地址。
可编辑
.
文件适配
支持对文件目录/子目录下变化文件的监控捕捉,提供通配符、正则表达式等多种文件匹配模式。
支持按文本、二进制、流等多种文件内容解析文件或生成文件;支持文件内容追加、覆盖等多种输出方式。
支持文件移动、删除、重命名等多种后置处理操作。 数据库适配
提供配置SQL语句访问数据库的功能。
SQL语句和参数可以动态传递;结果数据类型可以自动转换为DOM、JSON等格式,便于发布数据服务。
支持各种主流关系型数据库。 d) 丰富的处理组件
内置大量的应用集成组件,支持EIP表达方式,便于进行服务的封装与调用,在大多数应用场景做到零编码满足用户集成需要的服务中介功能以及应用集成功能。
消息处理组件
提供对流程中传递的消息进行处理的组件,包括对消息头、消息体、消息属性进行增加、设置、移除等处理,并支持以Java方式进行自定义消息处理。
数据格式转换组件
提供丰富的数据格式转换组件,支持对分隔符(CSV)或定长文本、XML String、SDO、JAXB、Byte数组、JSON等数据类型的转换,满足异构应用互联所需要的数据转换功能。
提供强大的图形化XSLT格式转换工具,对基于Schema的规范化XML进行格式转换。 支持使用多种脚本语言自定义数据格式转换功能,允许使用的语言包括:XPath、XSLT、XQuery、JavaScript、Simple、Method、Header、Property、Constant等。
可编辑
.
表:数据服务集成管理系统应用集成组件
组件类型 组件名称 设置/删除消息头(SetHeader/RemoveHeader)、设置消息体(SetBody)、设置/删除消消息处理组件 息属性(SetProperty/RemoveProperty)、自定义组件(CustomProcessor)、消息内容跟踪组件(Trace) XSLT、TOString、TOBytes、TODOM、TOSDO、TOJAXB、自定义数据转换数据转换组件 MessageTransformer e) 易用的开发工具
提供基于Eclipse插件模式的开发工具,可以通过鼠标拖拽或简单配置就能实现多种集成模式,用户只需要短期培训就能使用,系统上线后可自行调整,应用的灵活性大大增强。开发工具提供以下主要功能:
提供了图形化的流程编排界面,内置大量适配器、组件和控制块,可以便捷地拖曳并配置服务中介流程。
对服务逻辑和部署环境进行了抽象分离,便于在不同物理环境间迁移。
提供自定义处理组件,可以调用外部Java程序,便于服务逻辑与应用系统的集成;支持Java代码的在线调试功能;提供共享项目机制,Java程序资源可以被多个服务流程共享。
支持集成CVS、SVN等版本控制工具,满足团队开发需要。 f) 数据可视化监管
管理中心提供基于B/S架构的管理中心,采用互联网数据可视化技术,能够对服务自身以及结合业务对服务进行可视化和可操作的监视,可在监视过程中按业务和管控的需求进行操作,提供以下主要功能:
提供对服务的历史和实时两种监视方式。
➢ 提供对单服务和多服务对比的监视模型,且多个服务可以在监视过程中增减。 ➢ 提供对运行实例、服务、流程、数据源等多种对象进行监管。
可编辑
.
➢ 提供“服务关系”功能,能够监视到服务的访问者IP,并支持按业务需要录入访问者IP
的访问者名称和访问者说明。
➢ 提供对服务的响应时间、调用情况的可视化监视,且可视化效果可操作,可在运行过程中
进行实时分析。
➢ 基于数据可视化技术实现服务的监视,提供对服务的响应时间、负载情况提供历史状态和
实时状态查看功能,且所有可视化效果均可灵活操作。
➢ 提供逻辑分布、服务(业务)分类、服务状态、接入类型4种默认维度的监视,并可快速
扩展服务状态、访问来源等监视维度。 g) 服务目录
服务目录实现了服务的统一管理,基于开发工具导出的部署包管理服务的整个生命周期,并扩展服务的业务属性,达到了将运行时资源静态化、业务化的目的。
服务注册
根据部署包(.Bar)注册服务,解析部署包提供服务的基本信息,并可扩展服务的业务属性的录入。
注:仅经过注册操作的服务才受到管理中心的监控。 服务查询
根据条件查询服务目录的服务列表及服务属性信息。 服务变更
修改已注册服务的属性信息,包括,变更后服务需要再此审批,如用户自身具有审批权限则无需审批。
服务撤销
撤销已注册的服务,撤消成功的服务从服务目录删除,不再受到管理中心的监控。 服务审批
可编辑
.
服务审批包含服务注册审批、服务变更审批、服务撤销审批,严格审查服务的各项操作。 服务发布
将审批通过的服务发布到指定服务器。 服务分类管理
服务的业务属性,用户可维护服务分类树,方便服务的归类统计。 h) 强开源能力
产品提供丰富API接口(REST)及配套文档和示例,可基于API快速对产品的运行、管理、监视、权限、审计等能力进行快速扩展。
(3) 功能特性
SDC Publication数据服务集成管理系统是一个完全符合SOA架构应用需要的应用集成产品,主要体现在采用SOA进行应用集成时所必须的服务化(Service)能力、架构(Architecture)能力、以及支撑服务和架构实现的工具。
首先,SDC Publication数据服务集成管理系统产品支持系统间松耦合的连接架构,基于工业标准,为所有需要整合的应用系统提供了统一的交流规范,并提供了大量的协议适配器,让各异构系统方便地接入总线,由总线负责协调各应用系统间的服务封装(代理)、服务调用、消息路由,避免了系统间接口调用关系的紧耦合。
其次,SDC Publication数据服务集成管理系统全面支持服务化技术,支持Web服务、代理服务,提供服务发布、注册、调用、转换、编排、监控等工具,提供了安全防护的措施,简化了服务的创建、封装、调用等繁琐的技术工作,并能够使用户灵活地编排服务,很好地监视、控制服务的运行状态和质量,以满足不断变化地业务需要和业务处理流程。
SDC Publication数据服务集成管理系统产品功能特性如下:
➢ 帮助企业级用户快速实现多个异构应用系统的互联互通、应用集成,促进跨地域、跨部门
的业务服务编排,实现业务的敏捷性。
可编辑
.
➢ 为企业级用户创建一个可持续拓展的、松耦合的、可靠可管的SOA基础设施环境,支撑整
个组织IT可持续建设与管理,实现技术的优化。
1.2.7.3
大数据展现门户
(1) 政务数据资源门户
XX高新区开发区智慧园区政务数据资源门户(内部数据门户)提供大数据平台综合展示,数据资源门户作为大数据管理部门信息发布和资源服务的总管理入口,为园区各级单位提供信息资源展示、在线信息服务、信息检索、系统集成访问等接口等。
1) 门户基本管理
政务数据资源门户基本管理模块主要提供政务大数据中心数据成果的展示和应用访问入口的应用集成。提供单点登录、访问权限管理,后台内容管理等功能。
前端的网站页面的主要功能是面向普通用户进行访问、下载;后台的管理系统的主要功能是面向管理员进行运营、管理。
后台管理主要分为以下几个模块:
✓ “平台”:对系统的全局属性进行设置。 ✓ “数据”:对数据模块功能进行管理。 ✓ “应用”:对应用模块功能进行管理。 ✓ “接口”:对接口模块功能进行管理。
✓ “移动应用”:对移动应用模块功能进行管理。 ✓ “地理信息”:对应地理信息应用模块的配置管理。 ✓ “互动交流”:对互动交流模块功能进行管理。 2) 在线查询服务
可编辑
.
系统首页提供在线查询引擎,包括一般搜索和高级搜索,一般搜索是指输入数据、应用或接口的名称进行直接搜索。高级搜索是指根据数据、应用或接口的领域、提供机构以及综合评价进行多维度的搜索。
提供面向政府部门的人口信息、法人信息、宏观经济、信用信息等信息查询服务,提供空间地理信息服务包括地图基本操作、地图测量、图层控制、空间分析以及相关数据融合等信息服务功能。
同时在数据查询的页面提供数据、应用、接口以及移动应用的更新动态服务等。 3) 信息资源综合展示
信息资源综合展示模块通过可视化的方式展示区域内信息资源的全景,即:部门信息资源的分布情况,需求情况、使用情况等,按照不同视角进行呈现,展示内容包含:资产总体视图、组织机构视角、服务对象视角、信息资源视角、协同主题视角等。
➢ 数据地图
电子地图利用专业的地图引擎和地图底图数据,展示XX高新区开发区智慧园区内部数据资源,形成一张专业的智慧园区数据底图。电子底图应具备全屏、测距、测面、数据点位清除、打印/输出、数据查询等操作功能。
➢ 数据资源列表
展示在电子地图的数据主要分为十个大类,包括机构团体、城市建设、道路交通、经济建设、民生服务、资源环境、教育科技、卫生健康、社会发展、文化娱乐。用户可点击各类数据资源列表查看数据资源所对应的地理位置,如城市建设数据类中的全区测绘资质单位所在的地理位置,民生服务数据类中全区加油站所在的位置,机构团体数据类中的全区协会所在地理位置等。同时用户也可以通过电子地图的查询按钮,直接搜索某一个数据资源所在地理位置。
4) 用户交流模块
用户交流模块提供与政府内部用户进行互动交流的窗口,包括调查问卷、需求调查等,保证平
可编辑
.
台能够满足大部分政府内部用户的数据共享需求。
➢ 最新消息
展示政府及其各职能部门的工作动态、数据资源开放的最新消息。 ➢ 调查问卷
面向用户的网站使用满意度调查或者其它业务上的调查。 ➢ 需求调查
用户提交的系统新需求功能。用户在网站上未找到所需要的数据产品或应用,可以填写需求建议。比如需求标题、需求类型、功能描述、数据领域、用户类型、数据格式、用途等。
5) 用户帮助模块
为政府内部用户提供平台功能及其操作方法的介绍和帮助说明,使各级用户尽快掌握使用方法。
提供浏览器及界面分辨率要求建议,检索网站方法指南,网站乱码等其他异常问题处理办法等。 (2) 公众数据门户
XX高新区开发区智慧园区政府公众数据门户(外部数据门户)是建立在互联网平台上的面向社会服务的政府门户网站,搞好智慧园区政府公众数据门户网站的开发建设,是我区加大开放力度、建设服务型政府、有效实施政务公开的重要举措,智慧园区公众数据门户网站的建设对转变政府工作职能和工作方式、提高服务水平,建立与经济社会发展和对外开放要求相适应的工作体系,具有重要的作用。
本次新增智慧园区数据开放专题模块将在原有网站系统上增加数据专题应用展示窗口,公开各类数据的下载与服务,为企业和个人开展政务信息资源的社会化开发利用提供数据支撑接口,推动信息资源增值服务业的发展以及相关数据分析与研究工作的开展。
公众数据门户的主要功能有:资源目录、数据开放接口、APP应用、互动交流等。
可编辑
.
1) 资源目录
资源目录模块提供社会公众通过资源目录查找到需要的数据,找到相应数据的获取方式,社会公众可以通过数据下载,数据接口等多种方式进行获取,公众获取数据时必须提供用户注册认证机制。用户可以通过数据资源主题,数据来源部门等多种方式进行查找。
用户可以在系统中进行数据搜索,系统首页提供搜索引擎,包括一般搜索和高级搜索,一般搜索是指输入数据、应用或接口的名称进行直接搜索。高级搜索是指根据数据、应用或接口的领域、提供机构以及综合评价进行多维度的搜索。
同时在数据搜索的页面提供数据、应用、接口以及移动应用的更新动态。
数据搜索的页面提供数据更新动态、数据下载动态以及数据评价动态等实时动态数据。 数据下载使用由平台管理单位提供数据使用条款,包括用户义务、接受条款、隐私保护、免责声明等。
资源目录提供数据地图查询服务,查询全区各主要事业单位、政务服务机构、主要机关团体以及民生服务机构的地理位置等。
➢ 数据地图
电子地图利用专业的地图引擎和地图底图数据,展示智慧园区政府数据资源,形成一张专业的智慧园区数据底图。电子底图应具备全屏、测距、测面、数据点位清除、打印/输出、数据查询等操作功能。
➢ 数据资源列表
展示在电子地图的数据主要分为十个大类,包括机构团体、城市建设、道路交通、经济建设、民生服务、资源环境、教育科技、卫生健康、社会发展、文化娱乐。用户可点击各类数据资源列表查看数据资源所对应的地理位置,如城市建设数据类中的全区测绘资质单位所在的地理位置,民生服务数据类中全区加油站所在的位置,机构团体数据类中的全区协会所在地理位置等。同时用户也可以通过电子地图的查询按钮,直接搜索某一个数据资源所在地理位置。
可编辑
.
2) 数据开放接口
数据开放接口提供整合全区现有业务数据的对接地址及接口文档,便于用户单位对接数据,同时平台管理员需要保证各接口的有效性,提供数据接口介绍,并对各个接口进行分类统计。
3) APP应用
公众数据门户移动应用系统(APP),提供系统登录网址、系统主管单位、系统评分等,同时平台管理员需要保证各整合系统的正常使用,并对个应用系统进行分类。移动应用系统提供安装包下载地址。
4) 互动交流
互动交流模块提供网站管理人员与网站用户进行互动交流的窗口,包括调查问卷、需求调查等,保证平台能够满足大部分用户的数据共享需求。
➢ 最新消息
展示政府及其各职能部门的工作动态、数据资源开放的最新消息。 ➢ 调查问卷
面向用户的网站使用满意度调查或者其它业务上的调查。 ➢ 需求调查
用户提交的系统新需求功能。用户在网站上未找到所需要的数据产品或应用,可以填写需求建议。比如需求标题、需求类型、功能描述、数据领域、用户类型、数据格式、用途等。
1.3 实施方案
1.3.1 项目组织实施
(1) 实施原则
在项目的整个实施过程中,公司设立的项目领导小组将按照以下原则开展实施工作:
可编辑
.
1) 以客户为中心,在本项目招标文件约定的范围内,全面了解和摸清用户需求,实现用户需
求;
2) 规范实行项目管理,以保障项目的顺利进行; 3) 组建优秀的项目组织机构。 (2) 施工组织
项目领导小组负责监督、协调项目经理、质量保证小组。同时,项目领导小组也负责协调项目经理反馈的由项目经理无法协调的事项。项目领导小组成员由我公司和客户相关部门负责人组成。我公司项目领导小组成员负责对整个项目的工程预算、工程进度、工程质量等进行审核批准和监督,负责合理调配公司内人力及物力资源,提供必要的人员配合、协调项目经理和质量保证小组的工作、并监督整个工程进度。以确保本工程高质量、高效率、顺利的进行实施。
(3) 实施工期
项目要求自合同签订之日起180天内完成项目的设计实现,另外60内完成项目的安装实施。 (4) 进度计划
项目阶段 目标 内容 1、需求调研 2、需求分析; 完成需求分析与研发分析设计阶段 方案设计 4、系统设计; 5、设计评审。 1、系统编码; 2、单元测试; 系统研发阶段 完成系统研发和测试 3、集成测试; 4、系统测试; 5、手册编写。 系统部署、集成阶完成系统部署、集成 1、系统部署; 可编辑
测试方案和用例 评审记录 源代码 测试报告 使用手册 维护手册 安装手册 实施计划 3、业务梳理; 系统设计说明书 输出 项目开发计划 需求说明书 . 项目阶段 段 目标 内容 2、准备系统试运行。 输出 培训教材 培训计划 1、试运行期间问题、需求收集; 系统试运行以及培训 完成系统试运行以及2、试运行期间问题、需求培训 响应; 3、试运行期间培训。 1、竣工档案资料准备; 系统自测 达到初验条件 2、系统自测及整改。 技术文档准备 测试文档准备 验收文档准备 1、验收交付物准备; 系统验收 达到验收条件 2、项目验收。 服务文档准备 会议记录文档准备 验收报告 培训文档准备 故障排除 维护说明 自测报告 系统维护手册 培训记录 岗位操作手册 (5) 工期管理
通过建立项目进度计划管理和控制的模式、工作程序和工作方法, 促进项目工期管理工作科学化、规范化,提高进度计划管理和控制的工作效率、质量和水平。用于本次项目从需求调研到验收交付、后期的运维服务整个过程的工程计划管理。
(6) 主要内容
主要内容包括四个部分:
1) 计划:针对本项目指定详细的实施方案和计划;
2) 实施:各阶段设计方案、测试方案、质量管理方案,实施过程记录、质量管理记录、资源
调配;
可编辑
.
3) 检查:实际进度和计划对比,分析偏差原因,及时调整;实际质量与设计质量对比,分析
偏差原因,及时改进;
4) 总结:各阶段总结,使之标准化、制度化,同时按计划进入下一个管理循环。 (7) 职责分工
工期管理与控制实行分级管理。公司负责制订和完善管理制度,并对项目进行管理、监督;项目经理负责项目实施管理,汇总上报管理情况,协助投诉处理。
(8) 公司职责
1) 制订和完善工期管理办法,建立项目工期管理体系; 2) 审核施工总进度计划、成本计划、预算计划和奖惩制度; 3) 负责项目管理人员的配置与优化、管理与调配;
4) 建立项目工期管理的报表制度,监督检查项目进度动态管理,审核月度进度计划完成总结,
并提出整改意见;
5) 对项目进度管理和控制进行定期考核,视情况进行奖罚; 6) 受理进度或工期投诉,督促对存在问题的整改;
7) 接受工期管理情况报告,并对本办法执行情况进行监督与处罚; 8) 人力资源关键绩效指标分析与评价,并根据评价结果提出对策。 (9) 项目经理职责
1) 依据合同、项目策划、项目计划的约定,组织项目总工程师(技术负责人)和相关管理人
员,编制项目详细设计、施工进度计划和施工进度计划; 2) 确定项目节点控制办法,明确工程节点,并确定奖罚;
3) 审核项目实施关键线路,制定节点控制目标和项目施工进度计划编制说明书,签字并上报;
可编辑
.
4) 依据项目计划,组织编制项目季/月/周进度控制计划; 5) 组织或授权组织项目例会,掌握项目进度,并上报;
6) 组织项目管理人员、质量控制人员、测试人员定期检查进度计划完成和质量情况; 7) 组织编写、审核周、月度进度控制报告,签字并上报。 (10) 质量管理人员(QA)职责
1) 在项目经理和技术负责人的领导下,依据CMMI(Capability Maturity Model Integration,软
件能力成熟度集成模型)和公司研发质量管理制度,制定项目质量管理计划和检查列表; 2) 定期、不定期对项目实施情况进行检查,及时发现问题,提出整改意见; 3) 编制项目周、月、季度质量控制报告。 (11) 任务分解 1) 进度控制目标分解
➢ 项目经理组织项目进度控制管理人员确定项目进度控制目标和进度计划,并进行进度节点
目标分解;
➢ 项目经理分解任务目标到团队个人或小组。 2) 实施进度计划
➢ 依据分解任务目标,制定实施工作计划和质量计划; ➢ 制定风险控制计划。 (12) 过程控制
➢ 周期计划检查:对关键线路进行周计划检查,包括进度、质量和风险,及时发现问题,提
出整改建议;对于严重风险,及时制定风险控制措施;
➢ 关键点控制:对关键点完成情况进行检查,对发现的问题提出整改建议或风险控制措施;
可编辑
.
➢ 质量控制:组织QA对项目实施质量进行检查; ➢ 控制报告:编写过程控制报告。
1.3.2 突发事件处置
(1) 技术风险
➢ 技术、产品更新不及时风险
公司坚持进行技术创新和积累,加强新技术研发力度,加大科研投入,并与多家高等院校、科研院所进行合作,不断提升公司的技术研发能力。同时,加强技术积累和沉淀,不断完善技术产品,确保产品和技术稳定、高效。
➢ 核心技术人员流失的风险
公司核心技术人员的技术水平和研发能力是公司能长期保持技术优势的保证。业内的人才竞争日益激烈,能否维持技术人员队伍的稳定,并不断吸引优秀技术人员加盟,关系到本公司能否继续保持在行业内的技术领先优势和未来的行业竞争力。公司在提高技术人员薪酬和奖励的基础上为其提供良好的科研条件和发展空间,最大限度降低人才流失风险。针对本项目,关键岗位人员采用双备份策略,确保项目顺利进行。
➢ 知识库
对核心技术,业务经验等关键知识,采用知识库形式进行积累和沉淀,即使人员变更,后续人员也能通过知识库,快速掌握相应知识和技能,从技术上保证项目的顺利延续。
(2) 人员风险
保证开发组中人员合理配置,且项目核心部分的工作公司骨干人员来担任, 以减少人员不稳定性的影响。
建立良好的文档管理机制,包扩项目组进度文档、个人进度文档、版本控制文档、整体技术文档、个人技术文档、源代码管理等。一旦出现人员的变动,替补的组员能够根据完整的文档尽早接
可编辑
.
手工作。
加强项目组内技术交流,比如定期开技术交流会,或根据组内分工建立项目组内部的开发小组,是开发小组内的成员能够相互熟悉对方的工作和进度,能够在必要的时候替对方工作。
对于项目经理,从一开始就指派一个副经理在项目中协同项目经理管理项目开发工作,如果项目经理退出开发组,副经理可以很快接手。
为项目开发提供尽可能好的开发环境,包括工作环境、待遇、工作进度安排等等,同时优秀的项目经理在项目组内营造一种良好的人际关系和工作氛围,良好的开发环境利于稳定项目组人员以及提高生产效率。
(3) 需求风险
在设计初就已经考虑可能存在的需求变更风险,系统采用模块化体系架构,将需求变更带来的影响降到最低。同时在计划制定时,预留了一定的需求变更处理时间。系统采用严格的版本控制策略,对变更的需求做详细分析和控制,将变更的实现放到最合适的版本中,这样便于版本的稳定和新版本研发。
(4) 计划风险
项目制定工作计划时,可能因各种因素,存在进度偏差,导致整个项目实施计划存在风险。对此,在项目实施过程中,设置不同的关键节点,定期或不定期对关键节点进行检查,通过完成情况和质量,分析可能存在的计划风险,及时采取应对措施,确保整个项目计划顺利进行。项目例会、QA检查计划也是风险控制策略。
(5) 质量风险
项目研发过程中,由于各种因素,可能带来质量风险,针对该类风险,本项目采取的策略主要包括:
QA检查:严格按照CMMI质量要求进行过程质量检查和控制,及时发现问题,提出整改建议; 技术测试:通过对研发成果进行全面的单元测试、集成测试和系统测试,最大限度降低质量风
可编辑
.
险。
(6) 其他风险
我公司通过丰富的技术积累,充足的技术人力配置,完善的管理制度,能够快速应对项目实施过程中可能出现的各种风险,最大限度保证项目顺利实施。
1.3.3 项目验收
(1) 整个系统开发完成,安装调试完成后,所有功能、性能指标达到双方确认的技术规范要求时,进入系统的整体试运行期;
(2) 系统试运行期间,所有功能、性能指标达到双方确认的技术规范要求时,我公司向业主提出终验申请,填写项目终验申请表以及验收方案,并至少提前10日提交给采购人,双方对验收方案进行确认;
(3) 由双方共同进行系统的最终验收。终验包括对所有交付品的检查、功能验收及性能验收;
(4) 终验合格后,经双方确认,形成终验报告,由双方项目负责人签字生效。
1.3.4 项目交付
交付文档包括技术文档、测试验收文档、培训文档、服务文档、会议记录文档。交付内容详见“项目验收标准和方法”。
1.3.5 项目管理与质量保障
(1) 项目管理组织
针对本项目,我公司在施工前安排硬件工程人员配合采购方对已有服务器、网络线路、网络硬件实行工程验收和工程监理,保障后续软件稳定运行。
针对本项目,成立相应的工程指挥小组,并指定一名专职的项目经理,负责工程协调和调度工作(包括中标后,代表采购方进行信息基础硬件的施工监理和验收)。成立包括一名专职项目经理
可编辑
.
在内的技术支持小组,负责对参与项目实施的各方技术人员进行产品、技术培训,提供项目整体实施和试点工作的技术方案,对工程实施过程中出现的疑难问题提供技术支持。
成立的组织机构包括:需求分析组、系统设计组、系统研发组、系统设计组、系统维护组、质量管理组、文档编写组、技术支持组、技术培训组,每个小组由经验丰富的人员组成,在统一软件研发和工程管理质量体系下,各小组分工合作,对项目进行规范化管理,提供项目管理计划、项目进度计划、项目验收计划等方案,确保工程实施质量,并全力配合项目集成商的总体集成工作。
➢ 人员稳定性保证
项目组成员为公司自有人员,在未经过项目建设单位同意的情况下不得私自更换开发人员。 ➢ 人员经验保证
公司针对该项目建立实施该项目的组织架构,项目经理及其团队成员具有类似项目经验。 ➢ 人员现场保证
为保证本项目的顺利实施,所有与本项目相关的实施工作,公司都在现场实施。 (2) 实施过程管理
经验丰富的实施团队,采用经过大型复杂项目验证的实施方法对项目实施过程进行控制与管理。在项目实施过程中,需要重点关注需求、设计、实施阶段的里程碑节点,把好进度质量关,控制好风险,解决好偏离等,使项目实施过程基本按照设定的轨迹进行,从而保证整个项目的实施。
(3) 过程管理策略 ➢ 建立项目例会制度
由项目经理每周召集举行项目组内部例会,对项目实施工作完成情况进行总结并确定下周计划,同时在会上对提出的争议和问题进行讨论。由项目经理根据项目情况召集举行项目月度例会,主要讨论总体的项目进展、问题和变更的状态、后续的工作进程和任务分配等并形成会议纪要。在实施过程中发生的临时性会议,视情况随时召集。
➢ 注重前期服务和事前策略
可编辑
.
发挥公司的综合优势,提供规划、科研、咨询等专业支持。针对具体建设内容,根据业主的基本设想,主动帮助解决项目建设中相关问题,从规划、设计、施工、部署、测试等进行全面研究,为未来项目建设提供有效的参考。
➢ 抓好全面控制和精细管理
针对不同的项目要求,从管控机制、过程管理和项目保障等方面,提高项目管理的能力。构建项目管理机构,实行决策支持、规划管理、技术实现三级管理体系,落实人员和相关的职责,发挥综合实力。编制实施方案,根据项目实际情况,分析项目概况及其特点、难点,总结各个功能、流程、主要技术路线、实现方法等,使整个项目的实施按计划、按规范进行,确保项目进度总体受控。统一有关的制度、标准和流程,包括文档编写基础类模板、需求规格说明书类模板、设计文档模板类、测试方案模板类、信息平台软件验收标准、支撑类软件定制实施规范、软件技术实现规范、公共配置管理规范、统一用户管理规范、周报制度等,确保各系统承建单位的工作有序进行。
➢ 重视原则建立实施规范
本项目建设服务是一个复杂而庞大的系统工程,尤其需要所有参与人员不断开拓新途径和新的突破点,把握系统建设的基点,抓住系统实施的重点,重视实施建设中应遵循的原则,建立实施中要遵从的实施规范,做到项目实施精细化管理。
(4) 项目范围控制
项目范围是一个大致的范围,须根据用户需求进行详细的需求调研,从平台的组成、技术需求、业务应用需求、安全需求和管理需求等方面进行详细的需求调研、整理和确定,形成详细的需求规格说明书。项目实施过程中,严格按需求规格说明书进行项目范围控制,并对需求变更拟定相应的应对措施和策略。
(5) 项目变更控制
对于软件开发项目而言,变更一般是不可避免的。为了将项目变更的影响降低到最小,采用CMMI体系的变更控制方法。变更控制就是要找出影响项目变更的因素、判断项目变更范围是否有
可编辑
.
必要、判断项目变更的结果是否已经发生及效果如何等。进行变更控制的主要依据有:项目计划、变更请求和提供了项目执行状况信息的绩效报告。
(6) 项目质量控制
质量控制的目的是保证项目成果的质量满足项目质量计划中说明的项目成果的质量要求。项目质量计划的说明可能会引用其他文件来说明项目成果的质量要求,如招标书、投标书、合同、需求规格说明书、国家标准、行业标准、企业内部制定的各种规范等等。为保证项目的实施质量,将从质量保证、配置管理、测试管理等方面建立相应的管理体系,从多个维度来保证项目能够按照质量要求和时间计划成功完成。
1) 质量保证体系
本项目中采用统一标准,明确定义保证项目质量的责任和方法,结合项目的实际情况,质量保证和责任划分。每一大类或一个阶段的工作内容结束后,做工作总结和定期的状态报告会,以保证客户和项目负责人能及时跟踪工作的进展。另外针对软件开发质量保证,其主要任务是软件过程的审计,主要内容包括:
1)评估各阶段的评审过程; 2)评估项目计划和监督过程; 3)评估并监督软件开发工作的执行; 4)评估需求分析过程; 5)评估设计过程;
6)评估编码和单元测试过程; 7)评估部署集成联调测试过程; 8)评估项目最终交付过程。 2) 配置管理体系
整个项目的各小组按照统一的配置管理要求,各自做好配置管理工作,并建立专门的配置管理
可编辑
.
服务器,对项目过程中的所有成果实行配置管理。项目过程中输出,按统一的配置管理要求进行配置管理。
配置管理包括:交付产品的确认、软件模块的版本控制及其交付与发表、各种状态(开发、测试、集成、验收、维护)中的变动记录等。在项目实施过程中,配置状态提供充分的可视性,确保相关人员在任何时刻都能采用正确和准确的信息。
3) 测试管理体系
依照CMMI和质量管理体系,建立完善的测试管理体系,主要过程包括:测试方案编制和评审,测试用例编制和评审,测试输出和问题记录,回归结果和测试报告,每个过程都具备详细的记录。
(7) 项目进度控制
项目进行过程中,不断检查、监控项目的进展情况,以保证每项分解的任务都能按计划完成。持续收集项目进展数据,掌握项目计划的实施情况,将实际情况与进度计划进行对比,分析其差距和造成这些差距的原因,必要时采取有效地纠正或预防措施,使项目按照项目进度计划中预定的工期目标进行,防止延误工期。项目进度控制不仅要注意主要任务或关键路径上的任务的工期,也要注意一些本来次要的任务的进展,以防止次要任务拖延,影响主要任务和关键路径上的任务。主要措施包括:
1) 项目例会
每周召集举行有业主单位参加的项目例会,汇报项目进度和下周计划,同时在会上对提出的争议和问题进行讨论。在实施过程中发生的临时性会议。
2) 项目状态报告
在项目实施过程中,及时提交项目状态报告,汇报项目的进度以及完成、未完成工作、存在问题、下一步的工作计划等内容。
3) 项目里程碑/阶段评估验收
可编辑
.
在项目的需求分析、系统设计、项目验收等里程碑点,组织完成需求分析评审、设计方案评审、集成支撑软件设计方案评审、集成相关技术规范评审、项目验收等内容。
(8) 项目成本控制
成本控制的基础是在项目计划中对项目制定出合理的成本预算,并尽可能地保证各项工作在项目计划中预定的预算内进行。软件开发项目的成本最主要的是人力资源的成本,而人力资源的成本体现为各个项目成员薪资水平乘以他所花费工作日的总合,因此人力资源的成本其重点在于合理地安排使用合适的人力资源。软件开发项目的成本还包括购买必需的软硬件设备的成本;需求调研所花费的交通、协作、通信成本;购买必要的办公用品、参考资料的费用;给用户培训所需要花费的培训资料编写费、资料印刷费、产地费、设备费;如果需要第三方的鉴定或检测,还需要一定的鉴定检测费用;进行质量、进度控制的管理成本。
(9) 沟通管理
为保证项目参与各方准确把握项目进度情况,指定相应的沟通策略。 1) 汇报管理
定期或不定期的向业主汇报项目进展情况,需要业主协调解决的问题等,主要方式是通过项目例会,也可以通过不定期会议。
2) 沟通管理
常用的沟通方式主要有:现场办公、监理例会、专题会议、电子邮件、QQ 网上通讯、手机通讯等。
沟通内容
➢ 与计划相比,项目工作量完成情况; ➢ 已完成的工作质量情况;
➢ 项目执行过程中出现的问题,以及解决方案和建议。 报告形式
可编辑
.
报告使用 PPT、Excel 表格、Word 文档等方式。 相关文档
项目沟通管理产生的相关文档包括但不限于:
➢ 《会议纪要》,包括:会议时间、地点、与会单位及人员、会议议题、会议结论、会议遗留
问题等;
➢ 《项目周报》,包括:项目名称、周起止时间、一周工作内容、遇到的风险与问题、下周工
作计划等。
1.3.6 培训方案
(1) 培训目标说明
在项目实施过程中,针对项目中的相关应用支撑软件产品和应用系统提出一整套系统的培训方案,以达到如下目标:
系统运维管理人员:掌握平台各应用系统,以及所用应用支撑软件产品的整体架构和技术实现机制,及客户化定制开发源代码,具备系统部署、系统设置、系统扩展开发以及系统运维管理的能力;
业务使用人员:能够熟练操作系统各个应用模块。 (2) 培训对象说明
平台用户,包括最终业务使用人员、系统运维管理人员,对培训对象的技术要求: 最终业务使用人员要求能熟练使用windows操作系统及日常软件;
系统运维管理人员需要具有一定的计算机专业技术背景,掌握一定操作系统、数据库系统、计算机网络、计算机硬件等方面的基础知识。
(3) 培训讲师说明
培训采用中文授课,所安排的培训教员均具备两年以上产品应用技术经验以及相关课程教学经验,参与过本项目的实施,有较高的技术能力,对相关系统(产品)非常了解,并有一定的教学经
可编辑
.
验。
(4) 培训形式
包括技术讲课、操作示范、其他必须的业务指导和技术咨询,确保培训人员对系统基本理论、技术特性、操作规范、运行规程、管理维护等方面获得全面了解和掌握。
培训采用幻灯片进行讲解,并根据培训案例进行操作练习。实验室实习同时以两种方式进行,一是不使用软硬件情况,通过书面作业进行练习,二是运用软硬件设备上机实习。
上机实习时,将指定软硬件要求、配置及其它完成实习所需的相关信息。其目的是使用户的工程师通过培训课程,达到能够独立地进行开发、管理、故障处理、日常测试维护等工作。
(5) 培训资料
我公司为业主和参训人员提供中文版培训手册及多媒体课件等资料,并根据业主的要求提供教材的拷贝和影响文档,资料属业主所有。
(6) 培训内容及课程安排 应用支撑软件产品培训 培训对象:系统运维管理人员。 培训时间:10天。
应用支撑软件产品的培训课程内容有:J2EE应用服务器、应用服务组件、企业服务组件、可视化平台的产品原理、安装、配置、管理维护、性能调整、故障诊断与排除、产品二次开发。
应用系统操作培训
培训对象:系统最终使用人员,包括领导、业务人员等。 培训时间:3天。
培训内容:系统建设情况及系统运行情况介绍;大数据可视化平台各功能模块的使用说明,以及上机操作。
(7) 培训地点和时间说明
可编辑
.
培训时间
所有培训在用户指定的时间协调安排。 培训地点
根据用户统一安排,培训地点可以选择在我公司,或者用户指定的地点。
如果在我公司培训,由我公司提供讲座/实验室培训所需的设备,包括课堂使用的硬件设备和软件,设备配置将在课程开始前一天之前完成;
如果在用户办公地点,或者用户指定地点培训,培训环境及设备则由平台提供,我公司协助进行软件配置,负责以下材料的准备:
课程提纲(电子档); 幻灯片(电子档); 系统硬件和后勤设备清单; 软件、服务及版本清单;
应用支撑软件产品及相关的开发工具; 培训教材及辅助材料。
可编辑
因篇幅问题不能全部显示,请点此查看更多更全内容