辽宁大学学报自然科学版第42卷第3期2015年JoURNALoFUAoNINGUNⅣERSlTYNaturalSciencesE出fionVoI.42No.32015大数据技术研究综述吴亚坤1,郭海旭1,王晓明2(1.辽宁大学计算中心,辽宁沈阳110036;2.辽宁省产品质量监督检验院,辽宁沈阳110032)摘要:介绍了大数据的起源与发展,阐述了大数据的概念及特征.在此基础上,总结了大数据处理的一般流程和关键技术.最后,指出了大数据技术面临的挑战.关键词:大数据;数据处理;云计算;数据挖掘中图分类号:TP311文献标志码:A文章编号:1000-5846(2015)03-0236-07ResearchOverviewWU(1.Computing2.LiaoningProvice’SInstituteYa.kunl,GUOonBigDataTechnologyXiao—min92Hai—XUl,WANGCenter,LiaoningUniversity,Shenyang110036,China;SupervisionandInspection,Shenyang1ofProductQulality10032,China)Abstract:Thisandpaperintroducedtheonginanddevelopmentofbigdata,discussedtheconceptcharacteristicsofbigdata.Onthebasisofthis,theproceduresofprocessingbigdataandkeytechnologyofbigdataweresummarized.Finally,thechallengesfacedofbigdatatechnologywerepointedout.Keywords:bigdata;dataprocessing;cloudcomputing;datamining1大数据概述1.1大数据起源与发展随着“云时代”的来I临,大数据(Bigdata)的概念受到人们越来越多的关注.事实上,“大数据”并不是一个全新的概念,早在1980年世界著名未来学家阿尔文·托夫勒便在他出版的《第三次浪潮》一书中将大数据热情地称颂为“第三次浪潮的华彩乐章”¨1.但是,直到2009年,随着物联网、云计算、移动互联网等技术的普及,社会进入到“普适计算”时代,“大数据”的概念才开始在互联网信息技术行业逐渐流行.2011年5月全球知名咨询公司麦肯锡在其研究报告《大数据:下一个前沿、竞争收稿日期:2015-05一01作者简介:吴亚坤(1966一),女,辽宁沈阳人,辽宁大学副教授,从事数据库、大数据及计算机基础教学研究.E-mailyakunwu2003@163.corn.万方数据第3期吴亚坤,等:大数据技术研究综述237力、创新力和生产力》中首次提出“大数据”时代已经到来,指出了大数据研究的地位以及将给社会带来的价值.麦肯锡的报告发布后,大数据在计算机行业引起极大的震动,EMC、惠普、IBM、微软等互联网巨头都意识到了“大数据”时代数据的重要性,纷纷通过收购“大数据”相关厂商来实现技术整合.不仅如此,大数据还受到金融界和政府部门的高度关注.2012年3月22日,奥巴马政府宣布投资2亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家战略.奥巴马政府甚至将大数据定义为“未来的新石油”.然而,“大数据”作为一个较新的概念,目前尚未直接以专有名词被我国政府提出来给予政策支持,有关部门正在积极研究,大数据国家战略或将提上议程.1.2大数据的概念大数据本身是一个抽象的概念,存在有多个版本的定义,目前尚未有权威机构对大数据的概念进行统一.麦肯锡给出的定义是:大数据指的是大小超出了典型的数据库软件的采集、存储、管理和分析等能力的数据集口].英国牛津大学教授维克托·迈尔一舍恩伯格在《大数据时代》一书中将大数据定义为“指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理”【3J.全球最具权威的rr研究与顾问咨询公司Gartner认为:大数据指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产MJ.互联网数据中心(IDC)则认为大数据是“为更经济地从高频率的、大容量的、不同结构和类型的数据中获取价值而设计的新一代架构和技术.”从上述定义可见,尽管大数据的各种定义出发角度不同,内涵和范围的表示也有所不同,但有一点是肯定的:从数据到大数据,不仅仅是数据数量的差别,更是数据质量的提升.大数据技术不是对数据量大小的定量描述,而是如何在庞大的、种类繁多的各种类型的数据中快速获得有价值信息的能力.大数据的核心价值在于对于海量数据进行分析处理.1.3大数据的特征尽管对大数据的定义有着不同的解读方式,但是业界普遍认为大数据应该具有4个“V”的特征,即Volume(规模巨大)、Variety(类型多样)、Velocity(速度快)、Value(价值稀疏).1)数据规模巨大(Volume):随着Web2.0时代的到来和感知系统的广泛使用,互联网和传感器每时每刻都在源源不断地产生大量的数据,他们构成了大数据的主要来源.这些数据的爆炸式增长使得大数据的数据量从TB级别跃升到PB、甚至EB、zB级别.2)数据类型多样化(Variety):大数据结构复杂,不仅包括传统的结构化数据,还包括网页、Et志、音频、视频、图片、地理位置信息等许多半结构化和非结构化的数据.3)处理速度快(Velocity):大数据与传统数据挖掘技术的本质区别是“实时”性,通常要求在秒级时间范围内给出数据的分析结果.因此,大数据的处理与云计算、分布式技术密不可分.4)数据价值稀疏(Value):大数据的价值密度通常较低,例如,连续不问断监控的视频中,可能有用的数据仅仅有一两秒,但其中隐含的价值可能会很高,因此需要价值提纯.2大数据处理的基本流程大数据来源广泛、类型复杂,物联网、云计算、移动互联网、手机、电脑、以及遍布世界各地的各式各样的传感器,无一不是其数据来源或者承载的方式,因此对大数据的处理方法千变万化.尽管如此,大数据的处理流程都是一致的,基本的处理流程可以概括为数据采集、数据集成与处理、数据分析与挖掘、数据展示四个步骤,如图1所示.万方数据238辽宁大学学报自然科学版2015年数据采集匕分析与挖掘ID数据展示·数据可视化·人机交互·结构化数据·半结构化数据·非结构化数据·条形码技术L。RFID技术图1大数据处理基本流程翔博黻~吼№㈣一一一一~一一器能计睹血叫山2.1数据采集数据采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的各种类型的结构化、半结构化及非结构化的数据,并允许用户通过这些数据库来进行简单的查询和处理工作.目前常用的采集手段有条形码技术、射频识别技术(RFID)、感知技术等;使用的数据库可以是关系数据库,如MySQL或Oracle,也可以是NoSQL数据库,如Redis或MongoDB.大数据采集过程中的主要挑战是并发数高.例如,像亚马逊、淘宝等网络可能有成千上万的用户同时进行访问和操作,在峰值时,并发的访问量可能达到上百万.因而不仅需要在采集端设置大量的数据库,而且要深入研究如何在这些数据库之间进行负载的均衡和分片.2.2数据集成与处理数据的集成就是将各个分散的数据库采集来的数据集成到一个集中的大型分布式数据库,或者分布式存储集群中,以便对数据进行集中的处理.由于大数据具有多样性,在集成的基础上,还要依据数据的特征或者需要,利用聚类、关联分析等方法对已接收的数据进行抽取处理,将各种渠道获得的多种结构和类型的复杂数据转化为单一的或者便于处理的结构,从而达到快速分析的目的.同时,针对大数据价值稀疏的特点,还要对大数据进行清洗,将其中我们不关心的、没有价值的、错误的数据通过过滤“去噪”,提取出有效数据,以保证数据的质量和可靠性.该阶段的挑战主要是集成的数据量大,每秒的集成数据量一般会达到百兆,甚至千兆级别.2.3数据分析与挖掘数据分析与挖掘是大数据处理流程中最为关键的步骤.·数据分析主要是利用大数据分析的工具对存储在分布式数据库或分布式计算集群内的海量数据进行普通的分析和分类汇总等,以满足常见的分析需求.例如,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等;而一些基于半结构化数据或者批处理的需求可以使用Hadoop.统计分析过程中,因为涉及到的数据量大,对系统资源,特别是I/O会有极大的占用.此外,对于统计工具的使用、需要分类的关键字等要求比较高,他们决定了能否将数据精确地归类,这将直接影响数据挖掘价值的准确度.数据挖掘是对已经做好统计的大数据进行基于各种数据挖掘算法的计算,提取隐含在其中的、具有潜在意义的信息,揭示其规律和结果,用于决策和预测.由于大数据环境下需要对结构化、半结构化和非结构化数据一起分析,并且当数据量增加时,要求只增加分布式服务节点,无须修改分析/挖掘算法.因此传统的关系型、结构化的数据集和挖掘方法都不再适用.大数据挖掘一般没有预先设定好的主题,用于挖掘的算法都很复杂,只有精确合适的算法才能得出有价值的数据分析结果.比较万方数据第3期吴亚坤,等:大数据技术研究综述239典型算法有用于聚类的K—Means、用于统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等.2.4数据展示要使挖掘出来的信息能为人类的社会经济活动提供依据,必须将其合理地展示出来.数据展示不恰当会给用户造成困扰和误导,直接影响后期的决策与应用.传统的以文本形式直接在用户个人电脑显示处理结果或下载输出的方式已经无法满足大数据结果的展示,大数据结果的展示更加注重交互性和可视化.用户在使用大数据的应用时,为快速获得自己需要的信息,与应用的交互必不可少。例如对各类查询条件进行组合筛选、增删查询条件等.大数据所提供的用户交互方式主要有五种类型,分别是统计分析和数据挖掘、任意查询和分析、立方体分析、企业报表、报表分发和预警,它们在交互程度和用户群的类型及规模上各有差异.数据可视化是将数据挖掘结果以简单、直观的图形化、智能化的形式通过数据访问接口呈现给用户,供其分析使用.结果展现的架构一般分为C/S和B/S两种,C/S架构提供便于操作数据的客户端,可定制呈现界面,适合数据分析人员使用;B/S架构基于Web应用展现结果,不看重交互,一般由决策者或企业管理人员使用.结果展现方式包括基于数据挖掘得出的数据报表(数据表格、矩阵、图形等)、宏观展现模型数据分布情况的图形(曲线、饼图、堆积图、仪表盘、鱼骨分析图等)、KPI展现、查询展现等.3大数据处理关键技术按照大数据处理的基本流程,可将大数据处理的技术分为大数据采集技术、大数据集成与处理技术、大数据分析与挖掘技术、大数据展示技术四种,其中最为核心的就是大数据的集成处理和分析挖掘技术.这些技术的实现都离不开“云计算”(CloudComputing)技术,云计算为大数据提供了基础平台,是大数据存储、管理、处理、分析的支撑技术,因而成为大数据处理的关键技术.3.1大数据的存储技术为适应大数据环境下爆发式增长的数据量,大数据采用由成千上万台廉价PC来存储数据的存储方案,以降低成本,同时提供高扩展性.考虑到系统由大量廉价易损的硬件组成,为保证文件系统整体可靠性,大数据通常对同一份数据在不同节点上存储多份副本.同时,为保障海量数据的读取能力,大数据借助分布式存储架构提供高吞吐量的数据访问.目前较为有名的大数据文件存储技术是Google的GFS(googleHDFS(HadoopDistributedFileFileSystem)和Hadoop的System),HDFS是GFS的开源实现.它们均采用分布式存储的方式存储数据,通过冗余存储(将文件块复制存储在几个不同的存储节点上)的模式保证数据的可靠性.在实现原理上,GFS和HDFS均采用主从控制模式,即主节点存储元数据、接收应用请求并且根据请求类型进行应答,从节点则负责存储数据.当用户访问数据时,首先与主节点进行指令交互,之后根据主节点返回的数据存储位置,再与相应从节点交互获得数据,从而避免主节点出现瓶颈.图2给出GFS的体系结构图.3.2大数据的数据管理技术在数据管理上,传统的单表数据存储结构无法适应大数据对数据库的高并发读写、海量数据存万方数据240辽宁大学学报自然科学版储、复杂的关联分析和挖掘需求,因此,大数据使用由多维表组成的面向列存储的分布式实时数据管理系统来组织和管理数据.其特点是将数据按行排序、按列存储,将相同字段的数据作为一个列族来聚合存储.这样存储的好处是不同的列族对应数据的不同属性,属性可以根(文件名,块索引)GFS主节点(master)文字名字空间应用程序卜_———一客户端k——(块句柄,复本位置)(块句柄,字节区间)瓜/广]r_1l2ef0r]吓叩I....................._J(对块服务器的指标)lGFS大块服务器LINUX文件系统ll(块服务器的状态)据需求动态增加,避免了传统数据存储方式下的关联查询.而且,当只需查询少数几个列族的数据时,可说明(块数据)代表控制信息——--一图2代表数据信号GFS的体系结构图极大地减少读取的数据量,减少数据装载和L/O的时间,提高数据处理效率.大数据的数据管理技术的典型代表是Google的BigTable和Hadoop的HBase.BigTable基于GFS,HBase基于HDFS.作为NoSQL(NotonlySQL)数据库,它们为应用提供数据结构化存储功能和类似数据库的简单数据查询功能,并为MapReduce等并行处理方式提供数据源或数据结果的存储.3.3大数据的并行计算技术大数据的分析和挖掘需要完成巨大的“数据密集型”计算,对系统的运算架构、计算域存储单元的数据吞吐率要求极高,传统的并行计算系统无法满足需要.因此,大数据计算通常采用MapReduce技术.MapReduce是Google提出的一种云计算的核心计算模式,是一种分布式运算技术.它将传统的查询、分解及数据分析进行分布式处理,将要处理的任务分配到不同的处理节点,具有非常强的并行处理能力.MapReduce模式的工作原理是采用“先分后合”的数据处理方式.首先对要处理的数据自动进行海量数据分割,在数据被分割后通过Map(映射)函数将数据映射成不同的区块,分配给计算机机群分布式运算处理,之后再通过Reduce(化简)函数将结果汇总,从而完成海量数据的并行计算处理.MapReduce模式的突出优势是对数据一致性要求不高,具有扩展性和可用性,特别适用于数据分析、日志分析、商业智能分析、客户营销等海量的结构化、半结构化及非结构化数据的混合处理.但是MapReduce模式的时延过大,更适用于离线“批处理”计算的需求,不适合机器迭代学习、流处理等实时计算任务.因此,以MapReduce为基础,又衍生出多种不同的并行计算架构.例如,Yahoo的s4系统、Twitter的Storm系统都是针对实时流计算的架构,适用于实时分析、在线机器学习、不停顿的计算、分布式RPC、ETL等多个应用领域.此外,MapReduce的发起人Google也在2010年开发了Dremel“交互式”数据分析系统,将PB级别的数据处理时间由MapReduce的“分钟”级缩短到了“秒”级.3.4大数据的数据挖掘技术大数据的数据挖掘技术比较复杂,一般需要针对具体的应用类型采用不同的处理方式.例如,对于流量统计、趋势分析、用户行为分析这样的统计分析,可将数据存储在分布式文件系统中,通过万方数据第3期吴亚坤,等:大数据技术研究综述24lMapReduce并行处理方式来完成;对于OLAP分析,则可以采用行列混合存储、压缩、分片索引等技术对数据库进行有针对性的优化,借助强大的并行处理能力来完成数据分组和表间关联;对于金融、B2C等实时要求较高的业务,为获得快速处理能力可将热点数据常驻内存或在特定数据库中进行分析.Hive和Mahout是大数据挖掘的代表技术.Hive是一个基于Hadoop的PB级数据仓库平台,用于管理和查询结构化数据并完成海量数据挖掘.Hive定义了一个类似于SQL的查询语言HQL,能够将用户编写的SQL转化为相应的MapReduce任务来运行,非常方便习惯于使用SQL的用户完成并行计算.Mahout则是一个机器学习与数据挖掘算法库,提供了一些可扩展的机器学习领域经典算法的实现,如集群、分类、推荐过滤等,与Hadoop结合后可以提供分布式数据分析挖掘功能.4大数据技术面临的挑战大数据的出现,对社会的各个领域都带来了巨大的影响.但总的来说,大数据的研究还处于初级阶段.随着研究的不断深入,人们越来越意识到大数据在给社会和生活带来便利的同时,面临的问题也越来越多.如何解决这些问题,是大数据技术面临的新的挑战,也是大数据技术未来的研究发展方向.4.1大数据隐私安全问题互联网的发展、特别是社交网络的出现,加速了数据的产生和传播.个人的手机号码、用户密码、身份证号码、银行卡密码等重要信息、以及个人网络浏览的偏好、上传的文字、照片等信息均以数字化的形式存储在网络中.这些信息运用得当,会给企业和社会创造更大的经济和社会价值;反之,如果被暴露或被不法分子窃取,就会产生个人信息或财产的安全问题.因此,如何解决数据公开和隐私保护的矛盾将是大数据隐私保护的关键.传统的数据隐私保护技术都是针对静态数据的,无法适应大数据更新速度快,具有动态性的特点.因此,业界都在研究如何在不暴露用户敏感信息的前提下进行有效的数据挖掘,已经有学者提出了“保护隐私的数据挖掘”概念.大数据的隐私保护问题将成为未来大数据研究的重点方向之一,需要从技术手段和法律法规等方面综合解决.4.2大数据集成问题传统的数据处理中就存在着数据集成问题,但是大数据的数据集成面临着新的挑战.首先,大数据具有数据多样化的特点,不仅数据来源多样化,而且数据类型也从以结构化为主转为结构化、半结构化、非结构化的融合.因此,传统的文件管理模式和关系数据库系统已经无法满足大数据的存储需求,新型分布式文件系统和分布式并行数据库系统被研发出来.这种数据存储方式的改变,必将导致数据集成过程中数据格式的转换,这种转换是极其复杂和至关重要的,是大数据存储系统开发的新热点.其次,大数据的价值稀疏性决定了在数据集成时必须进行数据清洗.大数据清洗过程中“度”的把握非常重要,既不能清洗过细,将有价值的信息过滤掉;又不能清洗过粗,达不到清洗效果.如何在“质”和“量”之间进行取舍也是数据集成中必须考虑的关键问题.4.3大数据分析与挖掘问题传统的数据分析与挖掘技术适合于相对少量的、结构化数据的处理,大数据所提供的海量数据万方数据242辽宁大学学报自然科学版2015正中,绝大多数都是半结构化或非结构化的数据,因此,给传统技术带来巨大的挑战.尽管目前以MapReduce和Hadoop为代表的基于非关系数据库的数据分析技术已经成为大数据处理的主流技术,在大数据分析领域得到了广泛应用,但他们在大数据实时处理等方面的性能仍然不尽人意.虽然在此基础上也陆续开发出一些改善性能的工具,但各种工具实时处理的方法不一致,支持的应用类型都具有局限,往往不能直接应用于具体的实际业务中.因此,通用的大数据实时处理框架迫在眉睫.除了上面提到的几个方面的问题之外,大数据能耗问题、大数据与硬件的协调问题,大数据的性能测试基准等问题都值得进一步地深入研究.5结束语大数据技术正在潜移默化地改变着人们的生活和整个社会.人们已经习惯了将自己的生活通过网络进行记录和分享.智能电网、智慧交通、智慧医疗、智慧环保、智慧城市的建设,也已经将当今社会拽入到“大数据”时代.本文简述了大数据的起源、发展、概念、特点,在此基础上,总结了大数据处理的一般流程、关键技术,并分析了大数据技术面临的问题.大数据技术的发展刚刚起步,在诸多领域需要进一步的深入研究.未来将是大数据的时代,我们翘首以待.参考文献:[1][2]阿尔文托勒夫,黄明坚译.第三次浪潮[M].北京:中信出版社,2006:19—25.麦肯锡.大数据:下一个创新、竞争和生产力的前沿[R/OL][2011]http://wenku.baidu.corn/link?url=HyLEGta一8aZw一8d8kNcOOKQqjzkyz227WGvc9fA—v—cu288Aj74QMGyPDRQTr7zC3z—JR3YlSMCyHAm99MvYseqhbXrP4IB39XaJbUCFC.dib1J[英]维克托·迈尔一舍恩伯格,[英]肯尼思·库克耶.盛杨燕,周涛译.大数据时代[M].浙江:浙江人民出版社,2013—08—01.HJiChQ,LiY,QiuwM.Bigondataprocessingincloudcomputingenvironments[C]//Procofthe12thInternationalSymposiumPervasiveSystems,AlgorithmsandNetworks.2012:17—23.孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机发展与研究,2013(1):146—169.刘智慧,张泉灵.大数据技术研究综述[J].浙江大学学报:工学版,2014(6):1—16.涂新莉,刘波,林伟伟.大数据研究综述[J].计算机应用研究,2014(6):1612—1623.№一隋p加¨1J赵娜.大数据研究综述[J].网络与信息工程,2015(5):87—90.张锋军.大数据技术研究综述[J].通信技术,2014(11):1240—11248.魏凯.大数据的技术挑战及发展趋势[J].信息通信技术,2013(6):20—25.李志刚,朱志军.大数据——大价值、大机遇、大变革(全彩)[M].北京:电子工业出版社,2013.(责任编辑郑绥乾)万方数据大数据技术研究综述
作者:作者单位:刊名:英文刊名:年,卷(期):
吴亚坤, 郭海旭, 王晓明, WU Ya-kun, GUO Hai-xu, WANG Xiao-ming
吴亚坤,郭海旭,WU Ya-kun,GUO Hai-xu(辽宁大学计算中心,辽宁沈阳,110036), 王晓明,WANG Xiao-ming(辽宁省产品质量监督检验院,辽宁沈阳,110032)
辽宁大学学报(自然科学版)
Journal of Liaoning University(Natural Science Edition)2015,42(3)
(自然科学版) 2015(3)
引用本文格式:吴亚坤.郭海旭.王晓明.WU Ya-kun.GUO Hai-xu.WANG Xiao-ming 大数据技术研究综述[期刊论文]-辽宁大学学报