大数据分析技术概览
作者:杨展立
来源:《科教新报》2018年第11期
互联网、物联网、无线传感网络、社交网络等新兴技术趋势促使人类社会的数据种类和规模正以前所未有的速度增长,大数据时代正式到来。数据正从简单的记录对象开始转变为一种基础性甚至战略性的资源,从海量的低价值密度的结构化和非结构化数据中获取有价值的信息,已经成为各行业迅速关注的焦点。
什么是大数据?我们通常用四个维度的特征来定义大数据,即数据的规模(Volume)、数据产生的速度(Velocity)、数据的多样性(Variety)和数据的价值(Value)。亚马逊的大数据科学家John Rauser的定义比较直接:超过单台计算机处理能力的数据量则为大数据。但是,大数据并非是简简单单的数据体量庞大,其更重要的价值在于对大数据的分析和处理。只有通过深层分析才能获取很多潜在的、有价值的信息和知识。
在大数据之中有一个重要概念,那就是数据相关性。大数据不是教机器像人一样思考,而是将复杂的数学算法用在海量数据上,让数据自己说话。但数据相关性并不是表面的、显式的,而是需要通过数据分析和逻辑叠加使其展现。挖掘这些规模巨大、形态各异、价值密度低以及快慢不一的数据流之间的相关性是大数据最重要的内涵。
大数据需要新处理模式才能具有更高的价值,转化为具备洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从数据的类别上看,大数据无法使用传统流程、工具处理或分析的信息,它超出正常处理范围和大小,迫使用户采用非传统的处理方法,使用大数据技术(例如分布式存储、数据相关性挖掘、离线数据分析、机器学习和集群计算等)来解决各个特定行业的问题。
通常所说的大数据不仅指数据本身的规模,也包括采集数据的工具、平台和数据分析手段。解决大数据问题的核心是大数据技术,强调从各种各样类型的巨量数据中快速获得有价值的信息。大数据技术涵盖很多方面,包括数据采集、数据存取和处理的基础架构、统计分析、数据建模和预测等。
在大数据分析的平台和基础架构方面,对于想用低成本(包括软硬件)实现集群计算和海量数据分析平台,Hadoop集群是首选的对象。Hadoop是google的云计算系统的开源实现,可以运行在异构环境下,编程简单,不必关心底层实现细节,可以有效提高大规模数据分析工作的效率。
大数据分析的理论核心是各类数据分析算法,各种数据分析算法基于不同的数据类型和特征,能够更加科学地呈现出数据本身具备的特点。被全世界统计学家所公认的各种统计方法很
龙源期刊网 http://www.qikan.com.cn
多都被用于底层数据分析,其价值得到了公认。另外一方面,也正是因为有了大量的高效数据分析算法,大数据的处理才能成为可能。如果一个算法得花上好几年才能得出结论,那大数据的价值也就无从说起了。
通用的数据分析和挖掘很大一类属于探索性数据分析,一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测的效果,并实现一些高级别数据分析的需求。其中最热门的技术趋势之一就是机器学习,它也将在未来的大数据中发挥重要作用,可以说机器学习处于大数据革命的最前沿。探索性数据分析的特点和挑战主要是用于分析的算法很复杂,并且计算涉及的数据量和计算量都十分庞大。
大数据分析一个重要的应用领域之一就是预测性分析,从大数据中挖掘出特点,通过分析建立数据模型,之后便可以通过模型带入新的参数,从而预测未来的趋势。例如,高频交易是大数据应用比较多的领域,大数据算法被应用于交易决定;美国安全局利用大数据进行恐怖主义打击,甚至监控人们的日常生活;企业则应用大数据技术了解客户、满足客户服务需求;警察应用大数据工具捕捉罪犯;信用卡公司应用大数据工具来监控欺诈性交易等。预测分析已在商业和社会的各个方面中得到广泛应用,随着越来越多的数据被记录和整理,未来预测分析必定会成为很多领域的关键技术。
数据不仅仅是信息时代的石油或者黄金,它更是血液,贯穿每个人一生中的各个阶段。当前从医疗健康、金融、零售、广告,到交通、教育、农业等领域,大数据与智能化已经渗透到几乎每一个行业及业务职能,大数据已经从概念走向了价值。与此同时,数据将越来越开放,垄断性的数据将越来越有价值;大数据安全逐渐得到重视,但个人敏感信息泄露事件也频频发生;大数据将催生一批新的工作岗位和相应的专业,同时也将终结一批传统职业。大数据正从多方位改善我们的生活,为我们带来机遇的同时也带来了全新的挑战。
因篇幅问题不能全部显示,请点此查看更多更全内容