大数据的意思
大数据是IT行业术语,大数据(Big data)通常用来形容公司数据通信产生的大量非结构化数据和半结构化数据,这些数据像潮水一般昼夜不停地大量地堆积于企业数据库。大数据技术的战略意义不在于掌握庞大的数据信息,而在于如何专业处理那些有意义的数据。大数据分析可以帮助企业更好地分析市场需求、提高企业商业洞察力和发展战略规划。
大数据的历史与现状
虽然“大数据”是个新词,但收集和存储大量信息以供最终分析的行为却是存来已久的。本世纪初,当行业分析师道格•兰尼(Doug Laney)将当下主流的大数据定义为“三个Vs”时,这一概念获得了新的发展势头:
大数据的特征
VOLUME
体积
企业收集不同信息源的数据:商业交易、社交媒体、传感器以及M2M之间传输的数据。在过去,这些数据的存储是一个大问题,但是新技术(如Hadoop)减轻了这种负担。
VARIETY
种类
数据格式多种多样——从传统数据库中的结构化数字数据到非结构化文本文档再到电子邮件格式、视频、音频、股票代码和金融交易数据。
COMPLEXITY
复杂性
当下的数据源种类繁多,这增加了系统间数据连接、匹配、清洗和格式转换的难度系数。但是,必须要标明数据特征及其相关性,否则数据将失去原有的价值。
VELOCITY
速度
数据流以前所未有的速度传输,必须及时处理。RFID标签、传感器和智能电表正推动着企业对实时海量数据的处理需求。
Variability
可变性
除了数据的增长速度和种类繁多之外,数据流还会出现与周期性高峰不一致的情况。比如社交媒体流行趋势:每日、季节性的和销售活动触发的峰值数据负载会给数据管理带来一定的难度。更具挑战性的是还要处理那些混杂在其中的非结构化数据。
VERACITY
准确性
大数据的准确性是指数据偏差、数据噪声和数据异常分析。要确保存储和挖掘的数据对现分析的问题有意义。数据分析的准确性是大数据处理流程中最难的部分。在研究大数据战略时,一定要保持数据的整洁,并防止“脏数据”在系统中累积。
为什么大数据很重要
大数据—改变企业管理方法、企业革新方式 —正在改变世界使用商业信息的方式。
大数据的重要性不在于你拥有多少数据,而在于如何有效利用这些数据。你可以从任何信息源获取数据、分析数据来找到能够降低成本、减少耗时、优化产品、开发新产品的解决方案,以及做出明智的企业决策分析。当大数据与高性能分析相结合时,可以帮你完成以下与业务相关的工作:
- 追踪数据
实时追踪有利于帮你快速找出故障、问题和缺陷的根本原因。
- 风险评估
短时间内重新计算整个风险投资组合。
- 分析客户需求
根据客户的购买习惯在销售点生成优惠券。
- 预防商业欺诈和陷阱
预防商业欺诈事件的发生。
关于大数据的问题
20世纪90年代到21世纪是大数据的萌芽阶段,也称数据挖掘技术阶段。随着数据挖掘理论和数据库技术的成熟,一些商业智能工具和知识管理技术开始被企业所应用。
2003年–2006年是大数据发展的发展阶段,也称非结构化数据阶段,社交网络的流行带来大量非结构化数据的出现,传统的数据处理方法难以应对,数据处理系统、数据库架构得到新的发展。
2006年–2009年是大数据发展的成熟阶段,云计算,大数据形成并行计算和分布式系统(Hadoop)。
2010年以来是大数据的爆发期阶段,随着智能手机的广泛流行,数据碎片化、分布式、流媒体特征更加明显,移动数据急剧上升。
- 2013年大数据技术开始向商业、科技、医疗、政府、教育、经济、交通、物流及社会的各个领域渗透,因此2013年也被称为大数据元年。
数据收集:大数据的采集主要有4种来源:管理信息系统、Web信息系统、物理信息系统、科学实验系统。
数据存取:大数据的存取大致可以分为3类:大规模的结构化数据、半结构化和非结构化数据混合、结构化和非结构化混合的大数据。
基础架构:云存储、分布式文件存储。
数据处理:将来自不同数据集的数据收集、整理、清洗、转换后,生成到一个新的数据集,为后续查询和分析处理提供统一的数据视图。
统计分析:差异分析、相关分析、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。
数据挖掘:需要用到数据挖掘技术和机器学习。
模型预测:预测模型、机器学习、建模仿真。
结果呈现:云计算、标签云、关系图等。
数据量大:多少数据算大数据?大数据最小的数据以10TB起。大数据的采集、存储和计算量都非常大。
极速处理数据:大数据处理速度以“秒”计算。数据具有时效性,要快速从各类型的数据中获得高价值的信息。
数据种类繁多:数据的格式是多样化的,如文字、图片、视频、音频、地理位置信息等,也可以是不同的数据类别,也可以有不同的来源,如传感器、互联网。
价值密度低:由于数据产生量巨大且速度惊人,但并不是所有数据都是有效数据,其中夹杂很多无效数据,因此数据价值的密度低。
在线:大数据数量庞大,云计算是一个很好的解决方案,数据随时在线供你计算或分析。
流数据
这类信息源包括从联网设备(通常是物联网的一部分)网络传输到IT系统的数据。您可以在数据到达时分析这些数据,并决定哪些数据要保留、哪些数据可以舍弃以及哪些数据需要做进一步分析。
- 社交媒体数据
- 可用的公共信息资源
虽然存储在几年前可能是一个问题,但是现在出现了一些低成本的存储数据的方法:
第一步是将数据处理成一组唯一数据组件,并减少要管理的数据量。
接下来,就要利用虚拟化技术的强大功能。企业必须虚拟化这组唯一数据组件,以便多个应用程序可以重复使用相同的数据占位,此外,将较小的数据占位存储在其它独立于供应商的存储设备上。
如何对抗大数据?虚拟化技术是企业对抗大数据管理挑战的秘密武器。
通过减少数据占位、虚拟化数据的重用与存储、文档集中管理,最终将大数据转化为小数据,这样就可以像管理虚拟数据一样管理大数据。数据占用空间变小之后,企业可以在以下三个关键领域显著改善数据管理:
- 缩短应用程序处理数据的时间;
- 即使数据访问是分布式的,但集中管理可以有效地保护数据安全性;
- 保证所有备份数据可视化,这样数据分析的结果会更加准确。
虚拟化大数据是什么?
虚拟化技术确实是管理大数据的最佳选择。数据虚拟化可以带给企业许多额外的好处,比如:终端用户能享受虚拟化大数据方案带来的灵活性、企业可以降低成本也不必事无巨细的依赖IT供应商。
科学数据管理方法不仅使大数据备份更高效而且还更容易恢复数据、并可节约近90%的成本,同时给予IT人员更多自由来做战略技术研究以推动企业的高质量发展,而不必将时间和精力都投入到琐细的大数据处理上。
大数据应用在哪些方面
大数据对行业的影响:大数据几乎对各个行业都有影响。一起来看看各个行业是如何从这种信息冲击中获益的。