大数据

大数据的意思

大数据是IT行业术语,大数据(Big data)通常用来形容公司数据通信产生的大量非结构化数据和半结构化数据,这些数据像潮水一般昼夜不停地大量地堆积于企业数据库。大数据技术的战略意义不在于掌握庞大的数据信息,而在于如何专业处理那些有意义的数据大数据分析可以帮助企业更好地分析市场需求、提高企业商业洞察力和发展战略规划。

大数据的历史与现状

虽然“大数据”是个新词,但收集和存储大量信息以供最终分析的行为却是存来已久的。本世纪初,当行业分析师道格•兰尼(Doug Laney)将当下主流的大数据定义为“三个Vs”时,这一概念获得了新的发展势头:

大数据的特征

VOLUME

体积

企业收集不同信息源的数据:商业交易、社交媒体、传感器以及M2M之间传输的数据。在过去,这些数据的存储是一个大问题,但是新技术(如Hadoop)减轻了这种负担。

VARIETY

种类

数据格式多种多样——从传统数据库中的结构化数字数据到非结构化文本文档再到电子邮件格式、视频、音频、股票代码和金融交易数据。

COMPLEXITY

复杂性

当下的数据源种类繁多,这增加了系统间数据连接、匹配、清洗和格式转换的难度系数。但是,必须要标明数据特征及其相关性,否则数据将失去原有的价值。

 VELOCITY

速度

数据流以前所未有的速度传输,必须及时处理。RFID标签、传感器和智能电表正推动着企业对实时海量数据的处理需求。

Variability

可变性

除了数据的增长速度和种类繁多之外,数据流还会出现与周期性高峰不一致的情况。比如社交媒体流行趋势:每日、季节性的和销售活动触发的峰值数据负载会给数据管理带来一定的难度。更具挑战性的是还要处理那些混杂在其中的非结构化数据。

VERACITY

准确性

大数据的准确性是指数据偏差、数据噪声和数据异常分析。要确保存储和挖掘的数据对现分析的问题有意义。数据分析的准确性是大数据处理流程中最难的部分。在研究大数据战略时,一定要保持数据的整洁,并防止“脏数据”在系统中累积。

为什么大数据很重要

大数据—改变企业管理方法、企业革新方式            —正在改变世界使用商业信息的方式。

大数据的重要性不在于你拥有多少数据,而在于如何有效利用这些数据。你可以从任何信息源获取数据、分析数据来找到能够降低成本、减少耗时、优化产品、开发新产品的解决方案,以及做出明智的企业决策分析。当大数据与高性能分析相结合时,可以帮你完成以下与业务相关的工作:

  • 追踪数据

实时追踪有利于帮你快速找出故障、问题和缺陷的根本原因。

  • 风险评估

短时间内重新计算整个风险投资组合。

  • 分析客户需求

根据客户的购买习惯在销售点生成优惠券。

  • 预防商业欺诈和陷阱

预防商业欺诈事件的发生。

关于大数据的问题

  • 20世纪90年代到21世纪是大数据的萌芽阶段,也称数据挖掘技术阶段。随着数据挖掘理论和数据库技术的成熟,一些商业智能工具和知识管理技术开始被企业所应用。

  • 20032006年是大数据发展的发展阶段,也称非结构化数据阶段,社交网络的流行带来大量非结构化数据的出现,传统的数据处理方法难以应对,数据处理系统、数据库架构得到新的发展。

  • 20062009年是大数据发展的成熟阶段,云计算,大数据形成并行计算和分布式系统Hadoop) 

  • 2010年以来是大数据的爆发期阶段,随着智能手机的广泛流行,数据碎片化、分布式、流媒体特征更加明显,移动数据急剧上升。

  •  2013年大数据技术开始向商业、科技、医疗、政府、教育、经济、交通、物流及社会的各个领域渗透,因此2013年也被称为大数据元年

数据收集:大数据的采集主要有4种来源:管理信息系统、Web信息系统、物理信息系统、科学实验系统。

数据存取:大数据的存取大致可以分为3类:大规模的结构化数据、半结构化和非结构化数据混合、结构化和非结构化混合的大数据。

基础架构:云存储、分布式文件存储。

数据处理:将来自不同数据集的数据收集、整理、清洗、转换后,生成到一个新的数据集,为后续查询和分析处理提供统一的数据视图。

统计分析:差异分析、相关分析、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。

数据挖掘:需要用到数据挖掘技术和机器学习

模型预测:预测模型、机器学习、建模仿真。

结果呈现:云计算、标签云、关系图等。

 大数据通常具有以下几种特点: 
  • 数据量大:多少数据算大数据?大数据最小的数据以10TB起。大数据的采集、存储和计算量都非常大。

  • 极速处理数据:大数据处理速度以“秒”计算。数据具有时效性,要快速从各类型的数据中获得高价值的信息。

  •  数据种类繁多:数据的格式是多样化的,如文字、图片、视频、音频、地理位置信息等,也可以是不同的数据类别,也可以有不同的来源,如传感器、互联网。

  • 价值密度低:由于数据产生量巨大且速度惊人,但并不是所有数据都是有效数据,其中夹杂很多无效数据,因此数据价值的密度低。

  • 在线:大数据数量庞大,云计算是一个很好的解决方案,数据随时在线供你计算或分析。

 在发现大数据如何为企业工作之前,应该首先了解它的来源。大数据的来源大致可分为三类:
 
  • 流数据

这类信息源包括从联网设备(通常是物联网的一部分)网络传输到IT系统的数据。您可以在数据到达时分析这些数据,并决定哪些数据要保留、哪些数据可以舍弃以及哪些数据需要做进一步分析。

 
  • 社交媒体数据
社交网络互动的数据是一组愈发有吸引力的信息,特别对于市场、销售和技术或售后支持这块。这些数据通常非结构化数据或半结构化数据尤其当涉及到消费和商业分析时,还是很有挑战性的
 
  • 可用的公共信息资源
大量的数据可以通过开放的数据源获得,如美国政府的data.govCIA World Factbook或欧盟开放数据门户或各类公共信息服务平台。

虽然存储在几年前可能是一个问题,但是现在出现了一些低成本的存储数据的方法:

第一步是将数据处理成一组唯一数据组件,并减少要管理的数据量。

接下来,就要利用虚拟化技术的强大功能。企业必须虚拟化这组唯一数据组件以便多个应用程序可以重复使用相同的数据占此外,将较小的数据占存储在其它独立于供应商的存储设备上。

如何对抗大数据?虚拟化技术企业对抗大数据管理挑战的秘密武器。

通过减少数据占位、虚拟化数据的重用与存储、文档集中管理,最终将大数据转化为小数据,这样就可以像管理虚拟数据一样管理大数据。数据占用空间之后企业可以在以下三个关键领域显著改数据管理: 

  • 缩短应用程序处理数据的时间;
  • 即使数据访问是分布式的,但集中管理可以有效地保护数据安全性;
  • 保证所有备份数据可视化,这样数据分析的结果会更加准确。 

虚拟化大数据是什么?

虚拟化技术确实是管理大数据的最佳选择。数据虚拟化可以带企业许多额外的好处,比如:终端用户享受虚拟化大数据方案带来的灵活性、企业可以降低成本也不必事无巨细的依赖IT供应商。

科学数据管理方法不仅使大数据备份更高效而且还更容易恢复数据、并可节约近90%的成本,同时给予IT人员更多自由来做战略技术研究以推动企业的高质量发展,而不必将时间和精力都投入到琐细的大数据处理上。

 

大数据应用在哪些方面

大数据对行业的影响:大数据几乎对各个行业都有影响。一起来看看各个行业是如何从这种信息冲击中获益的。

银行业

随着不计其数的信息源的大量涌现,银行面临着寻找新的创新方式来管理大数据的难题。虽说了解客户需求并提高客户满意度非常重要,但在维护法规遵从性的同时,降低风险和预防欺诈也同样重要。大数据带给人们巨大的洞察力,但它也要求金融机构要有玩转大数据的先进分析技术。

政府部门

当政府机构能够利用并分析大数据时,他们将会在管理公用事业、运营机构、应对交通拥堵或预防犯罪等方面取得显著进展。但是,虽说大数据技术有很多优势,但政府也需处理好信息透明度和隐私问题。

生产制造业

有了大数据提供的便利,生产制造商在提高质量和产量的同时还能最大限度地减少资源浪费——这在当今竞争激烈的市场中极其重要。越来越多的制造商正逐步适应一切事物以数据分析为基础的文化氛围中工作,这意味着他们可以更快地解决问题及更敏捷的做出商业决策。

教育部

教育工作者有着数据驱动工作意识,他们可以对学校系统、学生和课程设置产生重大影响。通过对大数据的分析,他们可以识别出高危学生,确保学生能取得一定的进步,并实施更好的系统来评估和支持教师和校长工作。

医疗保健行业

病人记录。治疗计划。处方信息。当涉及到医疗保健领域时,每件事都需要快速、准确地完成。在某些情况下,还要有足够的透明度来满足严格的行业法规。若健康产业大数据得到有效管理,医疗保健护理师可以发现患者的隐藏患病风险并加以改善。

零售业

对零售业来说,建立客户关系至关重要,而管理客户关系的最佳方式就是管理大数据。零售商需要知道向客户推销产品的最佳方式,处理交易的最有效方式,以及重振下滑业绩的最具战略意义的方式。大数据一直都是实现所有这些的核心。

大数据是如何工作的?

在了解大数据是如何为企业工作之前,首先要了解它的来源。大数据的来源大致可分为三类: 流数据、社交媒体数据、公共共享资源。其次,还要了解大数据工作流程的三大概念:什么是大数据存储、什么是大数据管理、什么是大数据分析。

有关大数据的资料