大数据是什么意思?
简述什么是大数据:大数据是指当传统的数据挖掘和数据处理技术无法深入了解基础数据(underlying data)及不能揭示基础数据意义时所使用的一种数据处理流程。当非结构化数据(unstructured data)、时效性数据(time sensitive data)、以及庞大的数据不能被关系数据库引擎处理时,就需要一种不同的数据处理流程,简称为大数据。大数据的处理要求是在现有硬件设备上大规模并行处理数据。(行业术语为:大规模并行处理机,massively parallel)。
大数据通俗解释:
简单来说,大数据反映出我们生活的世界是在不断地发生变化的。变化越多,可被捕捉并记录的数据也就越多。以天气为例:对天气预报员来说,从世界各地收集到的有关当地天气预报的数据量是相当大的。从逻辑上讲,地方环境决定区域效应,区域效应决定全球效应的观点是正确的。但它可能还有另一种解释。天气预报数据以某种方式反映了大数据的特征:大量数据需要被实时处理、大量被输入的数据可能是由机器生成、也可能是个人随笔、亦或是太阳黑点等外界力量之类的信息。这就很好的解释了大数据为何如此重要:
- 目前,收集的大多数数据都是非结构化数据,这类数据的存储和处理有别于传统的关系数据库。
- 可用的计算机性能在飞速发展,预示着我们将有更多的机会处理大数据。
- 互联网已经实现数据民主化,在现有数据不断增加的同时又有越来越多的原始数据产生。
大数据适用范围:
原始形式的数据是没有价值的。很多数据经过处理后才能体现其价值。即便如此,我们也不能忽略了大数据的固有问题。是否值得投入巨大资本费用将数据从本机对象格式转换成可解读的深层次数据? 还是因为有太多未知价值的数据所以值得用大数据处理工具一试? 我们大多数人都同意使用大数据预测天气情况很有价值这一观点,问题是它的价值是否大于将所有实时数据处理成一份可信赖的天气报告所花费的成本。