他的回复:
Big Data大数据,谈的不仅仅是数据量,其实包含了数据量(Volume)、时效性(Velocity)、多样性(Variety) [3]、可疑性(Veracity)。Volume:数据量大量数据的产生、处理、保存,谈的就是Big Data就字面上的意思,就是谈海量数据。Velocity:时效性这个词我有看到几个解释,但我认为用IBM的解释来说是比较恰当的,就是处理的时效,既然前头提到Big Data其中一个用途是做市场预测,那处理的时效如果太长就失去了预测的意义了,所以处理的时效对Big Data来说也是非常关键的,500万笔数据的深入分析,可能只能花5分钟的时间Variety:多变性指的是数据的形态,包含文字、影音、网页、串流等等结构性、非结构性的数据Veracity:可疑性指的是当数据的来源变得更多元时,这些数据本身的可靠度、质量是否足够,若数据本身就是有问题的,那分析后的结果也不会是正确的。麦肯锡将大数据定义为: 无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合。大数据不是一种新技术,也不是一种新产品,而是一种新现象,是近来研究的一个技术热点。大数据具有以下 4 个特点,即 4 个“V”:数据体量(Volumes) 巨大。大型数据集,从TB 级别,跃升到 PB 级别。数据类别(Variety)) 繁多。数据来自多种数据源,数据种类和格式冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据价值( Value) 密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅一两秒钟。处理速度( Velocity) 快。包含大量在线或实时数据分析处理的需求,1 秒定律