本篇文章主要为我们介绍了大数据的概念、发展以及相关应用。
“Big Data is like teenage sex:Everyone talks about it,nobody really knows how to do it,everyone thinks everyone else is doing it,so everyone claims they are doing it too.”
2013年被称为大数据元年,各行各业都逐渐开启大数据应用时代。直至现在,大数据依然为人所津津乐道。
何为大数据?
1PB够大吗?
如果你没有直观印象,可以联想一下你的电脑硬盘容量,标配是500G-1TB,大部分人用了一两年,可能这部分容量都没用完。而1PB=1024TB=1048576GB。
在实际中,一个小有名气的游戏一天的数据量就在数十TB左右,甚至更多。
如果你以为PB单位已经是最大了?那就大错特错了!!!!
在PB之上,还有EB(Exabyte 百亿亿字节 艾字节),ZB(Zettabyte 十万亿亿字节 泽字节),YB(Yottabyte 一亿亿亿字节 尧字节),而这些单位也只是为了方便统计海量数据所给出的当前单位,在未来还可能出现更大的单位。
因特尔公司首席执行官Brian Krzanich表示,2020年互联网用户每天将产生1.5GB的数据。
HIS数据预测,到2025年,全球互联网(IoT)连接设备的总安装量预计将达到754.4亿,这部分设备每天产生的数据量可想而知。
按照前面的数据关系,得出1ZB大概是1.1万亿GB,等同于全世界沙子数量总和。
从上图中不难看出,互联网数据每年都在爆炸式增长。当然,大数据并不只是数据量大而已,它还有其他更深的含义。
对于大数据,麦肯锡全球研究所给出的定义是:
”一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合。“
大数据具有五大特点,称为5V。
1. 多样(Variety)
大数据的多样性是指数据的种类和来源是多样化的,数据可以是结构化的、半结构化的以及非结构化的,数据的呈现形式包括但不仅限于文本,图像,视频,HTML页面等等。
2. 大量(Volume)
大数据的大量性是指数据量的大小,这个就是上面笔者介绍的内容,不再赘述。
3. 高速(Velocity)
大数据的高速性是指数据增长快速,处理快速,每一天,各行各业的数据都在呈现指数性爆炸增长。在许多场景下,数据都具有时效性,如搜索引擎要在几秒中内呈现出用户所需数据。企业或系统在面对快速增长的海量数据时,必须要高速处理,快速响应。
4. 低价值密度(Value)
大数据的低价值密度性是指在海量的数据源中,真正有价值的数据少之又少,许多数据可能是错误的,是不完整的,是无法利用的。总体而言,有价值的数据占据数据总量的密度极低,提炼数据好比浪里淘沙。
5. 真实性(Veracity)
大数据的真实性是指数据的准确度和可信赖度,代表数据的质量。
数据一直都在,变革的是方式
大数据的意义不仅仅在于生产和掌握庞大的数据信息,更重要的是对有价值的数据进行专业化处理。
人类从来不缺数据,缺的是对数据进行深度价值挖掘与利用。可以说,从人类社会有了文字以来,数据就开始存在了,现在亦是如此。这其中唯一改变的是数据从产生,到记录,再到使用这整个流程的形式。
1. 数据生产
在人类社会的早期,民以食为天,数据的产生大多与商品,食物,土地等挂钩。旧石器时代的部落人民在树枝或骨头上刻下凹痕来记录日常的交易活动或物品供应。
为了衡量商品长度,中国人发明了尺、里、寸、丈、步、仞等长度单位;为了衡量重量,发明了升、斗,斛等重量单位。
在互联网时代,数据的生产变得更为容易。美国互联网数据中心曾指出,互联网上的数据每年都将增长50%,每两年便将翻一倍,而目前世界上90%以上的数据是最近几年才产生的。
每人每天都会产生海量数据,如视频数据,电商数据,社交数据等等。