浅谈大数据技术

现如今,大数据技术已经渗透到我们生活的方方面面,人们也很乐于谈及大数据。但是,什么是大数据?大数据是如何产生的?大数据涉及哪些技术?大数据给我们带来了什么好处?对我们产生了什么影响? 也许并不是所有人都能讲的很清楚明白,本文将针对大数据时代的发展,大数据的概念,影响和应用等方面来讲述大数据,希望你对大数据能够产生新的认识。

大数据的发展

截至目前,我们正在经历第三次信息化浪潮。第一次是在1980年左右,个人计算机时代的来临,比较有代表的企业有Inter、AMD、IBM、苹果、微软、联想等,主要解决的是信息处理的问题;第二次是在1995年前后,我们进入了互联网的时代,信息传输得到了很好的发展,代表企业有雅虎、谷歌、阿里巴巴、百度、腾讯等;第三次是发生在2010年前后,物联网、云计算和大数据的时代,这个时代所要解决的问题是信息量的大爆炸,接下来也会涌现出一批新市场的标杆企业。 IBM前首席执行官郭士纳提出:IT领域每隔十五年就会迎来一次重大改革。

大数据的发展需要技术的支撑,而大数据技术能得以实现,也是因为信息科技的不断发展,现如今

  1. 存储设备容量的不断增加
  1. CPU处理能力大幅提升
  1. 网络带宽不断增加

大数据的发展经历了以下三个阶段:

第一个阶段是在上世界90年代至本世界初,这个阶段属于大数据的萌芽期。随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理系统等。

到了20实际起初的前十年,web2.0应用发展迅猛,非结构化数据大量产生,传统的处理方法很难以应付,这也带动了大数据技术的快速突破,大数据解决方案逐渐走向成熟,形成了并行计算与分布式系统两大核心技术,谷歌的GFS和MapReduce等大数据技术受到追捧,Hadoop平台开始大行其道。这个阶段是大数据的成熟期。

2010年后,也就是大数据的第三阶段:大规模应用期。大数据应用渗透各行各业,数据驱动决策,信息社会智能化程度大幅提高。

什么是大数据

大数据最直观的理解,就是数据量很大,但是多大才算是大呢?根据IDC作出的估测,数据一直以每年50%的速度增长,也就意味着数据每两年就增长一倍。 人类在近两年产生的数据相当于之前产生的全部数据量。预计到2020年,全球将总共拥有35ZB(1ZB=1024EB,1EB=1024PB,1PB=1024TB,1TB=1024GB)的数据量。

其实,大数据不仅仅在与数据量大,大数据还包含了“快速化”、“多样化”、“价值化”等多种属性。

大数据的处理速度很快,数据从生产到消耗,可用于生成决策的时间是非常段的,也就是大数据中的1秒定律(或称:秒级定律):就是说对处理速度有要求,一般要在秒级时间范围内给出分析结果,时间太长就失去价值了.这个速度要求是大数据处理技术和传统的数据挖掘技术最大的区别。

大数据的多样化体现在,大数据的数据由10%的结构化数据(存储在数据库中),90%非机构化数据组成,这和人类信息密切相关。如在企业中我们常用的Email、文档、文件,web的文本、图像、视频,以及我们日常用的微信,Twitter、Facebook、Blog等。

大数据的数据量很大,但是其价值密度也很低,例如:我们路上随处可见的视频监控,在连续不断的监控过程中,产生的大量数据其实都是没什么用的;但是如果发生事故,仅仅就几秒的数据,就会产生极高的价值。所以说尽管大数据的数据价值密度低,但是其商业价值却很高。

大数据的影响

《大数据时代》这本书中讲到的大数据在思维当面的影响,大数据完全颠覆了传统的思维方式。主要体现在以下三点:

  1. 全样而非抽样
  2. 效率而非精确
  3. 相关而非因果

现如今,你在使用淘宝购物、百度搜索等应用的时候,你就会发现,它总能给你推荐你想要看的,这是大数据决策的体现,依据大数据分析,去匹配你属于哪一类人群,而从给你推荐这一类人群喜好的东西。

大数据的新起,也让数据分析师,数据科学家,大数据工程师,数据可视化等职业成为了热门。现如今大数据已经无处不在,包括金融、汽车、零售、餐饮、电信、能源、政务、医疗、体育、娱乐等在内的社会各行各业都融入了大数据的印记。

有这样一个大数据应用的故事:

Netflix原本是通过邮寄方式租赁DVD成为了北美家喻户晓的在线影片租赁提供商。但是面对互联网的冲击,盈利每况愈下。于是,Netflix转向线上,但转型并不成功,一直被资本市场唱空。Netflix后来运用大数据技术分析他们网站以往产生的数据后发现,喜欢BBC剧、导演大卫·芬奇(David Fincher)和老戏骨凯文·史派西(Kevin Spacey)的用户存在交集,一部影片如果同时满足这几个要素,就可能大卖。之后他们花1亿美元买下了一部早在1990年就播出的BBC电视剧《纸牌屋》的版权(几乎是美国一般电视剧价钱的两倍),并请来大卫·芬奇担任导演,凯文·史派西担当男主角。 显然他们这样做使得Netflix获得了成功,《纸牌屋》不仅是Netflix网站上有史以来观看量最高的剧集,也在美国及四十多个国家大热。《纸牌屋》也开启了大数据对于影视产业的全面渗透。

大数据技术

大数据技术分为下面四个层面:

  1. 数据采集

    利用ETL工具将分布的、异构数据源中的数据如关系数据、平面数据文件等,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集中,成为联机分析处理、数据挖掘的基础;或者也可以把实时采集的数据作为流计算系统的输入,进行实时处理分析。

  2. 数据存储和管理

    利用分布式文件系统、数据仓库、关系数据库,NoSQL数据库、云数据库等,实现对结构化、半结构化和非结构化海量数据的存储和管理

  3. 数据处理与分析

    利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析;对分析结果进行可视化呈现,帮助人们更好的理解数据、分析数据

  4. 数据隐私和安全

    从大数据中挖掘潜在的商业价值的同时,构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全。

大数据的核心技术主要是: 分布式存储(HDFS)分布式处理(MapReduce)

大数据与云计算、物联网的关系

大数据、云计算和物联网目前代表了IT领域最新的技术趋势,他们三者之间是相辅相成的,由区别也有联系。

云计算

云计算实现了通过网络提供可伸缩、廉价的分布式计算能力,用户只需要在具备网络接入条件的地方,就可以随时随地地获得所需得各种IT资源。

云计算技术: 虚拟化、分布式存储、分布式计算、多租户等

物联网

物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人员和物等通过新的方式连在一起,形成人与物、物与物相联,实现信息化和远程管理控制。

物联网的技术:识别和感知技术(二维码、RFID、传感器等)、网络与通信技术、数据挖掘与融合技术等

三者关系

参考资料

  1. 大数据技术原理与应用MOOC
  2. <<大数据时代>> 维克托·迈尔-舍恩伯格 著
-------------本文结束感谢您的阅读-------------
Mr.wj wechat
欢迎您扫一扫上面的微信公众号,订阅我的博客!