Hadoop学习——简介篇
Hadoop学习——简介篇
1、大数据概论
物联网时代会产生大量的数据
- 用户的浏览数据
- 用户的操作行为数据
- 用户的业务数据 (订单 购物车数据 收藏)
- 历史订单数据
- 爬虫第三的数据
- 第三方运营商数据…
总之,我们的数据量非常大,而且是越来越大
1.1 分布式(并行)
-
将数据存储在不同的很节点上,
-
运算并行的在不同的节点上执行
-
数据的存储
- whybigdata.md 10K
将数据存储在不同的机器(节点)中
- 数据的运算
将运算并行的执行在多个机器上 , 任务的划分
1.2 大数据特点(4V)
1.2.1 Volume(大量)
截至目前,人类生产的所有印刷材料的数据量是200PB,而历史上全人类总共说过的话的数据量大约是5EB。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。
1.2.2 Velocity(高速)
这是大数据区分于传统数据挖掘的最显著特征。根据DC的“数字宇宙”的报告,预计到2025年,全球数据使用量将达到163ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。
例子:
- 天猫双十一:2017年3分01秒,天猫交易额超过100亿
- 2019年1分36秒,天猫交易额超过100亿
1.2.3 Variety(多样)
这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以数据库文本为主的结构化数据,非结构化数据越来越多,包括网铬日志音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。
1.2.4 Vaue(低价值密度)
价值密度的高低与数据总量的大小成反比。比如,在一天监控视频中,我们只关心宋宋老师晚上在床上健身那一分钟,如何快速对有价值数据“提纯”成为目前大数据背景下待解决的难题。
1.3 大数据应用场景
- 物流仓储:大数据分析系统助力商家精细化运营、提升销量、节约成本。
京东物流:上午下单下干送达、下午下单次日上午送达
- 零售:分析用户消费习惯,为用户购买商品提供方便,从而提升商品销量。
著名的经典案例:
纸尿布+啤酒
。该实验表明:一位父亲在超市为孩子购买纸尿布的同时,为自己购买啤酒的频率非常高。
- 旅游:深度结合大数据能力与旅游行业需求,共建旅游产业智慧管理、智慧服务和智慧营销的未来。
- 商品广告推荐:给用户推荐可能喜欢的商品
- 保险:海量数据挖掘及风险预测,助力保险行业精准营销,提升精细化定价能力。
- 金融:多维度体现用户特征,帮助金融机构推荐优质客户,防范欺诈风险。
- 房产:大数据全面助力房地产行业,打造精准投策与营销,选出更合适的地,建造更合适的楼,卖给更合适的人。
- 人工智能:柯洁与Alphago
1.4 大数据发展前景
- 党的十八大提出“实施国家大数据战略”,国务院印发《促进大数据发展行动纲要》,大数据技术和应用处于创新突破期,国内市场需求处于爆发期,我国大数据产业面临重要的发展机遇。
- 党的十九大提出“推动互联网、大数据、人工智能和实体经济深度融合”。
- 国际数据公司DC预测,到2020年,企业基于大数据计算分析平台的支出将突破5000亿美元。目前,我国大数据人才较少,未来大数据人才缺口较大。
- 多所高校陆续新建数据科学与大数据技术、大数据应用与管理相关专业
- 大数据属于高新技术之一,工作待遇相当不错
2、HADOOP简介
大部分情况下我们可以将hadoop理解成hadoop的生态圈 ,如图:
- HDFS:(Hadoop Distribute File System)分布式文件系统,海量数据存储解决方案
- MapReduce:Hadoop的分布式运算编程框架
- Yarn:分布式资源调度平台和任务监控平台
- Commons: HADOOP底层技术支持
Apache Hadoop软件库是一个框架,该框架允许使用简单的编程模型跨计算机集群对大型数据集进行分布式处理。它旨在从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。库本身不是设计用来依靠硬件来提供高可用性,而是旨在检测和处理应用程序层的故障,因此可以在计算机集群的顶部提供高可用性的服务,而每台计算机都容易出现故障。
它解決了两大问题:大数据存储、大数据分析。也就是 Hadoop 的两大核心:HDFS 和 MapReduce。
2.1 Hadoop的发展史
- 2002~2004 年,第一轮互联网泡沫刚刚破灭,很多互联网从业人员都失业了。我们们的“主角" Doug Cutting 也不例外,他只能写点技术文章赚点稿费来养家糊口。但是 Doug Cutting 不甘寂寞,怀着对梦想和未来的渴望,与他的好朋友 Mike Cafarella 一起开发出一个开源的搜索引擎 Nutch,并历时一年把这个系统做到能支持亿级网页的搜索。但是当时的网页数量远远不止这个规模,所以两人不断改进,想让支持的网页量再多一个数量级。
- 在 2003 年和 2004 年, Googles 分別公布了 GFS 和 Mapreduce 两篇论文。 Doug Cutting 和 Mike Cafarella 发现这与他们的想法不尽相同,且更加完美,完全脱离了人工运维的状态,实现了自动化。
在经过一系列周密考虑和详细总结后,2006 年, Dog Cutting 放奔创业,随后几经周折加入了 yahoo 公司(Nutch 的部分也被正式引入),机绿巧合下,他以自己儿子的一个玩具大象的名字 Hadoop 命名了该项。
当系统进入 Yahoo 以后,项目逐渐发展并成熟了起来。首先是集群规模,从最开始几十台机器的规模发展到能支持上千个节点的机器,中间做了很多工程性质的工作;然后是除搜索以外的业务开发, Yahoo 逐步将自己广告系统的数据挖掘相关工作也迁移到了 Hadoop 上,使 Hadoop 系统进一步成熟化了。
- 2007 年,纽约时报在 100 个亚马逊的虚拟机服务器上使用 Hadoop 转换了 4TB 的图片数据更加加深了人们对 Hadoope 的印象。
- 在 2008 年的时侯,一位 Google 的工程师发现要把当时的 Hadoop 放到任意一个集群中去运是一件很困难的事情,所以就与几个好朋友成立了ー个专门商业化 Hadoop 的公司 Cloudera。同年, Facebook 团队发现他们很多人不会写 Hadoop 的程序,而对 SQL 的一套东西很熟,所以他们就在 Hadoop 上构建了一个叫作 Hive 的软件,专把 SQL 转换为 Hadoop 的 Mapreduce 程序。
- 2011年, Yahoo 将 Hadoop 团队独立出来,成立了ー个子公司 Hortonworks,专门提供 Hadoop 相关的服务。
2.2 Hadoop的三大发型版本
Hadoop三大发行版本:Apache、Cloudera、Hortonworks。
- Apache版本最原始(最基础)的版本,对于入门学习最好。
- Cloudera在大型互联网企业中用的较多。
- Hortonworks文档较好。
2.2.1 Apache Hadoop
2.2.2 Cloudera Hadoop
- 2008年成立的Cloudera是最早将Hadoop商用的公司,为合作伙伴提供Hadoop的商用解决方案,主要是包括支持、咨询服务、培训。
- 2009年Hadoop的创始人Doug Cutting也加盟Cloudera公司。Cloudera产品主要为CDH,Cloudera Manager,Cloudera Support
- CDH是Cloudera的Hadoop发行版,完全开源,比Apache Hadoop在兼容性,安全性,稳定性上有所增强。
- Cloudera Manager是集群的软件分发及管理监控平台,可以在几个小时内部署好一个Hadoop集群,并对集群的节点及服务进行实时监控。Cloudera Support即是对Hadoop的技术支持。
- Cloudera的标价为每年每个节点4000美元。Cloudera开发并贡献了可实时处理大数据的Impala项目。
2.2.3 Hortonworks Hadoop
- 2011年成立的Hortonworks是雅虎与硅谷风投公司Benchmark Capital合资组建。
- 公司成立之初就吸纳了大约25名至30名专门研究Hadoop的雅虎工程师,上述工程师均在2005年开始协助雅虎开发Hadoop,贡献了Hadoop80%的代码。
- 雅虎工程副总裁、雅虎Hadoop开发团队负责人Eric Baldeschwieler出任Hortonworks的首席执行官。
- Hortonworks的主打产品是Hortonworks Data Platform(HDP),也同样是100%开源的产品,HDP除常见的项目外还包括了Ambari,一款开源的安装和管理系统。
- HCatalog,一个元数据管理系统,HCatalog现已集成到Facebook开源的Hive中。Hortonworks的Stinger开创性的极大的优化了Hive项目。Hortonworks为入门提供了一个非常好的,易于使用的沙盒。
- Hortonworks开发了很多增强特性并提交至核心主干,这使得Apache Hadoop能够在包括Window Server和Windows Azure在内的Microsoft Windows平台上本地运行。定价以集群为基础,每10个节点每年为12500美元。
2.3 Hadoop的特点
高可靠性
:Hadoop底层将数据以多个副本的形式存储在不同的机器上,保证数据的安全可靠。高扩展性
:当存储hdp集群的存储能力和运算资源不足时,可以横向的扩展机器节点来达到扩容和增强运算能力 。高效性
:在MapReduce的思想下能够在节点之间动态地移动运算,且是分布式并行工作的,所以运海量数据非常高效。高容错性
: Hadoop能够自动保存数据的多个副本,当有存储数据的节点宕机以后, 会自动的复制副本维持集群中副本的个数 ,并且能够自动将失败的任务重新分配。低成本
:hadoop可以运行在廉价的机器上并行工作,达到高效,安全,效率于一身目的。
2.4 Hadoop学习核心内容
- HDFS:(Hadoop Distribute File System)分布式文件系统,海量数据存储解决方案
- MapReduce:Hadoop的分布式运算编程框架
- Yarn:分布式资源调度平台和任务监控平台
- Commons: HADOOP底层技术支持
结束!
- 点赞
- 收藏
- 关注作者
评论(0)