大数据必备技能之分布式云平台Hadoop

  • A+
所属分类:头条
摘要

(Hadoop Distributed File System )POSIX分布式存储系统 提供了 高可靠性、高扩展性和高吞吐率的数据存储服务分布式计算框架…

广告也精彩

一、Hadoop创始人介绍

Hadoop作者Doug cutting,就职Yahoo期间开发了Hadoop项目,目前在Cloudera 公司从事架构工作。

大数据必备技能之分布式云平台Hadoop

二、Hadoop简介

Hadoop名字来源于Doug Cutting儿子的玩具大象。

2003-2004年,Google公开了部分GFS和Mapreduce思想的细节,以此为基础Doug Cutting等人用了2年业余时间实现了DFS和Mapreduce机制,一个微缩版:Nutch

Hadoop 于 2005 年秋天作为 Lucene的子项目 Nutch的一部分正式引入Apache基金会。2006 年 3 月份,Map-Reduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目。

三、Hadoop技术简介

官方网站:http://hadoop.apache.org

分布式存储系统HDFS (Hadoop Distributed File System )POSIX

☆分布式存储系统

☆ 提供了 高可靠性、高扩展性和高吞吐率的数据存储服务

分布式计算框架MapReduce

☆分布式计算框架(计算向数据移动)

☆具有 易于编程、高容错性和高扩展性等优点。

分布式资源管理框架YARN(Yet Another Resource Management)

☆负责集群资源的管理和调度

Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

四、Hadoop架构模型

*文件元数据MetaData,文件数据

·元数据

·数据本身

*(主)NameNode节点保存文件元数据:单节点 posix

*(从)DataNode节点保存文件Block数据:多节点

*DataNode与NameNode保持心跳,提交Block列表

*HdfsClient与NameNode交互元数据信息

*HdfsClient与DataNode交互文件Block数据

五、Hadoop解决哪些问题?

§ 海量数据需要及时分析和处理

§ 海量数据需要深入分析和挖掘

§ 数据需要长期保存

海量数据存储的问题:

§ 磁盘IO称为一种瓶颈,而非CPU资源

§ 网络带宽是一种稀缺资源

§ 硬件故障成为影响稳定的一大因素

六、Hadoop 相关技术

1)Hbase

§ Nosql数据库,Key-Value存储

§ 最大化利用内存

2)HDFS

§ hadoop distribute file system(分布式文件系统)

§ 最大化利用磁盘

3)MapReduce

§ 编程模型,主要用来做数据分析

§ 最大化利用CPU

七、Hadoop的优点

Hadoop的四大特性(优点)

1. 扩容能力(Scalable):Hadoop是在可用的计算机集群间分配数据并完成计算任务的,这些集群可用方便的扩展到数以千计个节点中。

2. 成本低(Economical):Hadoop通过普通廉价的机器组成服务器集群来分发以及处理数据,以至于成本很低。

3. 高效率(Efficient):通过并发数据,Hadoop可以在节点之间动态并行的移动数据,使得速度非常快。

4. 可靠性(Rellable):能自动维护数据的多份复制,并且在任务失败后能自动地重新部署(redeploy)计算任务。所以Hadoop的按位存储和处理数据的能力值得人们信赖。

  • 微信
  • 扫一扫
  • weinxin
  • 微信公众号
  • 扫一扫
  • weinxin
广告也精彩
加绒女鞋
Wireless无线蓝牙运动耳机
粉色毛呢大衣
羊绒茧型大衣
广告也精彩

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: