一、概述
1.1、什么是 Hadoop
Hadoop 是一个开源的分布式计算框架,用于处理大规模数据集。
它可以让用户在集群上运行应用程序,通过将大量数据分散存储和处理,实现高效的数据处理。
Hadoop 是一个适合海量数据的分布式存储和分布式计算的平台。
1.2、Hadoop 组件
Hadoop 是一个统称,目前 Hadoop 主要包含三大组件
分布式文件系统(HDFS):是一个分布式存储框架,用于存储和管理大型数据集
计算模型(MapReduce):是一个分布式计算框架,一种基于并行计算的编程模型,用于处理这些数据集
资源管理(yarn):是一个资源调度平台,负责给计算框架分配计算资源
除此之外,Hadoop 还包括许多相关工具和技术,如 Hive、Pig、Spark等,可以帮助用户更方便地进行数据处理和分析。
Hadoop 被广泛应用于大数据领域,例如数据挖掘、日志分析、图像处理等。
1.3、概念类比
大数据:存储很大的数据,读取很大的数据,一般数据库软件(如 mysql)没法做到的
分布式存储(HDFS):多台计算机存储了不同资源,比如存储了 100TB 的奥特曼
分布式计算(MapReduce):几个人一起数一下土豪有多少资产
资源管理(yarn):大姐叫两个弟弟分别去买游戏机和油,预算只有 6000,资源管理就可以分配把 5500 给买游戏机的弟弟,500 给买油的弟弟。
1.4、Hadopp 起源
起源作者 Doug Cutting 受 Google 三篇论文的启发,开发了 Hadoop
Google FS,即 Hadoop 的 HDFS
MapReduce,即 Hadoop 的 MapReduce
BigTable,即 Hadoop 的 HBase
1.5、Hadoop 特点
扩容能力(Scalable):能可靠(reliably)地存储和处理 PB 级别的数据。如果数据量更大,存储不下了,再增加节点就可以了。
成本低(Economical):可以通过普通机器组成的服务器集群来分发以及处理数据这些服务器集群可达数千个节点。
高效率(Eficient):通过分发计算程序,Hadoop 可以在数据所在节点上(本地)并行地(parallel)处理他们,这使得处理非常的迅速。
可靠性(Reliable):Hadoop能够自动地维护数据的多份副本,并且在任务失败后能够自动地重新部署(redeploy)计算任务。
二、版本
目前,Hadoop 已经演变为大数据计算的代名词,形成了一套完善的大数据计算的生态系统,所以针对Hadoop 也出现了很多版本。
Apache Hadoop:官方版本
Cloudera Hadoop(CDH):使用下载最多的版本,稳定,有商业支持(收费),在 Apache 的基础上打上了一些 path,推荐使用。
Hortonworks(HDP):基于 Apache 的版本进行了集成,结合 Ambari 可以实现平台化快速安装部署。