文档简介:
术语解释
Hadoop:Hadoop是Apache基金会项目,是一种分布式系统的基础架构,它可以使用户在不了解分布式底层细节的情況下开发分布式程序,充分利用集群进行高速运算和存储。
服务:特指大数据组件中各进程,如DataNode、ResourceManager等。
HDFS:HDFS是Hadoop的重要组成部分,一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。
MR:即MapReduce是一种编程模型,用于大规模数据集的并行运算。MapReduce的设计目标是方便编程人员在不熟悉分布式并行编程的情况下,将自己的程序运行在分布式系统上。
Yarn:是一种Hadoop 资源管理器和通用资源管理系统,可为上层应用提供统一的资源管理和调度,为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。
Zookeeper:分布式的、开放源码的应用程序协调服务,是Google Chubby的一个开源实现,同时也是Hadoop和Hbase的重要依赖组件。为分布式应用提供了一致性服务,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。
Spark:专为大规模数据处理而设计的快速通用的计算引擎,是一种类MapReduce的通用并行计算框架,不同于MapReduce,Job的中间输出结果可以保存在内存中,不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等数据处理任务。
Hive:Hive是HDP的一个组件,为Hadoop中存储的数据提供类似SQL的接口,极大简化了操作人员的使用。
HBase:构建于HDFS文件系统之上,具有高可用、分布式、面向列、可伸缩性的开源数据库。
Kerberos:主要是用来做网络通信时的身份认证,保证外部节点无法与集群内部的节点通信,防止恶意的使用或篡改Hadoop集群的问题,确保了Hadoop集群安全。