天翼云诸葛AI平台中Hadoop、HDFSKerberos等术语解释

天翼云诸葛AI平台

简介/价格/文档

天翼云诸葛AI平台中Hadoop、HDFSKerberos等术语解释

文档简介：

Hadoop：Hadoop是Apache基金会项目，是一种分布式系统的基础架构，它可以使用户在不了解分布式底层细节的情況下开发分布式程序，充分利用集群进行高速运算和存储。服务：特指大数据组件中各进程，如DataNode、ResourceManager等。

*产品来源：中国电信天翼云。免费试用咨询热线：400-826-7010，为您提供专业的售前咨询，让您快速了解云产品，助您轻松上云！微信咨询

免费试用、价格特惠

文档详情

术语解释

Hadoop：Hadoop是Apache基金会项目，是一种分布式系统的基础架构，它可以使用户在不了解分布式底层细节的情況下开发分布式程序，充分利用集群进行高速运算和存储。

服务：特指大数据组件中各进程，如DataNode、ResourceManager等。

HDFS：HDFS是Hadoop的重要组成部分，一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。

MR：即MapReduce是一种编程模型，用于大规模数据集的并行运算。MapReduce的设计目标是方便编程人员在不熟悉分布式并行编程的情况下,将自己的程序运行在分布式系统上。

Yarn：是一种Hadoop 资源管理器和通用资源管理系统，可为上层应用提供统一的资源管理和调度，为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。

Zookeeper：分布式的、开放源码的应用程序协调服务，是Google Chubby的一个开源实现，同时也是Hadoop和Hbase的重要依赖组件。为分布式应用提供了一致性服务，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。

Spark：专为大规模数据处理而设计的快速通用的计算引擎，是一种类MapReduce的通用并行计算框架，不同于MapReduce，Job的中间输出结果可以保存在内存中，不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等数据处理任务。

Hive：Hive是HDP的一个组件，为Hadoop中存储的数据提供类似SQL的接口，极大简化了操作人员的使用。

HBase：构建于HDFS文件系统之上，具有高可用、分布式、面向列、可伸缩性的开源数据库。

Kerberos：主要是用来做网络通信时的身份认证，保证外部节点无法与集群内部的节点通信，防止恶意的使用或篡改Hadoop集群的问题，确保了Hadoop集群安全。

相似文档

天翼云诸葛AI平台的功能
天翼云诸葛AI平台-大数据平台包含底层的大数据能力平台和上层的一站式数据开发套件为平台用户提供一套从数据采集、数据开发与调度、数据仓库创建、数据展示与输出的大数据开发解决方案。大数据能力 Hdfs分布式文件存储，Hbase分布式列式存储，Hive数据仓库，Spark Streaming流式处理引擎，Spark、MapReduce离线处理引擎，SQL查询引擎，Kafka分布式数据总线，Flume数据抽取工具，支持Kerberos证书权限管理。
天翼云诸葛AI平台的优势
安全可靠中国电信5000+规模的大数据平台，全年稳定性达99.95%，在中国电信生产环境得到验证。自主性高基于开源社区活跃的Apache Hadoop 3.2为核心，自主研发整合大数据计算组件构建的大数据能力平台，大数据平台无技术绑定风险，无协议风险，支持滚动升级。
什么是天翼云翼MapReduce？
翼MapReduce服务（MRS）是一种基于云计算平台的即开即用、稳定可靠、弹性伸缩、便捷管理的数据处理分析服务。 MRS打造了高可靠、高安全、易使用的运行维护平台，对外提供大容量数据的存储和分析能力，可解决用户的数据存储和处理需求。用户可以独立申请和使用托管Hadoop、Spark、HBase和Hive组件，用于快速在主机上创建集群，提供实时性要求不高的海量数据的批量存储和计算能力。当数据完成存储和计算，可终止集群服务，集群终止后不再产生费用。
天翼云翼MapReduce功能详解
MRS基于开源软件Hadoop进行功能增强、Spark内存计算引擎、HBase分布式存储数据库以及Hive数据仓库框架，提供海量数据的分析计算与存储能力。另外，MRS还具备集群管理功能，在申请MRS时，你所要做的是根据业务情况选择节点数量，数据磁盘空间来满足业务要求。MRS申请成功后，你只需要集中精力分析数据即可。
天翼云翼MapReduce的优势
易用提供Hadoop、Spark、Spark SQL、HBase和Hive能力，全流程统一的SQL交互接口使得大数据开发变得更加简单。低成本免运维，计算和存储分离，计算的集群可以按需创建，作业运行结束就可以释放集群。稳定您用于调试和监视集群的时间将更少，服务可用性高（99.9%），数据可靠性高（99.9999%）。开放积极拥抱开源大数据生态，兼容开源，易于与其他服务对接，提供REST API、JDBC等多种使用方式。

文档中心

全民上云·上云补贴申领

免费试用（限企业）

术语解释