上云无忧 > 文档中心 > 什么是百度智能云MapReduce?
什么是百度智能云MapReduce?

文档简介:
MapReduce(BMR)是全托管的Hadoop/Spark集群。您可以按需部署并弹性扩展集群,只需专注于大数据处理、分析、报告,拥有多年大规模分布式计算技术积累的百度运维团队全权负责集群运维。
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

概述

MapReduce(简称“BMR”)是托管的一站式大数据平台,提供高可靠、高安全性、高性价比、易运维的分布式计算服务,涵盖 Hadoop、Spark、Hive、Flink、Presto、Druid等多种开源组件,并与百度对象存储无缝衔接,助力企业轻松高效地处理海量数据。

MapReduce支持完整的Hadoop生态:

  • Hadoop:提供可靠存储HDFS以及MapReduce编程范式以便大规模并行处理数据。
  • Spark:提供基于分布式内存的大规模并行处理框架,从而大大提高大数据分析性能。Spark提供了SQL查询接口、流数据处理以及机器学习。
  • HBase:大规模分布式NoSQL数据库,提供随机存取大量的非结构化和半结构化的海量数据。
  • Kafka:提供托管kafka独立集群模板,支持kafka 1.0.1、1.1.1、2.5.1 多个版本,提供可靠的消息队列服务。
  • ClickHouse:是一个开源的列式存储数据库管理系统,多用于联机分析(OLAP)场景,可提供海量数据的存储和分析,同时利用其数据压缩和向量化引擎的特性,能提供快速的数据搜索。

与自己搭建Hadoop集群相比,MapReduce有以下优势:

  • 方便:几分钟便可创建集群,无需为节点分配、部署、优化投入时间。
  • 弹性:创建任意大小的集群并动态调整集群规模,高峰期加大集群规模以提高计算能力,低峰期可对应缩减集群规模降低花费。
  • 开放:完全兼容开源Hadoop/Spark社区,零成本业务迁移。
  • 实惠:支持按需付费以及包年包月,计价简单而透明。
  • 安全:专属私有网络,独占系统环境,确保数据安全。

MapReduce组件

  • MapReduce:用于大规模数据集的分布式并行计算的编程模型,极大地方便了开发者在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。
  • Spark:开源的集群计算框架。Spark通过拓展内存计算可在海量数据的迭代式计算和交互式计算中提供远快于Hadoop的运算速度。同时,Spark支持SQL请求、流数据处理、机器学习和图表处理,提高开发者效率。
  • HBase:开源的、非关系型、分布式的列式数据库,为Hadoop提供NoSQL功能。
  • Hive:允许使用类似于SQL语法进行数据查询,适合数据仓库的分析任务。
  • Pig:是一种过程语言,可加载数据、表达转换数据以及存储最终结果,使得日志等半结构化数据变得有意义。
  • Hue:为了方便管理Hadoop集群以及执行Hive或者Pig脚本而提供的一系列网页应用。
  • Sqoop:用于Hadoop与传统的数据库间的数据导入和导出。
  • Kafka:开源的、高吞吐量的分布式消息队列系统,支持Hadoop并行数据加载。
  • Zeppelin:Web版的notebook,用于数据分析和可视化,可无缝对接Hive、SparkSQL等。
  • ZooKeeper:提供分布式一致性锁,用于HDFS、YARN高可用,在HBase、Kafka、Druid中保证数据一致性。
  • Ranger:提供基于策略的用户权限管理服务,BMR中的Ranger支持对HDFS、Hive、HBase、Kafka配置用户权限。
  • Impala:为数据分析师提供的开源的OLAP数据分析引擎。Impala和Hive使用相同的元数据。
  • Presto:为数据分析师提供的开源的OLAP数据分析引擎。Presto和Hive使用相同的元数据。
  • Alluxio:是一个面向基于云的数据分析和人工智能的开源的数据编排技术。 它为数据驱动型应用和存储系统构建了桥梁, 将数据从存储层移动到距离数据驱动型应用更近的位置从而能够更容易被访问。
  • Airflow:是一个分布式的流程调度系统,在配置上可以像编程一样的方式去创作工作流,通过DAG定时和管理各种离线Job的调度平台。

高可用架构

Hadoop-3.0.0以及以上集群版本服务部署情况:

Hadoop-3.0.0以下集群版本服务部署情况:

ClickHouse

相似文档
  • 2022-08: BMR更新高可用架构,由2Master调整为3Master结构,提供更加稳定和高可用的大数据集群管控服务。 2022-07: BMR发布全新BMR1.6.0版本,支持Hadoop 2.8.5、Spark 2.4.8、Hive 2.3.9等版本。 支持删除已释放集群和修改标签和批量编辑标签功能。
  • 本文介绍BMR版本的发行版本信息。 BMR 1.X系列版本信息: Hadoop 2.7.1 2.7.1 2.7.7 2.8.5 ; Zookeeper 3.4.6 3.4.6 3.4.6 3.4.6 ; Spark 2.1.0 2.1.0 2.1.0 2.4.8 ;
  • 便捷易用的集群部署管理: 为用户提供简单快捷的界面化交互方式进行集群部署管理,并提供丰富全面的大数据组件,灵活满足各种使用场景。为用户提供配置多样的高性能节点机器,允许用户按需进行集群的弹性配置,以及根据业务情况进行节点的扩缩容,以最低的成本挖掘最大的数据价值。
  • 与自建Hadoop集群相比,MapReduce有以下优势: 易用:界面点选的操作方式,多种大数据开源组件自由组合,分钟级完成集群创建操作。 模板丰富:BMR支持多种集群模板,Hadoop、HBase、Hive、Druid、Kafka、ClickHouse,支持多种应用场景。
  • MapReduce集群提供四种类型的节点: Master节点:为集群管理节点,部署 NameNode、ResourceManager、HMaster 等进程,在创建集群时可以选择开启高可用模式,支持核心组件服务自动故障迁移。建议选择8核以上的节点配置。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部