上云无忧 > 文档中心 > 百度智能云MapReduce开源组件介绍 - ClickHouse
百度智能云MapReduce开源组件介绍 - ClickHouse

文档简介:
ClickHouse简介: ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。它是由俄罗斯搜索引擎公司Yandex开发,并于2016年6月发布的开源DBMS,与Hadoop,Spark相比,ClickHouse轻量很多。
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

ClickHouse简介

ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。它是由俄罗斯搜索引擎公司Yandex开发,并于2016年6月发布的开源DBMS,与Hadoop,Spark相比,ClickHouse轻量很多。

创建集群

登录百度智能云控制台,选择“产品服务->百度MapReduce BMR”,点击“创建集群”,进入集群创建页。购置集群时勾选 ClickHouse 组件即可, 如下图所示:

使用简介

  1. 远程登录到创建好的集群

    ssh root@$public_ip

    使用创建集群时输入的密码

  2. 登录ClickHouse客户端

    su - clickhouse
     clickhouse-client -m -u admin --password 集群密码

    clickhouse-client常用参数:

    • -h 主机名
    • -d 数据库名
    • -m 客户端支持多行SQL输入以分号结尾,不指定该参数默认以回车作为SQL结尾
    • -u 账户,默认admin
    • --password 默认创建集群时的密码

    其他client参数可以执行以下命令进行查看

    clickhouse-client --help
  3. 本地表使用示例

    • 创建本地表:
CREATE TABLE `check_local` (
   `Id` UInt16,
   `Name` String,
   `CreateDate` Date)
 ENGINE = MergeTree()
 PARTITION BY CreateDate 
 ORDER BY Id;
  • 本地表插入数据:
insert into check_local (Id, Name, CreateDate) values (1, 'aa', '2020-01-01');
  • 本地表查询数据:
select * from check_local;
  1. 分布式表使用示例

    • 在默认集群上批量建立本地表:
CREATE TABLE `check_local2` ON CLUSTER default_cluster (
  `Id` UInt16,
  `Name` String,
  `CreateDate` Date)
 ENGINE = MergeTree()
 PARTITION BY CreateDate 
 ORDER BY Id;

备注:ClickHouse集群支持分布式DDL语句,即在DDL语句上加上ON CLUSTER <cluster_neme>的语法,使得该DDL语句执行一次便可在所有实例上创建该表。默认集群名字为default_cluster。

  • 创建分布式表:
CREATE TABLE dis_check_all ON CLUSTER default_cluster
 AS check_local2
 ENGINE = Distributed(default_cluster, default, check_local2, rand());
  • 分布式表插入语法同本地表:
insert into dis_check_all (Id, Name, CreateDate)values (1,'aa','2020-01-01');

或者

insert into dis_check_all values (1,'aa','2020-01-01');
  • 分布式表查询:
select * from dis_check_all;

参考

  1. ClickHouse官网参考文档
  2. ClickHouse官网文档SQL语法参考
  3. ClickHouse官网基准测试数据
相似文档
  • 分布式概述: Kafka是一个分布式,多分区,多副本的流处理消息中间件,具备高吞吐量、高可扩展性、可持久化等特性,广泛应用于实时数据传输、日志收集、实时监控数据聚合等实际应用场景中。BMR中的Kafka是基于开源社区的Kafka,提供一种可快速部署,用户独享的Kafka集群。
  • 1.什么是Alluxio? Alluxio 是世界上第一个面向基于云的数据分析和人工智能的开源的数据编排技术。 它为数据驱动型应用和存储系统构建了桥梁, 将数据从存 储层移动到距离数据驱动型应用更近的位置从而能够更容易被访问。
  • 1.什么是Kudu? Kudu是一个用于结构化数据的开源存储引擎, 它支持低延迟的随机访问, 以及高效的分析存取模式. Kudu使用水平partition和副本技术来将数据分布式化, 每个partition的副本用Raft协议同步, 保证了低平均恢复时间和低长尾延迟. Kudu围绕着Hadoop生态圈设计, 支持多种存取方式如Apache Impala, Apache Spark和MapReduce。
  • 什么是Ooize? Oozie是一个用于管理Apache Hadoop作业的工作流调度程序系统。 Oozie Workflow job是由多个Action组成的有向无环图(DAG)。 Oozie Coordinator job是根据时间(频率)和数据可用性触发的可重复执行的Oozie Workflow job(简单讲就是根据时间或数据条件,规划workflow的执行)。
  • BMR提供两种创建集群的方法:创建自定义集群、使用系统预定义模板创建集群。 BMR将为用户保留一年的集群历史记录,包含正在运行中、已释放、已终止等全部状态的集群,超过一年的历史集群记录不做保留。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部