上云无忧 > 文档中心 > 百度智能云MapReduce开源组件介绍 - Impala
百度智能云MapReduce开源组件介绍 - Impala

文档简介:
Impala简介: Impala是Cloudera公司主导开发的MPP架构的查询系统,它提供SQL语义,能够快速的查询存储在HDFS、HBASE中的数据。此外Impala使用与Hive相同的元数据、SQL语法、ODBC驱动。
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

Impala简介

Impala是Cloudera公司主导开发的MPP架构的查询系统,它提供SQL语义,能够快速的查询存储在HDFS、HBASE中的数据。此外Impala使用与Hive相同的元数据、SQL语法、ODBC驱动。

创建集群

登录百度云控制台,选择“产品服务->MapReduce BMR”,点击“创建集群”,进入集群创建页。BMR2.0.0及以上版本已支持 Impala 组件集成,购置集群时勾选 Impala 组件即可, 如下图所示:

使用简介

  1. 远程登录到创建好的集群

    ssh root@$public_ip
    使用创建集群时输入的密码
  2. 准备数据,可以参考数据准备。上传日志文件到HDFS中。

    hadoop dfs -get bos://datamart-gz/web-log-10k/accesslog-10k.log ./
    hadoop dfs -put accesslog-10k.log /tmp/test
  3. 在impala-shell中执行命令建表

    • 在shell中输入impala-shell

      说明:impala-shell默认连接到localhost上impalad的21000端口。BMR集群默认只在core、task节点上安装impalad服务。

      如果在master节点上执行impala-shell,需要使用-i <host:port>参数指定安装了impalad的host。更多可用参数可通过impala-shell -h查看。

    • 执行如下建表语句

      CREATE EXTERNAL TABLE `access_logs`(
      `remote_addr` string COMMENT 'client IP',
      `time_local` string COMMENT 'access time',
      `request` string COMMENT 'request URL',
      `status` string COMMENT 'HTTP status',
      `body_bytes_sent` string COMMENT 'size of response body',
      `http_referer` string COMMENT 'referer',
      `http_cookie` string COMMENT 'cookies',
      `remote_user` string COMMENT 'client name',
      `http_user_agent` string COMMENT 'client browser info',
      `request_time` string COMMENT 'consumed time of handling request',
      `host` string COMMENT 'server host',
      `msec` string COMMENT 'consumed time of writing logs')
      COMMENT 'web access logs'
      ROW FORMAT DELIMITED
      FIELDS TERMINATED BY '\t'
      LOCATION '/tmp'
  4. 建表成功后,可以使用SQL语句查询结果。如果使用提供的样例数据和建表语句,可以看到如下结果。

参考

  1. Apache Impala Guide
  2. Impala Home
相似文档
  • ClickHouse简介: ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。它是由俄罗斯搜索引擎公司Yandex开发,并于2016年6月发布的开源DBMS,与Hadoop,Spark相比,ClickHouse轻量很多。
  • 分布式概述: Kafka是一个分布式,多分区,多副本的流处理消息中间件,具备高吞吐量、高可扩展性、可持久化等特性,广泛应用于实时数据传输、日志收集、实时监控数据聚合等实际应用场景中。BMR中的Kafka是基于开源社区的Kafka,提供一种可快速部署,用户独享的Kafka集群。
  • 1.什么是Alluxio? Alluxio 是世界上第一个面向基于云的数据分析和人工智能的开源的数据编排技术。 它为数据驱动型应用和存储系统构建了桥梁, 将数据从存 储层移动到距离数据驱动型应用更近的位置从而能够更容易被访问。
  • 1.什么是Kudu? Kudu是一个用于结构化数据的开源存储引擎, 它支持低延迟的随机访问, 以及高效的分析存取模式. Kudu使用水平partition和副本技术来将数据分布式化, 每个partition的副本用Raft协议同步, 保证了低平均恢复时间和低长尾延迟. Kudu围绕着Hadoop生态圈设计, 支持多种存取方式如Apache Impala, Apache Spark和MapReduce。
  • 什么是Ooize? Oozie是一个用于管理Apache Hadoop作业的工作流调度程序系统。 Oozie Workflow job是由多个Action组成的有向无环图(DAG)。 Oozie Coordinator job是根据时间(频率)和数据可用性触发的可重复执行的Oozie Workflow job(简单讲就是根据时间或数据条件,规划workflow的执行)。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部