上云无忧 > 文档中心 > 百度智能云MapReduce - 导入数据
百度智能云MapReduce - 导入数据

文档简介:
Sqoop导入数据: 在使用BMR添加作业之前,用户需要将被分析的数据上传到BOS中,具体操作请参考BOS上传Object。 您可通过Sqoop把关系型数据库RDS中的数据导入到BOS、HDFS、HBase或Hive中。具体操作如下:
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

Sqoop导入数据

在使用BMR添加作业之前,用户需要将被分析的数据上传到BOS中,具体操作请参考BOS上传Object。

您可通过Sqoop把关系型数据库RDS中的数据导入到BOS、HDFS、HBase或Hive中。具体操作如下:

从RDS关系型数据库导入数据至BOS中

  1. 通过SSH连接到主节点,请参考SSH连接到集群。
  2. 输入命令:su hdfs。切换到HDFS用户。
  3. 执行以下格式的命令: sqoop import --connect jdbc:mysql://address:port/db_name --table table_name --username XX --password XX --target-dir XX

    示例:sqoop import --connect jdbc:mysql://mysql56.rdsmiy5q77jfaqp.rds.bj.baidubce.com:3306/sqoop --table test --username sqoop --password sqoop_123 --target-dir bos://abc/sqooptest

  4. 执行后,可至BOS中查看执行结果。BOS上查看执行结果的示例如下:

从RDS关系型数据库导入数据至HDFS中

  1. 执行从RDS关系型数据库导入数据至BOS中的步骤1至2。
  2. 执行以下格式的命令: sqoop import --connect jdbc:mysql://address:port/db_name --table table_name --username XX --password XX --target-dir XX

    示例:sqoop import --connect jdbc:mysql://mysql56.rdsmiy5q77jfaqp.rds.bj.baidubce.com:3306/sqoop --table test --username sqoop --password sqoop_123 --target-dir /user/hdfs/sqooptest

  3. 执行后,可至HDFS中查看执行结果。

参数 参数说明
address和port RDS数据库实例的地址和端口号。请至RDS实例的基本信息中获取,可参考连接RDS实例
db_name 需导入数据所在数据库的名称。如需创建关系型数据库RDS实例,请参考创建数据库。
table_name 需导入数据的数据表的名称。如需创建数据表,请先登录到关系型数据库RDS实例中创建,请参考创建RDS实例。
--username和--password 需导入数据所在数据库的账号和密码。请至RDS实例中获取信息,请参考创建账号。
--target-dir 数据导入的目的地址,即BOS或HDFS的路径。
注意:若指定BOS路径,则路径中所指定的目录不能在bos上存在,例如,导入路径bos://test/sqooptest中的sqooptest目录在bos上必须不存在。

从RDS关系型数据库导入数据至HBase中

  1. 通过SSH连接到主节点,请参考SSH连接到集群。
  2. 输入命令:su hdfs。切换到HDFS用户。
  3. Sqoop导入数据到HBase有两种情况:

    • 导入数据到HBase已经存在的表中,执行以下格式的命令: sqoop import --connect jdbc:mysql://address:port/db_name --table table_name --username XX --password XX --hbase-table hbase_table_name --column-family hbase_column_family --hbase-row-key row_key。 示例: sqoop import --connect jdbc:mysql://mysql56.rdsmiy5q77jfaqp.rds.bj.baidubce.com:3306/sqoop --table test --username sqoop --password sqoop_123 --hbase-table sqoop_hbase -- column-family message1 --habse-row-key id。
    • 导入数据到Hbase中不存在的表中,执行以下格式的命令: sqoop import --connect jdbc:mysql://address:port/db_name --table table_name --username XX --password XX --hbase-table hbase_table_name --column-family hbase_column_family --hbase-row-key row_key --hbase-create-table。 示例: sqoop import --connect jdbc:mysql://mysql56.rdsmiy5q77jfaqp.rds.bj.baidubce.com:3306/sqoop --table test --username sqoop --password sqoop_123 --hbase-table sqoop_hbase -- column-family message1 --habse-row-key id --hbase-create-table。
  4. 执行后,可至HBase中查看执行结果,执行结果示例如下:

    hbase(main):003:0>scan "sqoop_hbase"
    ROW		COLUMN+CELL
     1		column=message1:address,timestamp=1439794756361,value=shanghai
     1		column=message1:favor,timestamp=1439794756361,value=lanqiu
     1		column=message1:name,timestamp=1439794756361,value=xiaoming
     1		column=message1:sex,timestamp=1439794756361,value=1
     1		column=message1:address,timestamp=1439794756361,value=beijing
     1		column=message1:favor,timestamp=1439794756361,value=pingpong
     1		column=message1:name,timestamp=1439794756361,value=xiaohong
     1		column=message1:sex,timestamp=1439794756361,value=2
参数 参数说明
address和port RDS数据库实例的地址和端口号。请至RDS实例的基本信息中获取,可参考连接RDS实例
db_name 需导入数据所在数据库的名称。如需创建关系型数据库RDS实例,请参考创建数据库。
table_name 需导入数据的数据表的名称。如需创建数据表,请先登录到关系型数据库RDS实例中创建,请参考创建RDS实例。
--username和--password 需导入数据所在数据库的账号和密码。请至RDS实例中获取信息,请参考创建账号。
--hbase-table 数据导入的目的数据表的表名,即HBase中数据表的表名。
--column-family 目的数据表的列簇,即HBase中数据表的列簇。
注意:sqoop一次只能指定一个列簇。
--hbase-row-key 数据源所在RDS数据表中作为hbase row key的字段。

从RDS关系型数据库导入数据至Hive中

  1. 通过SSH连接到主节点,请参考SSH连接到集群。
  2. 输入命令:su hdfs。切换到HDFS用户。
  3. Sqoop导入数据到Hive有三种情况:

    • Hive中不存在与关系型数据库RDS同名的数据表,执行以下格式的命令: sqoop import --connect jdbc:mysql://address:port/db_name --table table_name --username XX --password XX --hive-import 示例: sqoop import --connect jdbc:mysql://mysql56.rdsmiy5q77jfaqp.rds.bj.baidubce.com:3306/sqoop --table test --username sqoop --password sqoop_123 --hive-import
    • 默认情况下,sqoop会将hive中的表名设定为导入数据的数据表名,如不想使用默认表名,使用--hive-table指定新数据表,执行以下格式的命令: sqoop import --connect jdbc:mysql://address:port/db_name --table table_name --username XX --password XX --hive-import --hive-table XX 示例: sqoop import --connect jdbc:mysql://mysql56.rdsmiy5q77jfaqp.rds.bj.baidubce.com:3306/sqoop --table test --username sqoop --password sqoop_123 --hive-import --hive-table sqoop_hive
    • Hive中存在与关系型数据库RDS同名的数据表,需要通过--hive-table指定数据表,并且加上--hive-overwrite参数,执行以下格式的命令: sqoop import --connect jdbc:mysql://address:port/db_name --table table_name --username XX --password XX --hive-import --hive-table XX --hive-overwrite 使用RDS数据库中的另一张表test_export,指定hive中已经存在的表sqoop_hive,示例: sqoop import --connect jdbc:mysql://mysql56.rdsmiy5q77jfaqp.rds.bj.baidubce.com:3306/sqoop --table test_export --username sqoop --password sqoop_123 --hive-import --hive-table sqoop_hive -- hive-overwirte。
  4. 执行后,可至Hive中查看执行结果,执行结果示例如下:

    hive>select * from test;
    OK
    1	xiaoming	1	shanghai	lanqiu
    2	xiaohong	2	beijing		pingpong
参数 参数说明
address和port RDS数据库实例的地址和端口号。请至RDS实例的基本信息中获取,可参考连接RDS实例
db_name 需导入数据所在数据库的名称。如需创建关系型数据库RDS实例,请参考创建数据库。
table_name 需导入数据的数据表的名称。如需创建数据表,请先登录到关系型数据库RDS实例中创建,请参考创建RDS实例。
--username和--password 需导入数据所在数据库的账号和密码。请至RDS实例中获取信息,请参考创建账号。
--hive-import 导入数据至hive中。
--hive-table 数据导入的目的数据表的表名,即Hive中数据表的表名。
--hive-overwrite 覆盖Hive中与关系型数据库RDS同名的数据表。注意:如果将非INT类型转换为INT类型,导入数据可能不正确。
相似文档
  • Sqoop导出数据: 在使用BMR对数据进行分析之后,分析的结果数据被保存在BOS的指定目录下,用户可以进入BOS中将结果数据导出,具体操作请参考BOS下载Object。 您可通过Sqoop把BOS或HDFS的数据导出至关系型数据库RDS中。
  • 使用HBase存储数据需正确安装HBase,操作详情如下: 安装HBase。请在创建集群时安装HBase,具体操作请参考创建集群。HBase安装成功后,HBase的Master部署在BMR的Master节点,Region Server部署在BMR的Core节点。
  • Maven项目包样例: 百度智能云提供了以下组件的Maven项目样例代码,您可通过GitHub克隆代码至本地设计自己的程序:MapReduce。 Linux环境下使用命令行编译Maven项目: 以Ubuntu 14.04环境为例,介绍Maven的安装和编译。
  • 介绍: 多用户访问控制,主要用于帮助用户管理云账户下资源的访问权限,适用于企业内的不同角色,可以对不同的工作人员赋予使用产品的不同权限,当您的企业存在多用户协同操作资源时,推荐您使用多用户访问控制。
  • 概览: 通过定时任务创建BMR集群,分析日志数据,定时释放集群,为用户大大节约了使用成本。 需求场景: 对于业务稳定且有规律的用户,日志的峰值和低谷的规律一般是固定的。对于有规律的日志业务场景,用户只需要在特定的时间段内用集群进行分析即可,其余时间无需使用集群。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部