上云无忧 > 文档中心 > 天翼云翼MapReduce管理数据文件
翼MapReduce
天翼云翼MapReduce管理数据文件

文档简介:
管理数据文件 当Kerberos认证设置为关闭后,用户通过“文件管理”页面可以进行文件夹创建、删除,文件导入、导出、删除操作。 背景信息 MRS集群处理的数据源来源于OBS或HDFS,HDFS是Hadoop分布式文件系统(Hadoop Distributed File System)
*产品来源:中国电信天翼云。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

当Kerberos认证设置为关闭后,用户通过“文件管理”页面可以进行文件夹创建、删除,文件导入、导出、删除操作。


背景信息

MRS集群处理的数据源来源于OBS或HDFS,HDFS是Hadoop分布式文件系统(Hadoop Distributed File System),OBS即对象存储服务,是一个基于对象的海量存储服务,为客户提供海量、安全、高可靠、低成本的数据存储能力。MRS可以直接处理OBS中的数据,客户可以基于管理控制台Web界面和OBS客户端对数据进行浏览、管理和使用,同时可以通过REST API接口方式单独或集成到业务程序进行管理和访问数据。

用户创建作业前需要将本地数据上传至OBS系统,MRS使用OBS中的数据进行计算分析。当然MRS也支持将OBS中的数据导入至HDFS中,使用HDFS中的数据进行计算分析。数据完成处理和分析后,您可以将数据存储在HDFS中,也可以将集群中的数据导出至OBS系统。需要注意,HDFS和OBS也支持存储压缩格式的数据,目前支持存储bz2、gz压缩格式的数据。


导入数据

MRS目前只支持将OBS上的数据导入至HDFS中。上传文件速率会随着文件大小的增大而变慢,适合数据量小的场景下使用。

支持导入文件和目录,操作方法如下:

1.登录MRS管理控制台。

2.选择“集群列表 > 现有集群”,选中一集群并单击集群名进入集群基本信息页面。

3.单击“文件管理”,进入“文件管理”页面。

4.选择“HDFS文件列表”。

5.进入数据存储目录,如“bd_app1”。

“bd_app1”目录仅为示例,可以是界面上的任何目录,也可以通过“新建”创建新的文件夹。


新建文件夹时需要满足以下要求:

−文件夹名称小于等于255字符。

−不允许为空。

−不能与同级目录下的其他目录名称相同。

−不能包含/:*?"<|>\特殊字符。

−不能以“.”开头或结尾。

6.单击“导入数据”,正确配置HDFS和OBS路径。

−OBS路径

必须以“s3a://”开头。

不支持导入KMS加密的文件或程序。

不支持导入空的文件夹。

目录和文件名称可以包含中文、字母、数字、中划线和下划线,但不能包含;|&>,<'$*?\特殊字符。

目录和文件名称不能以空格开头或结尾,中间可以包含空格。

OBS全路径长度小于等于255字符。

−HDFS路径

必须以“/user”开头。

目录和文件名称可以包含中文、字母、数字、中划线和下划线,但不能包含;|&>,<'$*?\:特殊字符。

目录和文件名称不能以空格开头或结尾,中间可以包含空格。

HDFS全路径长度小于等于255字符。

7.单击“确定”。

文件上传进度可在“文件操作记录”中查看。MRS将数据导入操作当做Distcp作业处理,也可在“作业管理 > 作业”中查看Distcp作业是否执行成功。

导出数据

数据完成处理和分析后,您可以将数据存储在HDFS中,也可以将集群中的数据导出至OBS系统。

支持导出文件和目录,操作方法如下:

1.登录MRS管理控制台。

2.选择“集群列表 > 现有集群”,选中一集群并单击集群名进入集群基本信息页面。

3.单击“文件管理”,进入“文件管理”页面。

4.选择“HDFS文件列表”。

5.进入数据存储目录,如“bd_app1”。

6.单击“导出数据”,配置OBS和HDFS路径。

−OBS路径

必须以“s3a://”开头。

目录和文件名称可以包含中文、字母、数字、中划线和下划线,但不能包含;|&>,<'$*?\特殊字符。

目录和文件名称不能以空格开头或结尾,中间可以包含空格。

OBS全路径长度小于等于255字符。

−HDFS路径

必须以“/user”开头。

目录和文件名称可以包含中文、字母、数字、中划线和下划线,但不能包含;|&>,<'$*?\:特殊字符。

目录和文件名称不能以空格开头或结尾,中间可以包含空格。

HDFS全路径长度小于等于255字符。

当导出文件夹到OBS系统时,在OBS路径下,将增加一个标签文件,文件命名为“folder name_$folder$”。请确保导出的文件夹为非空文件夹,如果导出的文件夹为空文件夹,OBS无法显示该文件夹,仅生成一个命名为“folder name_$folder$”的文件。

7.单击“确定”。

文件上传进度可在“文件操作记录”中查看。MRS将数据导出操作当做Distcp作业处理,也可在“作业管理 > 作业”中查看Distcp作业是否执行成功。

查看文件操作记录

通过MRS管理控制台导入和导出数据时,可在“文件管理 > 文件操作记录”查看数据导入、导出进度。

文件操作记录参数说明如表4-12所示。

表4-12文操作记录参数说明

Parameter Description
创建时间 数据导入或导出操作的开始时间。
源目录 数据的源路径。
数据导入时“源目录OBS路径
数据导出时“源目录HDFS路径
目标目录 数据的目标路径。
数据导入时“目标目录HDFS路径
数据导出时“目标目录OBS路径
状态 数据导入或导出操作的状态。
运行中
已完成
已终止
异常
持续时间 数据导入或导出操作的总时间。
单位:分钟
执行结果 数据导入或导出操作的结果。
成功
失败

相似文档
  • 查看告警列表 告警列表显示了MRS集群中的所有告警信息,如主机故障、硬盘使用率超过阈值、组件异常等。 MRS管理控制台“告警列表”只能查询MRS Manager中未清除告警的基本信息
  • 查看历史集群基本信息 选择“集群列表 > 历史集群”,选中一集群并单击集群名,进入集群基本信息页面。用户可查看集群的配置信息、部署的节点信息。 集群基本信息参数说明如表4-15和表4-16所示。
  • 查看历史集群作业配置信息 在历史集群页面,用户只可查看处于Failed或者Terminated状态集群的作业配置信息。 步骤1登录MRS管理控制台。 步骤2选择“集群列表 > 历史集群”,选中一集群并单击集群名,进入集群基本信息页面。
  • 新增Jar和Script作业 用户可将自己开发的程序提交到MRS中,执行程序并获取结果。本章节教您在MRS集群页面如何提交一个新的作业。 前提条件 已完成如下信息。 MRS集群处理的数据源来源于OBS或HDFS,HDFS是Hadoop分布式文件系统(Hadoop Distributed File System)
  • 查看操作日志 “操作日志”页面记录用户对集群和作业的操作信息。日志信息常用于集群运行异常时的问题定位,帮助用户快速定位问题原因,以便及时解决问题。 操作类型 目前MRS记录两种操作类型的日志信息,可在搜索框中筛选查询:
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部