上云无忧 > 文档中心 > 百度智能云数据工厂Pingo使用教程 - 文件管理
数据工厂Pingo
百度智能云数据工厂Pingo使用教程 - 文件管理

文档简介:
文件管理是Pingo的统一文件元数据管理模块,Pingo的文件系统可接入HDFS、S3、BOS等外部文件存储系统,并抽象了这些不同的外部存储系统,对内提供统一的文件访问接口。相当于计算机中的资源管理器,是Pingo中其他模块访问文件的唯一入口。为其他模块访问不同的文件存储系统提供了极大的便利。
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

文件管理是Pingo的统一文件元数据管理模块,Pingo的文件系统可接入HDFS、S3、BOS等外部文件存储系统,并抽象了这些不同的外部存储系统,对内提供统一的文件访问接口。相当于计算机中的资源管理器,是Pingo中其他模块访问文件的唯一入口。为其他模块访问不同的文件存储系统提供了极大的便利。

数据资源目录

文件管理为用户提供所有文件的资源管理目录,在Pingo的表管理中创建的数据库、表数据全部都在文件系统中进行存储路径管理,当在表管理中创建一个物理表,默认路径在文件系统中的user/pingo/warehouse/目录下,可看到系统创建的路径以及存储的数据库及表的信息。

在全部文件列表,下图框内均为系统的文件夹,可以不必关心。用户需要挂载或管理自己的文件的时候,可新建文件夹对自己的文件进行单独管理。

文件挂载

文件系统支持外部文件存储系统的接入,诸如BOS,S3等,均可接入到文件系统。同时,PFS抽象了这些不同的外部存储系统,对内提供统一的文件访问接口。同时,文件系统对接入的外部系统中的文件进行缓存,可以加速远端数据的访问。

目前文件系统只支持挂载BOS文件,后续将陆续支持其他方式的文件挂载。

挂载BOS文件

点击挂载按钮,填写需挂载的BOS文件信息:

  • 挂载点:是将第三方文件挂载到Pingo文件系统的位置,具体表现为一个路径,通过这个路径可以访问挂载以后的第三方文件。可以选择一个已有的路径或新建一个路径,如果是第一次挂载,推荐在根目录下创建一个单独的路径,格式为"/foldername"。
  • 区域:BOS的存储区域,由于目前Pingo只支持北京区域,因此需要您将数据存储在北京区域以保证读取速度。
  • Bucket:BOS的存储桶名称,可以在BOS的管理页面获取。

  • 路径:这个路径为第三方文件系统中的路径,如果是S3,则是bucket中的路径,如果只授权Pingo访问Bucket中的某一个存储路径,可以填写路径的名称,如果不填写,则表示授权访问整个Bucket的文件。
  • Access Key/Secret Key:原始AK/SK是指您在注册BOS时,系统自动分配给您的AK(Access Key ID)/SK(Secret Access Key),主要用于对用户的调用行为进行鉴权和认证,相当于百度智能云API专用的用户名及密码。您向BOS发送的每个请求,都需要通过鉴权认证通过后,BOS才会处理您的请求。

挂载完成之后,可以在全部文件目录下看到所挂载的文件夹,也可以在我挂载的标签下看到所挂载的文件目录。挂载文件夹和远端文件是镜像关系,文件增删操作会实时同步。

解除挂载

当文件不再挂载访问的时候,可以将挂载目录进行解除挂载。点开文件挂载管理

在挂载管理对话框中点击解除挂载,则取消了文件的挂载,Pingo文件系统中将不再可见远端文件夹。当还需要访问的时候,可以再重新挂载。

请注意区分删除文件夹和解除挂载,删除文件夹会在Pingo文件系统和远端文件目录同时删除挂载的文件夹以及文件,请谨慎操作。解除挂载是将远端文件目录从Pingo文件系统中移除,并不会删除远端存储的文件夹和目录。

文件上传

除了通过文件挂载实现远端文件访问,也可以将需要读写的文件上传到Pingo文件管理系统,文件管理提供数据缓存能力,文件上传可以实现数据的本地访问,加速数据访问。

文件权限管理

文件挂载之后,在文件管理中就可以进行统一的权限管理,所以对于那些没有实现权限控制的文件系统,只要通过Pingo的文件挂载进行统一访问,即可实现权限管理。

权限管理可以基于文件夹也可以基于文件,在想要授权的文件节点,点击权限管理,填写将要授权的用户,可以赋予读、写或者管理权限,还可以继承父目录权限。

授权之后,被授权的用户可以在权限列表中查看自己有权限的文件。

相似文档
  • 传输管理模块的功能主要是将结构化数据与非结构化数据传输到pingo大数据处理系统。 概念介绍: 数据源:指数据传输的来源; 传输任务:每个新建的传输我们称为一个传输任务(对应一个transid),在平台建的批量传输与在调度平台每次调度产生的任务都会产生一个这样的传输任务;
  • 批量作业管理的原型可以理解为Linux上的crontab,按照配置的调度规则自动触发任务的执行。在pingo中扩展了作业间的DAG依赖执行,重试机制,任务以及执行状态管理,以及自定义的任务扩展能力。
  • 交互分析概述: Pingo提供Notebook式的交互分析环境,基于开源的jupyter项目,进行了一系列优化、适配。具备以下特性: 用户隔离:使用普通账号启动jupyter hub,然后通过一个设置了SUID位的程序将每位用户都映射到不同的uid,实现了Linux账号级别的安全控制,并且比原生的sudo-spawner资源隔离方案更加安全、可扩展。
  • 管理计算资源: 点击计算资源按钮进入计算资源管理页面。 创建队列组: 队列组是用户整理自己的队列计算资源的聚合单位,通常建议一个产品线维护一个队列组即可,组内用户可以共享队列的权限。
  • 概述: 在Pingo中,永久性UDF不使用SQL语句创建,而是使用文件系统来管理。此管理方式,相比于使用SQL的方式由如下几个显著的优点: UDF的文件与元数据统一存储,不会出现已经在元数据系统中注册了UDF,但错误删除了对应资源的情况。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部