上云无忧 > 文档中心 > 腾讯云容器服务 云原生AI组件 - Elastic Jupyter Operator
容器服务 TKE
腾讯云容器服务 云原生AI组件 - Elastic Jupyter Operator

文档简介:
简介: elastic-jupyter-operator 是 Kubernetes 原生的弹性 Jupyter 服务。为用户按需提供弹性的 Jupyter Notebook 服务。elastic-jupyter-operator 提供以下特性: GPU 空闲时自动释放资源到 Kubernetes 集群。 资源延迟申请,在使用时按需申请对应 CPU/内存/GPU 资源。 多 Jupyter 共享资源池,提高资源利用率。
*此产品及展示信息均由腾讯云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

简介

elastic-jupyter-operator 是 Kubernetes 原生的弹性 Jupyter 服务。为用户按需提供弹性的 Jupyter Notebook 服务。elastic-jupyter-operator 提供以下特性:
GPU 空闲时自动释放资源到 Kubernetes 集群。
资源延迟申请,在使用时按需申请对应 CPU/内存/GPU 资源。
多 Jupyter 共享资源池,提高资源利用率。

部署

在通过 Helm 部署过程中,所有的配置项都集中于 values.yaml
以下是部分较为可能需要自定义的字段:
参数
描述
默认值
image.repository
镜像所在仓库
ccr.ccs.tencentyun.com/kubeflow-oteam/elastic-jupyter-operator
image.tag
镜像的版本
"v0.1.1"
namespace.name
命名空间
"enterprise-gateway"

使用

说明
更多详细说明,请参见 使用文档
1. 执行以下命令,创建一个 Jupyter Gateway CR:
		
kubectl apply -f ./config/samples/kubeflow.tkestack.io_v1alpha1_jupytergateway.yaml
YAML 文件内容如下:
		
apiVersion: kubeflow.tkestack.io/v1alpha1
kind: JupyterGateway
metadata:
name: jupytergateway-sample
spec:
cullIdleTimeout: 3600
其中 cullIdleTimeout 是一个配置项,在 Kernel 空闲指定 cullIdleTimeout 秒内,会由 Gateway 回收对应 Kernel 以释放资源。
2. 执行以下命令,创建一个 Jupyter Notebook CR 实例,并且指定对应的 Gateway CR:
		
kubectl apply -f ./config/samples/kubeflow.tkestack.io_v1alpha1_jupyternotebook.yaml
YAML 文件内容如下:
		
apiVersion: kubeflow.tkestack.io/v1alpha1
kind: JupyterNotebook
metadata:
name: jupyternotebook-sample
spec:
gateway:
name: jupytergateway-sample
namespace: default
3. 集群上所有资源如下所示:
		
NAME READY STATUS RESTARTS AGE
pod/jupytergateway-sample-6d5d97949c-p8bj6 1/1 Running 2 11d
pod/jupyternotebook-sample-5bf7d9d9fb-nq9b8 1/1 Running 2 11d
NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
service/jupytergateway-sample ClusterIP 10.96.138.111 <none> 8888/TCP 11d
service/kubernetes ClusterIP 10.96.0.1 <none> 443/TCP 31d
NAME READY UP-TO-DATE AVAILABLE AGE
deployment.apps/jupytergateway-sample 1/1 1 1 11d
deployment.apps/jupyternotebook-sample 1/1 1 1 11d
NAME DESIRED CURRENT READY AGE
replicaset.apps/jupytergateway-sample-6d5d97949c 1 1 1 11d
replicaset.apps/jupyternotebook-sample-5bf7d9d9fb 1 1 1 11d
4. 通过 NodePort、kubectl port-forward、ingress 等方式将 Notebook CR 对外暴露提供服务,这里以 kubectl port-forward 为例,执行命令如下:
		
kubectl port-forward jupyternotebook-sample-5bf7d9d9fb-nq9b8 8888

API 文档

请参见 API 文档
相似文档
  • 本文为您介绍如何运行 TF 训练任务。 前提条件: AI 环境中已安装 TF Operator。 AI 环境中有 GPU 资源。 操作步骤: 以下操作指南参考 TF-Operator 官方提供的 PS/Worker 模式的 分布式训练案例。
  • 本文为您介绍如何运行 PyTorch 训练任务。 前提条件: AI 环境中已安装 PyTorch Operator。 AI 环境中有 GPU 资源。 操作步骤: 以下操作指南参考 PyTorch-Operator 官方提供的分布式训练 案例。
  • 概述: 传统分布式深度学习任务(例如 Tensorflow Job)在提交训练任务后,无法再动态调整 Worker 数量。但在某些场景下,需要弹性训练能力,例如,集群中存在一批算力需求波动大的高优任务(例如周期性波动的在线任务),集群的整体平均资源利用率较低,因为波谷期的资源未得到充分利用。这种场景下,可以在集群中运行弹性训练任务,充分利用集群闲置资源。
  • 当您使用腾讯云容器服务 TKE 组建 Kubernetes 集群时,会面对多种配置选项,难以进行选择。本文介绍以下功能选型,进行对比并给出选型建议。您可参考本文,选择更适用于您业务的配置选型。
  • 概述: 容器服务 TKE 包含托管集群及独立部署集群。若使用托管集群,则无需关注容灾,托管集群的 Master 由容器服务 TKE 内部维护。若使用独立集群,则 Master 节点由用户自行管理维护。独立集群如需实现容灾,则首先应根据需求规划容灾方案,在创建集群时进行相应配置即可。本文介绍如何实现 TKE 独立集群 Master 的容灾,您可参考本文进行操作。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部