上云无忧 > 文档中心 > 百度智能云容器引擎服务 CCE 使用 cce-autoscaling-placeholder 实现秒级弹性伸缩
容器引擎服务CCE
百度智能云容器引擎服务 CCE 使用 cce-autoscaling-placeholder 实现秒级弹性伸缩

文档简介:
使用 CCE 节点组并开启自动扩缩容后,当出现 Pod 由于资源不足导致调度失败时,集群会自动的进行节点扩容,整个流程通常需要若干分钟才能完成,当出现流量突发时,分钟级的扩容速度显然力不从心。本文介绍通过 K8S 的 PriorityClass 实现 Pod 占位,从而能在 CCE 上实现秒级伸缩,用以应对流量突发的场景。
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

组件介绍

使用 CCE 节点组并开启自动扩缩容后,当出现 Pod 由于资源不足导致调度失败时,集群会自动的进行节点扩容,整个流程通常需要若干分钟才能完成,当出现流量突发时,分钟级的扩容速度显然力不从心。本文介绍通过 K8S 的 PriorityClass 实现 Pod 占位,从而能在 CCE 上实现秒级伸缩,用以应对流量突发的场景。

实现原理

cce-autoscaling-placeholder 利用低优先级的 Pod 对资源进行提前占位,预留部分资源作为缓冲,当需要扩容 Pod 时,高优先级的 Pod 可以快速抢占低优先级 Pod 资源进行调度,而低优先级的 cce-autoscaling-placeholder 的 Pod 则会被 "抢占",状态变成 Pending,如果配置了节点组并启用弹性伸缩,就会触发节点的扩容。

这样,由于有了一些资源作为缓冲,即使节点扩容慢,也能保证一些 Pod 能够快速扩容并调度上,实现秒级伸缩。要调整预留的缓冲资源多少,可根据实际需求调整 cce-autoscaling-placeholder 的 request 或副本数。

操作步骤

  1. 创建节点组,并开启自动扩缩容,参考:CCE 节点组及自动扩缩容。
  2. 进入 Helm 模板->百度智能云模板,部署 cce-autoscaling-placeholder 插件,如下:

按照需求修改各参数,如下:

  1. 试创建 Nginx Pod,可以发现 Nginx Pod 能快速抢占 Placeholder Pod 从而快速启动,Placeholder 会触发新的节点扩容,如下:

参数含义

cce-autoscaling-placeholder values.yaml 中各参数含义如下:

参数名称 参数含义 说明
replicaCount Pod 数 默认 3
imageID 镜像名称, 通用 pause
cpu 单个 Pod 占用 cpu -
mem 单个 Pod 占用 mem -
nodeSelector 自定义 nodeSelector 推荐和 InstanceGroup 一致
tolerations 自定义 tolerations -
affinity 自定义 affinity -

参考

  • Pod 优先级和抢占
相似文档
  • 云原生AI基于百度智能云容器引擎(CCE)支持 GPU 显存和算力的共享与隔离,同时集成PaddlePaddle、TensorFlow、Pytorch 等主流深度学习框架,通过对 AI 任务的编排、管理,提供低门槛、高效的深度学习训练服务,帮助企业客户提高 GPU 资源使用效率和提升 AI 训练速度,快速降本增效。
  • 您可以新建一个队列,为 AI 任务指定运行所需的资源和操作人员。 前提条件: 您已成功创建一个 Kubernetes 集群,详情请见创建集群。 您已成功安装 CCE AI Job Scheduler 和 CCE Deep Learning Frameworks Operator 组件,否则云原生 AI 功能将无法使用。
  • 您可以通过容器引擎管理控制台删除不再需要的队列。 前提条件: 您已成功安装 CCE AI Job Scheduler 和 CCE Deep Learning Frameworks Operator 组件,否则云原生 AI 功能将无法使用。 您已成功创建队列。
  • 您可以根据新的需要修改已有的队列的备注信息、配额信息和资源对象。 前提条件: 您已成功安装 CCE AI Job Scheduler 和 CCE Deep Learning Frameworks Operator 组件,否则云原生 AI 功能将无法使用。 您已成功创建队列。
  • 您可以新建一个 TensorFlow 类型的任务。 前提条件: 您已成功安装 CCE AI Job Scheduler 和 CCE Deep Learning Frameworks Operator 组件,否则云原生 AI 功能将无法使用。 若您是子用户,队列关联的用户中有您才能使用该队列新建任务。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部