上云无忧 > 文档中心 > 腾讯云高性能计算平台 THPC 操作相关常见问题QA
高性能计算平台 THPC
腾讯云高性能计算平台 THPC 操作相关常见问题QA

文档简介:
Q:在集群中添加的新用户,如何在节点间进行同步? A:创建集群的时候,指定参数:--AccountType NIS,NIS 的 server 端会安装在 manager 节点上,然后通过以下步骤可以进行 user 同步: 1. 在 manager 节点创建新用户。 2. 在 manager 节点,执行 make -C /var/yp 其他节点都可以感知到新添加的 user。
*此产品及展示信息均由腾讯云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

创建集群的时候,指定参数:--AccountType NIS,NIS 的 server 端会安装在 manager 节点上,然后通过以下步骤可以进行 user 同步:
1. 在 manager 节点创建新用户。
2. 在 manager 节点,执行 make -C /var/yp 其他节点都可以感知到新添加的 user。

使用 NIS 同步用户后,在管控节点上使用新用户提交任务失败如何处理?

排查方法:在管控节点上通过 ssh 登录到计算节点,查看 /var/log/slurmd.log 的日志,查看具体的报错原因是否为用户权限相关。
问题原因:当前用户在管控节点当前目录下提交任务,计算节点的用户也会在相同的目录下进行读写操作,如果计算节点提交任务的目录不存在或者当前用户无权限执行读写操作,任务便会提交失败。
解决方法:确保创建的用户在管控节点和计算节点上都存在,且都在拥有读写权限的目录下执行任务。

tccli 发生报错 'module' object has no attribute 'xxx' 如何处理?

报错原因:tccli 升级时,不会更新配置,如果接口版本更新,会默认指定旧版本。
解决方法: 在命令行运行如下命令,将版本设置为2022-04-01(最新版本)。
						
tccli configure set thpc.version 2022-04-01

产品如何进行计费分类?

创建集群(CreateCluster) 接口存在 Tags 参数(Tag 数组类型), 通过填写 Tag,能够关联集群内所有资源,包括 CVM、云硬盘、VPC、CFS 等资源,添加节点(AddNodes) 接口添加的节点也会添加集群创建时填写的标签信息。
注意
弹性伸缩出来的实例,需要在弹性伸缩控制台添加标签,THPC 无法为弹性伸缩的关联实例添加标签。
						
"Tags": [
{"Key": "type", "Value": "compute"}
]
资源计费情况可以在费用中心的 账单概览,通过按照标签分类进行查看。

Slurm 集群如何添加队列?

目前,THPC 的所有队列信息都在 /opt/slurm/etc/slurm_queue.conf 文件里面维护。您可以通过以下命令添加队列:
						
vi /opt/slurm/etc/slurm_queue.conf
# 在文件末尾添加一行。 QueueName 为分区名称,由用户自定义,对应 BindAutoScalingGroup 和 AddNodes 接口中的 QueueName 参数。Nodes 指向 dummynode0 节点即可,dummynode0 为一个不可达节点,用于完全弹性队列。
PartitionName=<QueueName> Nodes=dummynode0 MaxTime=INFINITE State=UP

如何使用自定义镜像创建集群?

1. CVM 购买页 购买和计算节点实例类型一致的 CVM 机型(您需要选择 CentOS 7.8/7.9镜像)。
2. 在 CVM 控制台的 实例 页面,找到步骤1创建的机器,单击更多 > 制作镜像,完成自定义镜像制作。
说明
镜像制作后,您可以将用于制作镜像的 CVM 资源删除。


3. 在 CVM 控制台的镜像 > 自定义镜像 页面,找到步骤2创建的自定义镜像,复制镜像 ID。

4. 在创建集群时传入自定义镜像 ID 即可。
相似文档
  • 高性能计算集群(Tencent Hyper Computing Cluster,THCC)以裸金属云服务器为节点,通过 RDMA(Remote Direct Memory Access)互联,提供了高带宽和极低延迟的网络服务,大幅提升网络性能,能满足大规模高性能计算、人工智能、大数据推荐等应用的并行计算需求。
  • 2023年8月:HCCPNV5 新机型发布,H800 GPU 型高性能计算集群实例上线邀测,搭配 3.2 Tbps 全新星脉网络,性能强大。
  • 超强算力: 基于弹性高性能云服务器架构,可实现计算无虚拟化损耗及服务器特性无损。 支持全自动化生产及弹性扩缩容,兼具灵活弹性与极致性能。 高性能存储: 支持通过对象存储(COS)或文件存储(CFS)产品实现存储容量灵活扩容并保障三副本强一致性。 提供极速 IO 实例选型,搭配本地 Nvme SSD 硬盘,满足重 IO 及本地缓存场景需求。
  • 大规模 AI 训练: 自动驾驶、NLP、推荐系统等场景,有数据量大,计算量密集等特点。高性能云服务器可支持高速低延时的 RDMA 网络互联及最新一代的 CPU 架构和异构 GPU 部件进行计算密集型负载的计算,满足业务对服务器的高计算性能、高稳定性、高实时性的诉求。
  • 高性能计算集群以高性能云服务器为节点,通过 RDMA(Remote Direct Memory Access)互联,提供了高带宽和极低延迟的网络服务,大幅提升网络性能满足大规模高性能计算、人工智能、大数据推荐等应用的并行计算需求。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部