【UCloud】AI训练服务 UAI Train
AI 训练服务(UAI-Train)是面向AI训练任务的大规模分布式计算平台:基于P40的GPU云主机集群,为用户提供最高达192TFlops的单精度计算能力;提供一站式训练任务托管服务,自动化解决计算节点调度、训练环境准备、数据上传下载以及容灾等问题;按需收费,成本可控,灵活便捷。
优势
支持最高1机4卡P40节点,单机高达48TFlops的单精度计算能力。通过分布式扩展,最高可达192TFlops 单精度计算能力。
训练任务一站式托管
系统自动进行GPU节点调度,数据上传下载,任务容灾等工作,无须用户担心。
训练任务状态追踪
提供训练任务标准输出日志转发和TensorBoard转发功能,用户可实时监控训练状态。
用户隔离
不同训练任务数据间相互隔离、安全可靠。
简单易用
操作简单上手,提供可视化任务管理工具,提供交互式代码调试工具。
按需付费
按照实际计算消耗付费,收费更灵活、便捷,无需担心资源浪费。
使用场景
支持AI领域各种训练任务:
视频图像识别
自然语言处理
语音处理
功能
提供图形化任务部署界面,支持新建、查询、中止、删除等训练任务管理操作。
自动配置分布式训练环境
支持TensorFlow和MXNet分布式训练,自动配置分布式训练节点和环境。
支持交互式训练环境
支持基于Jupyter的交互式训练,用户定制训练环境、实时交互、随时启停。
训练实时日志
支持实时查看训练任务标准输出日志。
TensorBoard
支持实时查看TensorBoard。