喜讯！腾讯云Angel机器学习平台斩获领先科技奖

发布时间: 2024-11-20 10:19:52 |浏览量：371| 评论: 0

这两天，半个科技圈都在「打卡」乌镇。

鹅也去了，顺手捧回个大奖——腾讯Angel机器学习平台斩获2024世界互联网大会「领先科技奖」。

这个奖的评选，严苛至极：技术务必硬核，实用性必须在线，还要对社会和经济产生实打实的效益。今年申报项目多达270个，但整体入围率仅7.4%。（可给鹅骄傲坏了，叉会儿腰先）

难度这么大，Angel机器学习平台如何脱颖而出？

先搞清楚一个概念：训练大模型，其实就像流水线作业，数据、算力和训练推理平台是三道关键工序，少了哪一个都运转不起来。

然而，很多企业的流水线要么训练框架「卡壳」——算力用不满，资源白白浪费；要么平台规模「掉链子」——协作撑不住，任务堆成山……结果就是效率低下，成本还蹭蹭往上涨。

腾讯Angel机器学习平台，就像是为大模型打造了一条「超级流水线」，投入数据「原料」，就能训练出可直接部署的大模型，又高效又稳定。

究竟是如何做到的？跟鹅一探究竟：

//网络互联：通信速度提升30%，成本降低70%

流水线的起点，是数据传输。网络连接就是传输数据的「传送带」，过去的「传送带」又窄又慢，数据堵在中间，GPU只能干等着，白白浪费算力资源。

腾讯Angel机器学习平台装配了全新的「传送带」。通过自研的RDMA网络技术，不仅让传送带变宽（带宽提升30%），还减少了传输中的「卡顿」（延迟降低），降低70%的成本。

//框架效率：训练性能提升2.6倍
众所周知，大模型训练是算力消耗大户，尤其是显存。过去的训练框架，就像流水线上老旧的机器，效率低下，很多显存空转浪费。

Angel机器学习平台就像给流水线换了一台「智能加工机」。通过显存+主存一体化管理技术，每一滴资源都被榨干利用，训练性能直接提升2.6倍，又快又省钱。

//平台规模：GPU集群加速比提升至99%
训练万亿规模的大模型，往往需要几万张GPU卡协同工作。传统架构就像手工作坊：流水线上任务分配混乱，资源利用率不到一半，生产效率低下。

Angel机器学习平台优化任务分配机制，如同在流水线上建起「智能调度中心」，让流水线的每个工作台（GPU节点）都各司其职、默契配合，GPU集群加速比从50%提升到99%，变得高效有序。

至此，经过层层打磨，大模型「生产」已基本完成，再加上最后的推理（模型推理本质上是将训练得到的参数和推理任务结合在一起，就像装配线上的最终组装环节），就可以在实际场景中使用啦。

基于Angel机器学习平台，腾讯自主研发了万亿级别的混元大模型，率先采用混合专家模型（MoE）结构，跻身中国大模型第一梯队。

目前，Angel机器学习平台也广泛应用于腾讯内部700多个业务场景，并通过腾讯云服务30万行业客户，覆盖广告、金融等多个领域。

大模型时代，Angel已经建好了超级流水线。又快又稳，等你来!

有话要说

全部评论

暂无评论

云计算资讯

喜讯！腾讯云Angel机器学习平台斩获领先科技奖

更多【新闻资讯】相关文章

有话要说

全部评论

最新文章

热点排行

热门活动

云计算资讯

热点推荐

喜讯！腾讯云Angel机器学习平台斩获领先科技奖

更多【新闻资讯】相关文章

有话要说

全部评论

最新文章

热点排行

热门活动