资讯首页 新闻资讯 云计算测评 云服务商动态 技术频道
上云无忧 > 云计算资讯  > 新闻资讯 > 创造「星星海」:腾讯云自研服务器的关键一战

创造「星星海」:腾讯云自研服务器的关键一战

发布时间: 2020-06-23 18:32:03|浏览量:350| 评论: 0

2019 年 1 月 24 日。

繁忙运转的工厂,一块不起眼的显示器前,聚集了一帮服务器领域的顶级专家。

腾讯第一台自研服务器首次 Power on(开机上电)。这是腾讯自研服务器品牌星星海的第一款产品,对腾讯云服务器团队来说,这是一场不容有失的战役。

熟悉服务器制造的人知道,Power on 是一个相当复杂的工程。设备在工厂打好样后组装起来,接上电启动,进入操作系统并识别所有设备,才算成功。由于过程中难免出现一些意料之外的问题,完成这一系列动作,业内常规需要花费数天时间,在硬件设计不完善的情况下,甚至要耗费两周。

腾讯的目标却是,两小时。

一根线都不能错,一个元器件也不改,相当于编写的代码一次性运行成功。即便团队中都是工作经验超过10年的专家,在大家看来,也几乎是 “mission impossible” 。“即便在苹果,十个产品中也只有一个能做到”。

这样严苛的要求下,没有退路,成为最后一道防线。

腾讯历史上虽然很少做硬件,但有一个共识很明确:对于硬件来说,越早发现问题,补救的成本就越低。尤其是服务器未来需要大规模在业务中去部署,如果给自己一种预设,“有问题可以去改”,“大不了换一根线”,这想法本身比服务器宕机还要危险。

春节前一周,主板的制造终于完成,距离工厂停工放假只剩下5天。团队打定了心思,“如果 Power on 失败,就留在公司过年”。

上午十点,显示器前人头攒动,主板接上了电源,系统启动,周边设备一件件被识别……

两小时过去。有人还记得那一刻,当 “Tencent” 的标志在屏幕上亮起,紧张的气氛终于被打破,在场的人暗自松了一口气。而随着大量的启动信息快速划过屏幕并最终进入操作系统登录窗口,此前悄无声息的人群中逐渐响起兴奋的交谈和掌声,“自研服务器,boot 起来了!”。



腾讯第一台自研服务器首次“power on”

奇迹是怎么发生的?

星星海诞生

时间倒回到 2017 年 10 月,腾讯大厦的一间会议室里,关于一件事情的讨论始终争持不下——腾讯要不要做自研服务器?

在腾讯历史上,做硬件从来不是一个必选项。原因很简单,在这家诞生了微信、QQ 等国民级互联网应用的公司里,工程师们更习惯通过架构和代码的优化,来解决底层服务器的场景适配、性能提升等问题。

腾讯产品的软件架构设计无可挑剔,凭借对海量之道的深刻理解,工程师们大体可以做到,只要硬件本身性能不太差,基本就不会拖业务发展的后腿。

“为什么要自研?为什么不直接去外面买?”在云业务起来之前,腾讯本身对于硬件的需求不是非常大,服务器这个偏底层的业务模块也从来不在聚光灯下。

但随着云的规模越来越大,公司支撑海量云业务背后,“存储成本太高、网络成本太高、计算成本同样太高……”同时,行业技术能力的PK也日趋白热化,云原生的机会越来越多,如果不做硬件,软硬件无法很好地和业务做结合,云的价值就很难发挥出来。

更多的是一种反思:“我们有着卓越的科技实力,丰富的实战经验,覆盖全球的基础设施,我们可以适配腾讯的云业务,满足不同行业客户对服务器的多样化需求,让用户享受到更低成本和更高性能的云服务。我们有什么理由不开启自研?

一次次讨论终于在 2017 年底达成共识,腾讯做出了一个重要的决定——布局自研服务器。确定了目标后,团队很快在 2018 年初组建完毕。

大家商量着给项目起个响亮的名字。很快,一个叫星星海(Star Lake)的提议,得到了大家的认同。星星海取自于青海果洛的一个美丽湖泊,更重要的是,用水的名字来命名,考虑到了水 “柔和,灵动,智慧,且利万物”。



创造出腾讯自研服务器的星星海实验室

从一开始,腾讯就希望把自研服务器做成一个生态,而不是简单的硬件。

落地!落地!落地!

在腾讯,自研服务器这件事承载了很高的期待,但真正做的时候,大家心里都没底。

一来公司从前缺少这方面经验,要投入多少人,做成什么样子,怎么解决问题?

无数的问号袭来。消息放出后,多家大型硬件厂商对腾讯的技术能力持怀疑态度,有芯片供应商甚至直言,“建议在市场上购买成熟方案,在此基础上修改后使用比较稳妥”。

“只要方向是对的,要做的只有一件事,就是等风来。”

采用通用服务器硬件系统模块化设计,根据数据中心实际部署环境要求,针对计算、存储、网络等场景优化,通过模块组合满足腾讯98%服务器应用场景需求。

通过CPU定制化模式,提升计算性能,为云计算提供硬核支撑,保证计算节点本身的高硬件可靠性。

通过极致能效设计,研发先进的热虹吸管散热技术,整机免工具快速维护,通过这些精细的硬件设计大幅度降低硬件及运营成本。

这些轻描谈写的成果背后,问题比想象中要多。

以散热器为例 ,散热器该如何选择?看起来似乎有些微不足道,团队无数次研讨,众人身前的白板被代表功效和性能的数字填得满满当当,那个最优型号的答案也便呼之欲出。也就是这个“不太起眼”的选择,在不久的将来,会把同等情况下的风扇功耗大大减少,节省下非常可观的用电成本。



在细节上的执着、专注,给星星海实验室带来了不少“惊喜”

团队中的每个人都像上满了发条的齿轮,最微小的原件,最角落的线路,每一个细节的背后都凝聚着团队无数个日夜的讨论和信念。

腾讯云自研服务器,云端场景是必须要考量进来的因素。

在交出成绩单前, 团队十几个人在工厂里整整驻场了三周时间,差点回不来。不断地进行验证、修正、打磨,只有说服了自己,才能将可靠的产品交出去。

这是一款为云而生的自研服务器,自己的产品要自己去测试,自己去发现问题,吃自己的“狗粮”。

现在,团队需要解决的问题是说服不同业务从原来本已运行平稳的服务器上,切换至这款全新的自研服务器。

服务器的基本性能数据和硬件参数优秀,大家坚信,数据会帮产品说话,这些数据既然能给自己底气,也一样能打动那些迟疑的团队。

尽管此前测试时数据很好,但实际使用中会不会有问题,大家心里都还没底。为了保证业务的平稳顺滑,团队必须在一遍又一遍的测试中将隐患找出来。

调试、验证、准备,原本熟稔的操作,如今各业务团队都要重新学习适应,而这个略有些陌生的产品更是给软硬协同带来了很多额外的工作量。这是真正的业务压测,一些压力很重的业务开始真正模拟星星海在线上跑的过程,持续进行着24小时无间断的测试。

另一厢,相关技术团队也随时待命,第一时间响应业务反馈的大小问题,重新调整子机规格,不断降低业务时延……一对一跟进需求,一同寻找问题的最优解。

经过这几个过程之后,星星海迎来了真正的发布。

星星海首秀

2019 年 10 月,AMD 在北京举办了一场发布会,腾讯云作为合作伙伴站上展台。星星海服务器的首款产品就这样第一次从幕后走到台前,在行业面前展示自己的真实面貌。

如同一场技术界的盛会和“秀场”一样,工程师们不会放过任何一次“秀肌肉”的机会。各式各样的服务器轮番上阵,人头攒动中,星星海的工程师们松了一口气——无论外观还是性能,这款服务器都是最吸引眼球的那一个。

基于 AMD 最新的 Rome 平台深度定制 CPU,这款服务器实现了行业最优单核性能和最优单核 TCO,云服务实例综合性能提升 35% 以上;外观上用料精简超过 20%,同时在散热上应用业界先进的热虹吸管散热技术,实现最大负载能效对比业界提高 50%,这也同步促进了服务器能耗的下降。



星星海自研服务器实现了行业最优单核性能和最优单核 TCO

首次亮相大获成功,但工程师们还没来得及庆功,“意外”却发生了。

下午四点,腾讯云 CVM 团队传来消息:正在测试中的 200 台服务器中,2 台出现了宕机。

虽然只有 2 台,但无故宕机对于硬件而言无异于一场严重事故,倘若上线后发生问题,影响客户业务,那影响将无法估量。

Debug 从下午四点一直持续到凌晨,工程师们也直接从会场被拉到了腾讯机房。

此时的腾讯机房,就像是一个破案现场。侦察员快速集结,现场所有的物证和人证被快速收集、整理然后分析。很快,问题被定位到,一切迎刃而解。

「春保」首战

每年的“春保”在腾讯内部意义重大,是一个不容有失的业务节点。服务器交付后,万一中间出现软件问题没办法解决,还得靠硬件去调试。

但是春节作为腾讯业务资源需求最大的时间段,又是推广自研服务器的一个最佳契机。站在公司的角度,一方面表明了对于自研的支持,另外,如果不赶春节这一波集中上量,春节后需求释放完,可能就没办法推广开了。

对于星星海团队来说,2019 年年底是最艰难的时刻,交付不了怎么办?服务器宕机怎么办?

好在服务器已经在前期经过了重重测试。一个多月的时间,不停地跑CVM的压测,直到跑出来没问题为止。经过反复验证跑出来的最稳定的配置,最终成为主力机型。

做自研服务器不是简单的硬件,需要强大的垂直整合能力,背后有架构平台团队、云产品团队,上面有微信、QQ,强大的应用和业务来进行测试,是一个综合能力的体现。

今年开始,这款服务器被正式应用于腾讯云及腾讯自有各业务场景,在微信、QQ、视频转码、广告检索等产品和业务上也表现出了亮眼的性能。

例如,微信业务性能测试显示,采用这款服务器对应的云服务器实例能使其业务吞吐能力提升 230% 以上;在视频转码性能测试中,其性能也提升了 200%;广告检索业务中也可明显降低检索延时。

那些「无人知晓」的高光时刻

春节期间,腾讯例行成立专门的团队,调度资源,完成大规模的计算资源保障任务。这一批自研服务器也正式走上“前线”。

随着节日临近,气氛开始变得紧张。团队每日检查服务器,盯着群里的各种消息,任何一个渠道信息的跳动都牵动着所有人的心绪。所幸,没有任何问题发生,春节联保就这样有惊无险的度过了。



星星海SA2云服务器今年已实现 20 倍应用规模的增长

就在长舒一口气之时,突发的疫情却将这款服务器推到了更大的战场。

春节过后,新冠肺炎疫情袭来,腾讯会议快速扩容 100 万核服务器资源,腾讯教育的远程课堂业务支撑了全国数千万师生在线教学,也都是由星星海提供支撑。在线业务需求暴涨的背景下,星星海 SA2 云服务器今年已实现 20 倍应用规模的增长。

一个有趣的内部故事是,星星海服务器研发团队忍不住去问了业务同事,“已经跑了几天了,你们到底看到问题没有?”得到的回复是,“无人感知”,“甚至不知道是在星星海上跑的”。那一瞬间,竟是团队最开心的时刻。

目前,首批星星海服务器在无人知晓的角落默默运转着。经历几次高峰业务实战,服务器硬件与腾讯云基础架构能力之间的磨合进一步完善。

后续,腾讯云将把这款服务器部署到遍布全球的数据中心,以云服务的形式将具有高性价比的计算能力,开放给云上的数百万用户。

今年,腾讯云还正式成立了星星海实验室,这是腾讯历史上首个硬件工程实验室。星星海实验室的任务是,结合腾讯自有业务以及云上数百万客户的需求特性,在云原生服务器技术方面开展专项研发,并广泛联合服务器产业生态伙伴,为客户提供更适配云计算场景的服务器方案。

近日,腾讯云还宣布即将推出星星海首款四路服务器,同样基于云原生理念打造,搭载四颗腾讯云与英特尔合作定制的第三代英特尔至强可扩展处理器,能够支持云上用户获取超大规格云主机实例,并能在AI等场景下为用户提供更强的计算性能。

展望未来,更多的云上用户将使用到星星海实验室研发的更多产品……


活动推荐:

【腾讯云】全线产品(含星星海 · 云服务器) 优惠返现 21.8% >>点这里<<


更多【新闻资讯】相关文章

有话要说

全部评论

暂无评论
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部