资讯首页 新闻资讯 云计算测评 云服务商动态 技术频道
上云无忧 > 云计算资讯  > 云服务商动态 > 腾讯云整机跌落测试:把服务器从 1 米多的台子上扔下来了,没坏

腾讯云整机跌落测试:把服务器从 1 米多的台子上扔下来了,没坏

发布时间: 2020-09-22 09:29:07 |浏览量:556| 评论: 0

是的,我们真会把服务器从最高1.2米的台子上把服务器摔下来。

这是为了给它做整机跌落测试

检测服务器能否在震动、冲击等极端情况下,给用户提供稳定的服务。


只有通过的服务器,才能进入腾讯云的数据中心。

实际上,不止是跌落测试,为了保证服务器不宕机,服务实时在线,腾讯云从服务器的选用、日常运维到急救,各类自研技术统统安排上了。一台服务器的不同阶段,分别有不同“服务器医生”守护!

第一阶段:高标准定制、选用服务器

腾讯云,服务器想进数据中心的大门,得先经过“体检医生”全方位的性能测试。



除了要经得起“跌落测试”,也要抗得住业务“压力”。

压是真“压”,长时间、满负载的稳定性压测是必备动作。连续运行超过12小时,服务进程不重启业务不出bug,才算一台内外兼优的好服务器。

服务器内部配置要求更高。

比如,作为服务器里的“运动员”,硬盘每分钟转动、碰撞上万次,极易出现磨损和故障。这些故障和运行的业务是有关系的。

关系是什么,以前很难弄清楚。但腾讯云根据腾讯业务模型不断测算,最终找出了规律。选取定制化磁头和碟片进行生产,几个月时间,就把硬盘年化故障率(ASR)降低了80%左右!

第二阶段:7x24小时“巡诊”击退bug

服务器进厂运行“服役”后,健康就更重要了。为此,腾讯云准备了诸多技术,7x24小时保证服务器时时在状态。

首先出场的是“化验医生”——数据中台。它掌握先进的数据清洗、数据校验技术,可以实时感知服务器内的数据状态。一旦发现内存、硬盘等部位出现数据异常,会立即通知对应部位医生诊治。

比如,硬盘就有自己的诊科医生“硬盘打分AI系统”,当硬盘有较高损坏风险时,会向运维系统报告替换硬盘。

内存也有自己的诊科医生——多套内存监测算法。

当内存发生单比特的故障——CE(可纠正错误,corrected error)时,内存自带的修复功能就能解决bug,用户体验几乎无感。

但当内存发生多比特故障——UCE(不可纠正错误,uncorrected error),服务器立即宕机,用户也将收获一个“502”。

为此,腾讯云准备了一套监测算法,可以提前识别可能恶化成UCE的CE错误,使UCE拦截率提升超过20%。

在监测算法之外,腾讯云还完善了MCA Recovery(MACHINE-CHECK  ARCHITECTURE Recovery)技术,可以阻挡内存做“傻事”。

用上这套算法后,出现UCE问题时,服务器不会立即重启,而是标记和隔离内存故障数据,再加以解决。目前,可以规避接近一半内存故障导致的宕机。

第三阶段:终极急救大招“换身术”

经过上面两个阶段,已经可以解决服务器遇到的绝大部分故障。但如果发生极端情况,服务器最终陷入了故障,怎么办?

不用担心,腾讯云早就给服务器备好了急救医生——数据热迁移技术和硬盘多副本技术,保证数据不丢失、用户体验不受影响。

过去服务器出现故障(主要是内存故障)时,得先给服务器关机,才能做数据迁移。这会给业务带来极大的影响,比如游戏厂商就得安排某些服务区关机、停服……

腾讯云自研热迁移技术就不同了,换身过程中,无需关机,只把内存的几个问题“字节”圈住,再把其他健康数据迁移走,迁移完后再关停损坏服务器,启用新服务器,整个过程用户使用体验也不受影响。


硬盘损坏同样扛得住,腾讯云有多种多副本技术,保证用户数据始终有多个完整副本存在不同服务器中。一个坏了,其他的随时顶上,保证用户使用相关服务不会受影响。

当然,上述只是服务器保护工作中的冰山一角:

数据中心内,比照国家要求,有严格的温湿度及电压调控,保证服务器始终运行在稳定的环境中。


设有服务器故障智能监控体系,能够明确故障部位告警并快速维修。数据中心内,7x24小时安排驻场维修人员。

服务器资源从机器上架到回收退役无缝衔接,全生命周期保证数据安全。退役服务器会进行严格的数据销毁操作。

未经用户授权,腾讯云绝不主动触碰服务器数据。即便用户授权,腾讯云也会通过权限划分确保权限最小化,所有额外权限均需要经过多级评审批准 ....

现在,你知道为了让你网上冲浪顺畅,腾讯云有多努力了吧!

更多【云服务商动态】相关文章

有话要说

全部评论

暂无评论
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部