腾讯云整机跌落测试:把服务器从 1 米多的台子上扔下来了,没坏
是的,我们真会把服务器从最高1.2米的台子上把服务器摔下来。 这是为了给它做整机跌落测试。 检测服务器能否在震动、冲击等极端情况下,给用户提供稳定的服务。 只有通过的服务器,才能进入腾讯云的数据中心。 实际上,不止是跌落测试,为了保证服务器不宕机,服务实时在线,腾讯云从服务器的选用、日常运维到急救,各类自研技术统统安排上了。一台服务器的不同阶段,分别有不同“服务器医生”守护! 第一阶段:高标准定制、选用服务器 在腾讯云,服务器想进数据中心的大门,得先经过“体检医生”全方位的性能测试。
压是真“压”,长时间、满负载的稳定性压测是必备动作。连续运行超过12小时,服务进程不重启业务不出bug,才算一台内外兼优的好服务器。 服务器内部配置要求更高。 比如,作为服务器里的“运动员”,硬盘每分钟转动、碰撞上万次,极易出现磨损和故障。这些故障和运行的业务是有关系的。 关系是什么,以前很难弄清楚。但腾讯云根据腾讯业务模型不断测算,最终找出了规律。选取定制化磁头和碟片进行生产,几个月时间,就把硬盘年化故障率(ASR)降低了80%左右! 第二阶段:7x24小时“巡诊”击退bug 服务器进厂运行“服役”后,健康就更重要了。为此,腾讯云准备了诸多技术,7x24小时保证服务器时时在状态。 首先出场的是“化验医生”——数据中台。它掌握先进的数据清洗、数据校验技术,可以实时感知服务器内的数据状态。一旦发现内存、硬盘等部位出现数据异常,会立即通知对应部位医生诊治。 比如,硬盘就有自己的诊科医生“硬盘打分AI系统”,当硬盘有较高损坏风险时,会向运维系统报告替换硬盘。 内存也有自己的诊科医生——多套内存监测算法。 当内存发生单比特的故障——CE(可纠正错误,corrected error)时,内存自带的修复功能就能解决bug,用户体验几乎无感。 但当内存发生多比特故障——UCE(不可纠正错误,uncorrected error),服务器立即宕机,用户也将收获一个“502”。 为此,腾讯云准备了一套监测算法,可以提前识别可能恶化成UCE的CE错误,使UCE拦截率提升超过20%。 在监测算法之外,腾讯云还完善了MCA Recovery(MACHINE-CHECK ARCHITECTURE Recovery)技术,可以阻挡内存做“傻事”。 用上这套算法后,出现UCE问题时,服务器不会立即重启,而是标记和隔离内存故障数据,再加以解决。目前,可以规避接近一半内存故障导致的宕机。 第三阶段:终极急救大招“换身术” 经过上面两个阶段,已经可以解决服务器遇到的绝大部分故障。但如果发生极端情况,服务器最终陷入了故障,怎么办? 不用担心,腾讯云早就给服务器备好了急救医生——数据热迁移技术和硬盘多副本技术,保证数据不丢失、用户体验不受影响。 过去服务器出现故障(主要是内存故障)时,得先给服务器关机,才能做数据迁移。这会给业务带来极大的影响,比如游戏厂商就得安排某些服务区关机、停服…… 腾讯云自研热迁移技术就不同了,换身过程中,无需关机,只把内存的几个问题“字节”圈住,再把其他健康数据迁移走,迁移完后再关停损坏服务器,启用新服务器,整个过程用户使用体验也不受影响。
当然,上述只是服务器保护工作中的冰山一角: 数据中心内,比照国家要求,有严格的温湿度及电压调控,保证服务器始终运行在稳定的环境中。
服务器资源从机器上架到回收退役无缝衔接,全生命周期保证数据安全。退役服务器会进行严格的数据销毁操作。 未经用户授权,腾讯云绝不主动触碰服务器数据。即便用户授权,腾讯云也会通过权限划分确保权限最小化,所有额外权限均需要经过多级评审批准 .... 现在,你知道为了让你网上冲浪顺畅,腾讯云有多努力了吧! |
全部评论
暂无评论
最新文章
热点排行
-
1文件存储 NAS 和 对象存储 OSS 的区别
-
2天翼云云电脑 | 让电视一秒变身电脑
-
3阿里工程师太凶残了,竟把服务器泡在“水里”!
-
4腾讯云 | 想在微信群里发起9人以上的语音聊天怎么办?
-
5数据仓库终结者:Dremio
-
62020年云服务器哪家强:阿里云、腾讯云、华为云、UCloud测评报告
-
72020 年 Q1 中国云市场份额:阿里云第一、华为云跃居第二、腾讯云下降为第三
-
8阿里云 web 应用防火墙(WAF)价格:179元/年
-
92020 Q1 中国公有云市场份额 TOP3:阿里云、腾讯云、华为云
-
10郑大一附院系统瘫痪 2 小时,运维人员被判 5 年半:破坏计算机信息系统罪
有话要说