腾讯云4月8日故障复盘及情况说明
4月8日15点23分,腾讯云团队收到告警信息,云API服务处于异常状态;随即在腾讯云工单、售后服务群以及微博等渠道开始大量出现腾讯云控制台登录不上的客户反馈。
经过故障定位发现,客户登录不上控制台正是由云API异常所导致。云API是云上统一的开放接口集合,客户可以通过API以编程方式管理和操控云端资源,云控制台通过组合云API提供交互式的网页功能。
但是,用API提供的服务类产品(需要“酒店前台服务“)有不同程度的影响,比如腾讯云存储服务调用当天有明显下滑。期间售后团队协助部分客户做了业务容灾预案的实施,将受影响服务做调度以快速恢复客户的业务服务。从图2可以看出,当天存储服务调用有一个明显的波动。
问题复盘整个处理过程如下:1. 15:23,监测到故障,立即执行服务的恢复,同时进行原因的排查;2. 15:47,发现通过回滚版本没能完全恢复服务,进一步定位问题;3. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;4. 16:02,对全地域进行数据修复工作,API服务逐地域恢复中;5. 16:05,观测到除上海外的地域API服务均已恢复,进一步定位上海地域的恢复问题;6. 16:25,定位到上海的技术组件存在API循环依赖问题,决定通过流量调度至其他地域来恢复;7. 16:45,观测到上海地域恢复了,此时API和依赖API的PaaS服务彻底恢复,但控制台流量剧增,按九倍容量进行了扩容;8. 16:50,请求量逐渐恢复到正常水平,业务稳定运行,控制台服务全部恢复;9. 17:45,持续观察一小时,未发现问题,按预案处理过程完毕。
|
全部评论
最新文章
热点排行
-
1文件存储 NAS 和 对象存储 OSS 的区别
-
2天翼云云电脑 | 让电视一秒变身电脑
-
3阿里工程师太凶残了,竟把服务器泡在“水里”!
-
4腾讯云 | 想在微信群里发起9人以上的语音聊天怎么办?
-
5数据仓库终结者:Dremio
-
6阿里云 web 应用防火墙(WAF)价格:179元/年
-
72020年云服务器哪家强:阿里云、腾讯云、华为云、UCloud测评报告
-
82020 年 Q1 中国云市场份额:阿里云第一、华为云跃居第二、腾讯云下降为第三
-
92020 Q1 中国公有云市场份额 TOP3:阿里云、腾讯云、华为云
-
10郑大一附院系统瘫痪 2 小时,运维人员被判 5 年半:破坏计算机信息系统罪
有话要说