应用高可用服务(Application High Availability Service)是专注于提高应用及业务高可用的工具平台,目前主要提供 应用架构探测感知,故障注入式高可用能力评测 和 流控降级高可用防护 三大核心能力,通过各自的工具模块可以快速低成本的在营销活动场景、业务核心场景全面提升业务稳定性和韧性。
四大核心工具模块
流量防护
提供业务系统全方位可用性防护,从网关防护和应用防护两个层面、入口/应用/应用间/单机负载多维度,提升系统的高可用性。可零代码改动,一键快速启用。秒级防护能力和配置生效速度。
低接入成本
支持SDK和Agent两种方式,支持多种主流框架及语言,同时提供常用接口和自定义代码的流量防护能力,Agent接入无需修改代码。线下客户亦可通过公网接入,性能消耗低。
全方位的防护
提供适用于运维同学的SpringCloudGateway和Zuul等常用网关防护能力,操作简便、无代码侵入。同时提供应用级别的流量控制、应用间的降级隔离、单机过载保护等能力,可实现热点漏斗控制、流量削峰填谷、慢方法/SQL的熔断降级等。
多语言版本的支持
应用防护除JAVA外,同时支持GO语言、PHP语言、MyBatis应用等多类型应用的SDK接入,简单3步即可快速提升系统防护能力。此外,可通过自定义埋点接入,支持更灵活的防护方式。
秒级防护能力
流量防护提供包括QPS、并发线程、RT等指标的秒级监控能力,并针对这些指标提供可视化的接口调用统计、TOP接口/节点、热力图、分场景类型汇总等。此外,可在控制台上快速配置并秒级推送规则并生效。
架构感知
根据授权的接口绘制拓扑结构和应用的相互依赖关系,并以地图的模式可视化展示。可用于压测、演练等多种应用场景实时进行业务/资源的监控。
架构自动感知
自动识别Redis,Mysql,ZooKeeper等常用的三方组件和ECS、RDS、Redis、CDN、DNS、MQ、SLB、EIP、NAT、DDOS、WAF等云资源,同时可识别容器服务、Kubernetes环境中的node、Pod、service、container等资源,将其拓扑关系进行可视化展示。
风险可视化展示
根据通用风险规则,定期进行基于架构拓扑中节点的风险巡检,并将巡检结果可视化直观呈现。可根据风险描述及建议修复方案,进行配置、资源的调整。
故障演练
遵循混沌工程实验原理并融合了阿里巴巴内部实践,提供了丰富的故障场景实现,促进分布式系统提升容错性和可恢复性。
丰富的演练库
不断积累的基于真实故障场景的演练库,提供了基础设施端到应用端的演练场景,及其试图解决的问题、针对的系统架构弱点。便于快速进行演练场景的创建及修改。
灵活的流程编排
一次演练可包含多个故障场景,支持依次注入场景或同时注入多个场景。在准备、注入、检查、恢复四个阶段可根据需要添加流程节点,满足高阶、个性化的场景定义。
快捷的演练协同(NEW)
演练空间落地对演练的组织协同管理。可以根据业务、团队、活动等组织形态,灵活协同演练和成员,有效组织演练。
强弱依赖治理(NEW)
通过科学手段持续稳定地拿到应用间依赖关系、流量、强弱等数据,推进强弱依赖治理,提前发现因为依赖问题可能导致的故障,避免依赖故障影响用户体验。
功能开关(NEW)
一个轻量级的动态配置框架,可以动态管理代码中的配置项,根据需求为某个应用开启或关闭部分功能,或设置某个性能指标的阈值。通常用于设置黑白名单、运行时动态调整日志级别、降级业务功能等场景。
支持多种类型开关
无论是否部署在阿里云上,均可通过JAVA SDK或Spring Boot方式进行接入。开关类型支持String、Boolean、List、Enum等常见的14种类型。可用于诸如动态日志类型切换、灰度比例调整等场景。
控制台快捷操作
可在控制台上进行开关的实时查看与推送,可以进行单机推送、全局灰度推送及全局全量推送等多种推送方式。此外,可在控制台上查看开关的不同值的分布情况,进行线上配置一致性的排查。
多活容灾
MSHA(Multi-Site High Availability),在阿⾥巴巴电商业务环境演进出来的多活容灾架构解决⽅案,将业务恢复和故障恢复解耦,基于灵活的规则调度、跨域跨云管控、数据保护等能⼒,保障故障场景下的业务快速恢复,助⼒企业的容灾稳定性建设。
故障快速恢复
秉承“先恢复,再定位”的原则,MSHA 在各种灾难场景下均具备快速恢复业务的能⼒,在数据保护的前提下让“业务恢复时间”和“故障恢复时间”解耦合,保障业务连续性。
容量异地扩展
业务⾼速发展,受限于单地有限资源,也存在数据库瓶颈等问题。在 MSHA ⽔平拓展能⼒⽀撑下,业务具备其它机房或者其它地域快速扩建的特性,减少成本浪费。
变更真实验证
提供⾃上而下的流量隔离能⼒。业务具备单元间隔离的能⼒,在最小隔离单元内灵活进⾏⻛险可控的技术演进。如,基础设施升级、新技术验证等,甚至可以驱动商业新玩法。
爆炸半径可控
基于单元间隔离能力,故障爆炸半径可控制在一个单元格内,有效控制故障影响范围,避免对整个业务可用性造成影响。
微服务高可用传统应用高可用
一键托管式微服务高可用能力提升
针对基于SpringCloud,Dubbo或K8S的微服务应用,一键快速接入高可用能力,无需改造代码,无需运维后台服务。
能够解决
微服务流控
应对突发的流量洪峰,保护微服务稳定
微服务降级
应对服务依赖引发的雪崩问题,提高整体应用的稳定
传统应用高可用
快速无成本接入高可用能力
针对传统单体或分布式应用,提供一种无需开发侵入和改造的快速获得应用高可用的能力,已上线的应用也可以方便的接入应用高可用服务。
能够解决
业务入口限流
对突发的业务流量和异常访问进行流控
数据库访问保护
隔离各类业务对数据库的调用,保护重要业务
关联产品推荐
性能测试服务 PTS
PTS具有强大的分布式压测能力,可模拟海量用户真实的业务场景,性能测试更简单。
智能顾问 Advisor
智能顾问Advisor可以全方位地为用户提供云资源、应用架构、业务性能及安全上的诊断和优化建议。