上云无忧 > 找云产品 > 【阿里云】云原生可观测运维解决方案
【阿里云】云原生可观测运维解决方案
该方案基于 SLS 云原生可观测平台实现,以大数据源为支撑,兼容开源标准,可实现多场景适配 AI 算法,进行大规模数据处理分析。是阿里云针对企业级大数据运维场景推出的解决方案,帮助企业在日常运维工作中轻松实现异常检测、根因分析、秒级响应以及实时预测。
*此产品及展示信息均由阿里云官方提供。 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云!微信咨询
  免费试用、价格特惠

注册资本:100000万元人民币

成立时间:2008-04-08


阿里云档案>>

该方案基于 SLS 云原生可观测平台实现,以大数据源为支撑,兼容开源标准,可实现多场景适配 AI 算法,进行大规模数据处理分析。是阿里云针对企业级大数据运维场景推出的解决方案,帮助企业在日常运维工作中轻松实现异常检测、根因分析、秒级响应以及实时预测。


方案架构


云原生可观测运维解决方案
本方案以阿里云日志服务 SLS 为核心,基于日志服务 SLS 一站式的数据采集加工查询分析可视化告警能力,并结合大数据与机器学习,为用户实现对业务系统的智能可观测。


可以解决的问题

数据关联难:运维系统多,形成数据孤岛,无法关联分析
异常发现晚:系统发生异常后才去排查修复,充当救火队员
故障恢复慢:故障定位和排查没有头绪,排查问题耗时长
维护成本高:运维系统自身稳定性差,维护成本高


方案优势

数据集中采集存储:将日志、指标、调用链数据统一采集、存储、分析,提供完整可观测数据采集存储能力
智能告警中枢:全面监控,智能降噪,灵活多维通知能力
监控巡检智能化:提供异常检测功能,结合智能告警与反馈机制让监控更准确更及时

运维服务化:完全免运维,更专注于维护业务系统稳定




方案优势

日志、指标、调用链三大可观测性数据集中管理
通过sdk、日志采集探针(logtail)、调用链探针(支持 OpenTelemetry 框架)多种方式,将服务器、页面、移动端、网络上产生的数据集中采集到日志服务平台中,统一加工、存储、分析,实现完整的业务系统可观测性。

全面灵活智能的告警神经中枢
SLS 提供支持多源多账号多条件统一的监控平台,结合多维智能降噪、告警事务管理、灵活通知分派能力,使得告警系统能够真正触达业务系统的每一个神经,真正成为感知系统变化的神经中枢。

支持自动识别数据特征实时建模的异常检测能力
SLS 智能巡检功能采用无监督学习算法,能够自动识别实体的数据特征,根据数据特征选择不同的算法组合,针对数据流实时建模,完成异常检测任务。并根据用户的打标信息,训练监督模型,实现算法的不断优化,提高准确率。

应用场景


云原生全方位日志实时监控
场景痛点
✓ 容器稍纵即逝,业务日志随容器消失而丢失,故障无法排查
✓ 日志量大,传统日志分析方案遇到性能瓶颈,运维压力大
✓ 静态阈值监控方式,告警准确率低,无法及时发现问题
✓ 业务调用链过长,故障发生后,问题定位时效低

解决方案
✓ Cidercar/Daemon-set 方式动态采集容器内业务日志
✓ 数据写入弹性扩展,支持 PB/天 数据吞吐量,十亿级查询秒级返回
✓ 智能巡检动态阈值,结合告警中枢智能降噪,有效收敛告警数量,提高告警准确率
✓ Trace 数据快速接入,自动展示完整调用链路,定位到代码级问题

方案价值
✓ 全托管免运维,让客户安心使用云原生环境敏捷开发,更专注业务
✓ 自动化异常发现与检测,帮助客户及时有效发现问题
✓ 代码级问题定位,减少开发排查故障时间,大大提高开发效率



混合云及多云应用系统集中运维监控

场景痛点
✓ 云上云下及多云环境 IT 系统无法统一监控,出现故障要分别排查,效率低
✓ IDC 内的服务器、网络设备、存储等出现故障无法关联到应用层
✓ 不同服务设备阈值不同,监控规则多且复杂,管理成本大

解决方案
✓ IDC 及多云环境的服务器通过 logtail 将主机指标和应用日志上报到云端进行监控
✓ 使用 Logtail/Trace 将应用系统基础层、应用层自动关联,应用出现故障可以下钻定位到基础层
✓ 通过智能巡检动态监测设备异常,简化监控规则配置及管理

方案价值
✓ 统一管理所有 IT 资源,提高运维效率
✓ 根据 IT 资源忙闲情况灵活调整资源用量




跨服务统一告警中枢

场景痛点
✓ 现有告警服务不具备智能降噪功能,导致告警风暴
✓ 现有告警服务不具备告警事件管理功能,告警无法有效闭环
✓ 现有日志分析平台迁移需要周期,但告警问题希望快速得到收敛解决

解决方案
✓ 日志服务支持通过 Webhook 方式接收外部监控系统中的告警消息(如 Grafana、Prometheus),无须迁移数据即可接入智能告警
✓ 通过开放告警接入数据后,即可使用日志服务智能告警功能中的智能降噪及告警事件管理功能

方案价值
✓ 无须迁移数据即可快速解决告警风暴问题
✓ 多个服务统一告警中枢更易于告警事件管理



客户案例


畅捷通
畅捷通运维开发团队借助日志服务,打造了一套智能可观测性平台,实时监测业务系统的用户体验与系统状况,通过预测业务异常点,提前规避问题。并且通过钉钉告警实现 ChatOps 自动化运维。提高了运维效率,降低运维成本与沟通成本。这套智能可观测性平台支撑了畅捷通所有云产品的健康稳定运行,在 IT 运维开发领域树立了一个标杆。


沙盒网络
阿里云日志服务帮助沙盒网络团队解决了多云部署全球化业务场景下数据集中采集统一管理问题,整体异常问题排查时间缩短30%左右,有效助力业务高速成长。

米连科技
伊对的业务量在短时间大规模增长,直播间稳定性和用户体验面临巨大挑战,自建 ELK 平台的稳定性已经无法支撑业务的增长。通过云原生可观测运维解决方案,将移动客户端到服务端的各种数据都汇集到一起,构建一个统一运维监控平台,可以快速发现用户体验出现的异常并及时修复。让运维人员和开发人员都能在同一个平台中排查问题,提高沟通和运维效率,缩短故障恢复时间。

相似产品
  • 想买: 412人 简介: 对于大多数企业,制定数据库灾备方案是一件非常有挑战的事情。根据企业所在行业、合规要求、数据规模、RPO/RTO要求的不同,数据库灾备目的和要求各不相同,投入成本也是不同的。数据库灾备解决方案提供实时数据备份能力,满足企业备份多样化选择。
  • 想买: 359人 简介: 阿里云企业级云灾备解决方案为企业级应用提供云上容灾保护与备份恢复。为了满足不同行业客户的需求,阿里云提供了云原生灾备服务以及软硬一 体式灾备产品,满足本地机房、阿里云混合云及阿里云公共云的灾备需求,确保数据安全性和业务连续性。
  • 想买: 1031人 简介: 多活容灾是在阿里巴巴电商业务环境演进出来的新一代容灾解决方案,其包含同城多活容灾场景和异地多活容灾场景。该方案可以将业务恢复和故障恢复解耦,有基于灵活的规则调度、跨域跨云管控、数据保护等能力,保障故障场景下的业务快速恢复,助力企业的容灾稳定性建设。
  • 想买: 227人 简介: 阿里云Serverless微服务应用上云解决方案为客户提供了一套更经济的上云方式,通过定时弹性和自动弹性策略,降低闲置计算资源,同时提供应用发布、更新、下线等应用管理功能,提高开发和运维效率。
  • 想买: 249人 简介: 阿里云微服务中心解决了依赖 ZK/Nacos/Eureka 等开源注册和配置方案进行自建过程中引起的依赖复杂、建设和运维成本高的问题,同时,降低了在 Hbase、Spark或Kafka 等大数据的环境下的分布式系统协调难题,旨在打造云上微服务运维体系的闭环。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部