风险感知场景解读:监控、拨测、巡检、可观测性.docx
《风险感知场景解读:监控、拨测、巡检、可观测性.docx》由会员分享,可在线阅读,更多相关《风险感知场景解读:监控、拨测、巡检、可观测性.docx(8页珍藏版)》请在优知文库上搜索。
1、我们经常会从监控、拨测.巡检、可观测性、演练、混沌工程等角度发现风睑,本文对监控、拨测、巡检、可观测性4点以及风睑感知场景的切入点进行解读.1 .监控监控是在线监测、处理IT对演运行状况的工具与过程管理.监控相当于给运维团队分配了成千上万的机器人,这些机器人驻扎在硬件、平台软件、应用系统等对釜中,7*24不间断的采集指标数据,并将指标的异常情况,甚至故障点信息实时融达到正确的人,确保异常信息得到响应.监控是运维组织发现潜在风险与异甫的主要手段,推动监控发现的覆盖面、准确率、告警触达能力的提升,是缩短故障发现时长的关键举措。监控的目标是不漏报、少误报、高响应”.不漏报”主要来源于工具能力不足与工
2、具应用不到位,前者关注平台能力建设,束点是选择一个可扩展性的监控技术平台、监控生态,以及持续完善的监控研发能力;后者击点是建立最小监控覆盖面基面、主动式的监控覆盖面治理,以及围绕监控覆盖面治理的流程机制的完善。少误报主要解决大量反且误报告警让运维人员麻木、消极,进而忽视监控告瞥,错过了m正的监控告瞥的处理的问题,主要从从报警策略与报警管理入手,前者关注源端监控工具策略的精准度、统一告警对告警的收敛与抑制,后者关注告警处置涉及的维护管理、告警数据治理.高响应指监控告瞥出现后的处理时效性管理,关注告警分级、触达.升级、治理,以及响应管理要求.从工具角度看,监控工具是一个能力集合,行业主要的解决方案
3、包括涉及基他设施、平台软件、应用软件、应用功能、客户体验等屋面的源端监控工具,以及集中式的统一告警管理组成,如果组织监控工具投入资源可以得到保证,还会建立监控性能指标数据的集中管理,这个解决方案目前越来越受一些中大型运维组织的青睐.2 .拨测拨测是一种主动性的监控测试方式,主要利用筋区域的监控网络,以宾实终端用户使用场景为视角,对目标应用进行功能可用性、性能管理、网络性能角度的监控,先于最终用户挖掘故障隐患.拨测通常是模拟用户访问域名、URUAPl等方式,监测网络链路质量,监控Web的事务可用性,主动感知用户端应用访问体验,先于客户发现问题.拨测的目标是“模拟客户行为,先于客户发现风险”.这个
4、风睑可能是业务与服务可用性,也可能是客户体验问题,在技术手段上,借助一些传统对于页面、接口的拨测工具一个广泛使用的方法,也可以考虑以下思路扩展:一是借鉴全腌路的思路,从用户旅程角度建立蜡到端的拨测方案。二是将自动化拨测的方案转为即时质检的思路,落地运行健康度切面信息.当然,对于海信的实时交易,真实客户行为本身也是拨测源头,如何在第一拨少量用户遇到问Sg时快速发现,并进行处理是实现拨测目标的扩展要求.由于拨测涉及模拟客户行为操作,组织可以根据政策、风睑、成本等维度考虑选择不同的解决方案。3 .可观测可观测性概念并非源于计算机软件领域,在控制理论中可观测是指系统可以由其外部检出推断其内部状态的程度
5、.要理解可观测度近两年火热的背景,要理解宣杂,即IT运行环境与技术架构复杂性,以及IT对生产对茨掌握能力加深诉求两个因素导致。尤其是在云原生环境下,企业大规模地部署容器,应用节点呈指数级增长,故障可能发生在任意节点,无法感知与预测的因素越来越多,而传统监控、日志、可视化等工具只能看到单个环节、整体性何迹,无法建立更细化的评估、分析运维掌控能力.可观测理念的提出,是运维需要从原来只负责可用性被动保障的角色跳出来,站在白盒角度看系统运行状况,削析应用层面的运行信息.因为复杂,运维组织对于IT系统的掌控力越来越小,传统监控的思路对IT对象风险点的发现,在复杂架构下,只能回答当前发现了问题,但是运维的
6、目标是恢且连续性。可观测的目标是“发现风险并协助排障”,至少应达到故障定界,下面一图很好的解释可观测与监控的区别,自上而下看代表:告警、概况.排借、剖析、依赖分析,可以理解为处理监控告警的几个步骤:系统异常引发监控告警;受理监控告警,苴看告警丰畜后概述、关犍系统运行指标,了解系统整体运行状态,根据专家意见做出故障识别与诊断;识别异甫后,逐层下钻,进行运行分析,调取日志、数据库流水、报文等详细信息对异常进行进一步的分析排错;进一步深入到接口、方法、功能、性能层面进行异常分析诊断;调取模块与模块间的交互状态,通过道路追踪,建立生产对演上下游关系进行分析,建立关联分析能力,辅助判断问题根因.A1.E
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 风险 感知 场景 解读 监控 巡检 观测
