欢迎来到优知文库! | 帮助中心 分享价值,成长自我!
优知文库
全部分类
  • 幼儿/小学教育>
  • 中学教育>
  • 高等教育>
  • 研究生考试>
  • 外语学习>
  • 资格/认证考试>
  • 论文>
  • IT计算机>
  • 法律/法学>
  • 建筑/环境>
  • 通信/电子>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 优知文库 > 资源分类 > DOCX文档下载
    分享到微信 分享到微博 分享到QQ空间

    风险感知场景解读:监控、拨测、巡检、可观测性.docx

    • 资源ID:1436860       资源大小:17.65KB        全文页数:8页
    • 资源格式: DOCX        下载积分:5金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: QQ登录
    二维码
    扫码关注公众号登录
    下载资源需要5金币
    邮箱/手机:
    温馨提示:
    快捷下载时,如果您不填写信息,系统将为您自动创建临时账号,适用于临时下载。
    如果您填写信息,用户名和密码都是您填写的【邮箱或者手机号】(系统自动生成),方便查询和重复下载。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    风险感知场景解读:监控、拨测、巡检、可观测性.docx

    我们经常会从监控、拨测.巡检、可观测性、演练、混沌工程等角度发现风睑,本文对"监控、拨测、巡检、可观测性"4点以及风睑感知场景的切入点进行解读.1 .监控监控是在线监测、处理IT对演运行状况的工具与过程管理.监控相当于给运维团队分配了成千上万的机器人,这些机器人驻扎在硬件、平台软件、应用系统等对釜中,7*24不间断的采集指标数据,并将指标的异常情况,甚至故障点信息实时融达到正确的人,确保异常信息得到响应.监控是运维组织发现潜在风险与异甫的主要手段,推动监控发现的覆盖面、准确率、告警触达能力的提升,是缩短故障发现时长的关键举措。监控的目标是"不漏报、少误报、高响应”."不漏报”主要来源于工具能力不足与工具应用不到位,前者关注平台能力建设,束点是选择一个可扩展性的监控技术平台、监控生态,以及持续完善的监控研发能力;后者击点是建立最小监控覆盖面基面、主动式的监控覆盖面治理,以及围绕监控覆盖面治理的流程机制的完善。"少误报"主要解决大量反且误报告警让运维人员麻木、消极,进而忽视监控告瞥,错过了m正的监控告瞥的处理的问题,主要从从报警策略与报警管理入手,前者关注源端监控工具策略的精准度、统一告警对告警的收敛与抑制,后者关注告警处置涉及的维护管理、告警数据治理."高响应"指监控告瞥出现后的处理时效性管理,关注告警分级、触达.升级、治理,以及响应管理要求.从工具角度看,监控工具是一个能力集合,行业主要的解决方案包括涉及基他设施、平台软件、应用软件、应用功能、客户体验等屋面的源端监控工具,以及集中式的统一告警管理组成,如果组织监控工具投入资源可以得到保证,还会建立监控性能指标数据的集中管理,这个解决方案目前越来越受一些中大型运维组织的青睐.2 .拨测拨测是一种主动性的监控测试方式,主要利用筋区域的监控网络,以宾实终端用户使用场景为视角,对目标应用进行功能可用性、性能管理、网络性能角度的监控,先于最终用户挖掘故障隐患.拨测通常是模拟用户访问域名、URUAPl等方式,监测网络链路质量,监控Web的事务可用性,主动感知用户端应用访问体验,先于客户发现问题.拨测的目标是“模拟客户行为,先于客户发现风险”.这个风睑可能是业务与服务可用性,也可能是客户体验问题,在技术手段上,借助一些传统对于页面、接口的拨测工具一个广泛使用的方法,也可以考虑以下思路扩展:一是借鉴全腌路的思路,从用户旅程角度建立蜡到端的拨测方案。二是将自动化拨测的方案转为即时质检的思路,落地运行健康度切面信息.当然,对于海信的实时交易,真实客户行为本身也是拨测源头,如何在第一拨少量用户遇到问Sg时快速发现,并进行处理是实现拨测目标的扩展要求.由于拨测涉及模拟客户行为操作,组织可以根据政策、风睑、成本等维度考虑选择不同的解决方案。3 .可观测可观测性概念并非源于计算机软件领域,在控制理论中可观测是指系统可以由其外部检出推断其内部状态的程度.要理解可观测度近两年火热的背景,要理解宣杂,即IT运行环境与技术架构复杂性,以及IT对生产对茨掌握能力加深诉求两个因素导致。尤其是在云原生环境下,企业大规模地部署容器,应用节点呈指数级增长,故障可能发生在任意节点,无法感知与预测的因素越来越多,而传统监控、日志、可视化等工具只能看到单个环节、整体性何迹,无法建立更细化的评估、分析运维掌控能力.可观测理念的提出,是运维需要从原来只负责可用性被动保障的角色跳出来,站在白盒角度看系统运行状况,削析应用层面的运行信息.因为复杂,运维组织对于IT系统的掌控力越来越小,传统监控的思路对IT对象风险点的发现,在复杂架构下,只能回答当前发现了问题,但是运维的目标是恢且连续性。可观测的目标是“发现风险并协助排障”,至少应达到故障定界,下面一图很好的解释可观测与监控的区别,自上而下看代表:告警、概况.排借、剖析、依赖分析,可以理解为处理监控告警的几个步骤:系统异常引发监控告警;受理监控告警,苴看告警丰畜后概述、关犍系统运行指标,了解系统整体运行状态,根据专家意见做出故障识别与诊断;识别异甫后,逐层下钻,进行运行分析,调取日志、数据库流水、报文等详细信息对异常进行进一步的分析排错;进一步深入到接口、方法、功能、性能层面进行异常分析诊断;调取模块与模块间的交互状态,通过道路追踪,建立生产对演上下游关系进行分析,建立关联分析能力,辅助判断问题根因.A1.ERTINGMONITORINGOVERVIEWDEBUGGINGPROFI1.INGDEPENDENCYANA1.YSIS"可观测性”能力是结合云原生架构下对故障发现与徘障需求的一个最佳实践,并在工具匿面提出围绕在日志(logs)、指标(metrics)、腌路(trace)三个要素。分别代表的意义是:日志记录(logs),软件在执行过程中产出的信息.日志数据很丰富,包含正常程序处理过程、异常报错等信息,详细解释系统的运行状况,但由于日志格式不统一,通常需要先进行加工处理以更好的消费.追踪链路(trace),处理请求范围内的信息.,可以包括从终端到服务端、到上游关联系统服务节点,甚至细化到接口、方法、由数等多个维度的道路关系.腌路关系能够帮助更全面的了解请求生命周期中系统各个蛆件的健康情况等.指标信息(metrics).指标是反映某个主题的量化、聚合性数据,是一个可度量数值,监控策略就是建立在一个个评价系统健康情况的指标之上,智能异常检测、系统感知、效能评估、IT服务管理等也同样是基于指标构建.构建可观测系统,是为了让运维在豆杂架构下具备深入剖析问题的能力.相比传统监控平台,可观测是一项综合整合多种数据的、解决“未知”问题的解决方案,监控是针对"已知”故障的监控,传统监控数据是可观测系统应用的一部分.监控需要提前了解系疣数据,建立针对运行数据的监控策略,而可观测是从全局角度分析数据,良好的可观测能力需要在设计阶段进行非功能性前移,当系统异常时能够让运维快速了解问题的现状和影响,并能够深入探索、跟踪问题的根因。另外,可观测与以往的运行可视化也有一些区别。可观测系统不是一个简单整合数据可视化或落地好看的仪表板,而是要在异常发现、诊断、定位过程中发挥作用.相比以往构建的可视化,可观测系统不仅需要整合更丰宙的链路、日志、指标数据,还需要更加标准的数据内容才能达成整合效果.要得到满足条件的数据,需要运维、研发通力协作,在软件设计过程中考虑相关数据埋点,所以,在构建可观测之前务必要分别调动研发、测试、管理决策层的兴趣,挖掘各方的痛点与期望,即不仅仅要考虑运维工程和希望实现的快速故障定界、诊断的作用,还要考虑可观测如何解决研发、测试工程师的架构失控、性能管理、变更后睑证、了解生产运行环境、基础设施、了解程序上线后运行状况等问题。以及,如何解决管理决策层建立穿透式的量化运行状况掌控力,井进行指挥决策.巡检是主动对IT运行风险的评估发现,包括常规巡检与深度巡检,前者是高频、例行的分析,通常融入到常规运堆流程;后者主要从成本角度区别于常规巡检,比如加大评估分析面、分析深度、预测分析、协同范围、问题限踪等,通常深度巡检带有一定的风险分析主题.巡检的目标是“主动评估风险”,强调的是一种主动发现风险的数字化思维模式与组织协同文化。在数字化运维阶段,巡检需在操作上要进行升级,将巡检从甫规操作性例行工作与监控管理区别开,不断鼓励、促进运维专家转变被动工作方式,建立巡检的管理机制,不断的固化巡检规则、任务、报告、数据感知等解决方案,是主动运营的一个特变表现方式,比如:围绕业务连续性保獐相关的重要系统性能&容量&质量管理主题的数据运营、平台软件性能&容量&质量管理主蔑的数据运营、函系统运行状态感知.主要系统上下游看板、交易终端交易分布、客户订单总知、功能号运行感知、业务品种分析、清凭过程管理等主题分析,以及扩展到IT服务管理相关的监控告警处首效率、生产变吏发布风险、应急处苴效率、生产已知缺陷看板、故障应急过程管理、配置管理等主题分析.5.风险感知百度百科对"感知”的定义是“对内外界信息的觉察、感觉、注意、知觉的一系列过程"。风险感知包括对客观风险信息的"知觉",与运维专家经验知识的“感觉",我对"感知”一词的认识来源于几年前全数字化赋能一书.书中定义了数字化的感知力,是指通过收集数据与见解,察觉企业所处环境的更要变化,感知力包括行为感知与情景感知,行为感知是指深入了解员工、客户的行为与想法,情景感知是对商业环境与运营环境的感知.“感知"与"决策、执行"共同组成了我对数据智能思维框架的三要素,打造数字化IT风险管理的风除感知场景将是数字化运堆体系的重要方向.风睑感知场景关键的三点是:影响风险的客观信息组合、专家知识的跑入、扩展到决策与执行的闭环。风险惑知是场景,将整合上述监控、拨测、可观测、巡检的一些基本能力,并基于场景需要构建工具需要具备的功能、流程机制,配套组织角色.风险感知之所以能成为场景,在于风险感知在运维体系中是一个既能独立运作,又能与其他场景相结合产生更全面与深度的效能.在组织、流程、平台、场景四位一体的体系方案中,场景接近用户工作,包括"人、事、时间、协同、环境”5要素,提升场景价值不是正复造轮子,要善用、组合已有的平台能力,总结一下前面提到的监控、拨测、可观测、巡检四项能力的目标:监控:目标是"不漏报、少误报、高响应",从风险角度至点关注即时发现风睑,包括众多风险监测的"点”,偏被动。拨测:目标是“模拟客户行为,先于客户发现风睑“,从风险角度至点关注业务层面的风险发现,是以终为始的风险发现,由业务风险带动其他风险的发现,专注业务层面风睑的"点",偏主动.可观测:目标是"发现风险并协助排障",从风险角度重点关注发现风险与辅助风险解决的赋能,包括多个"点"组合的"面",但基于"指标、殖路、日志”形成一个最佳实践的方法,偏被动.巡检:目标是”主动评估风险",从风险角度点点关注健康质检,或更深度或广度风险评估,包括多个"点"组合的"面",偏主动。今天先把场景可能会使用到的平台能力做个介绍,通过吸收成熟的工具解决方案.为风险感知场景的构建提供帮助.

    注意事项

    本文(风险感知场景解读:监控、拨测、巡检、可观测性.docx)为本站会员(王**)主动上传,优知文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知优知文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 yzwku网站版权所有

    经营许可证编号:宁ICP备2022001189号-2

    本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。优知文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知优知文库网,我们立即给予删除!

    收起
    展开