想象一下Netflix,没有庞大的点播内容库。再想象一下Target,原本在每个商店前面排列的闪亮的红色收银台消失不见。无法想象。在每一个行业中,组织不再与数字系统脱离,他们使用这些数字系统了解最新的信用和库存信息。然而,与此同时,许多领导者认为,现代历史上从未有过如此不可预测的时刻,这些数字系统面临的威胁也从未如此之大。为了保持对中断和不可预测事件的韧性,组织已经采用了数字服务思维来保持其系统的安全性和可靠性,并有效提供其利益相关者想要和期望的体验。
数字服务是满足客户、数字合作伙伴、公民或内部消费者需求的在线功能或能力。常见的数字服务包括集中库存、客户账户管理和支付处理。
无论是通过电子商务让客户在线参与、提供远程学习、通过远程医疗服务提供医疗服务,还是通过企业资源规划(ERP)系统运营复杂的供应链,组织都在将他们最关键的服务数字化。为了高效地提供任务关键型服务,各个组织都在采用云服务、微服务、无服务器功能和人工智能(Al)和机器学习(ML)驱动的技术平台等新技术。在Splunk 2023年可观察性现状报告中,大多数(66%)受访者表示他们已经在使用Al/ML,声称AlOps工具在帮助组织更快解决问题和提高效率方面优于传统解决方案。
随着新的数字服务通过内部、基于云的或混合应用交付,服务所有者感受到了日益多样化的生态系统的负担。这增加了操作环境的复杂性以及应用程序和系统性能的不可预测性,而此时,任何服务中断都会导致前所未有的代价。
对数字服务的需求日益增长,导致对可靠性和性能的期望不断提高。当团队和工具不足以支持这些服务时,这些服务会带来新的挑战和风险。在操作上,团队疲于应对孤立的数据和流程,特别是在他们的管理控制能力之外的环境中采用或构建更多的服务时。不良的可见性加上无效的管理工具,会导致跨职能部门之间的沟通低效,补救时间缓慢。从组织的角度来看,停机和性能下降会使他们面临监管失败、收入损失、客户体验不佳和品牌声誉受损的风险。
运营挑战
错位、孤立的团队
负责交付服务的团队通常跟踪不同于IT或开发团队的指标。正因为如此,组织、开发人员和IT部门的目标经常会相互脱节,会为每个特定的团队构建不同的报告。当这些孤立的小组必须协作解决问题时,每个代表都有自己的数据和监控工具,并且依赖于跨数据孤岛的手动交叉检查。这将导致跨团队沟通和协作无效。
分散的可见性
在此类各自为战的情况下,团队很难从最终用户的角度理解服务的实际执行情况。这种分散的可见性阻碍了他们在问题出现时获得见解来采取适当行动。
当客户遇到数字服务问题时,技术团队只能提供有关其系统运行情况的信息。他们很少或根本不了解数字服务对业务的实际影响。缺乏充分的全栈可见性也会影响服务所有者,他们无法了解业务影响并向领导报告。这种孤立的工作方式效率低下,并且无法支持积极的最终用户体验,而这正是许多组织越来越重视的。
补救时间缓慢
复杂的环境,加上不同的团队掌握的知识不同,使得快速有效地响应事件变得更加困难。响应人员花费宝贵的时间搜索所需的关键信息来定位问题来源,而不是积极地从事故中恢复。当只有少数工作人员具有更广泛的系统知识和访问权限时,会导致问题进一步恶化,因为大多数响应人员的认知仅局限于他们负责管理的系统。服务所有者掌握的信息甚至更少,通常只能收到服务已开始或已结束的通知。当所有负责的团队对数字服务运行状况的了解非常不均衡时,补救时间将不可避免地很慢,并且无法满足服务级别目标。
本文来自知之小站
PDF报告已分享至知识星球,微信扫码加入立享3万+精选资料,年更新1万+精选报告
(星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com)
