算力时代的动环采集TBOX

前言
可信数据是数据中心自动化运营和智能化运营的基础数字底座,面对中大型数据中心或大规模数据中心集群的海量数据挑战,只有从数据采集、传输、存储到消费的全数据链路实现数据质量保证和控制,特别需要从数据源头即数据采集白盒、透明才是根本解决之道。智能动环采集TBOX通过体系推动开放协议和标准连接实现数据采集的白盒化及即插即用,并内置Agent算法实现免维护监测,主动上报故障告警实现主动运维,最终实现可信数据分级定义,确保在设计、安装、运营和维保全周期保持一致的数据质量,为数据中心告警、变更、巡检、维保自动化、成本分析和AI调优等服务提供可信数据基础能力。
作为基础设施智能化的代表作,智能动环采集TBOX提升了动环运维的智能化和自动化水平,为各类数据中心和企业提供坚实保障。未来,智能动环采集TBOX将持续迭代升级,拓展更多应用场景,助力企业实现高效、安全、智能的基础设施管理,推动行业数字化创新升级。
由于时间仓促,水平所限,错误和不足之处在所难免,欢迎各位读者批评指正。如有意见或建议请联系lynnwwang@tencent.com、terryxyan@tencent.com。

一、背景
为了满足超大规模数据中心园区运营的需要,动环采集器TBOX应运而生,通过系统架构升级,在产品故障率、告警速度,配置工作量优化,SLA方面都有了质的提高。作为数据中心风火水电基础设施健康度感知的中枢,动环采集器TBOX承担着协议适配,数据采集,告警上报等职责,其传统上却一直由供应商来提供和实施,往往带来数据质量差,误告警、漏告警,维护成本高等问题。
为了推动数据中心在弱电技术上的进一步突破,增强对现场监控系统的把控力度,通过自研动环采集器TBOX打通了数据监控的全链条,进一步提升了数据感知和系统告警的质量,打造了高可控、高质量的数据监控平台。无效告警率相比厂家系统降低15%,采集轮询速度提高40%,并且弥补了对数据采集网关自身故障监控的空白,满足数据中心未来数字化、智能化的大型数据中心运营的需要。
同时,在此过程中通过定义动环采集器TBOX的硬件规格和设计规范,自研了数据采集架构,开发了60多种设备驱动类别,并配置了300万+的测点映射。通过设计平滑可靠的施工方案,保证了上线过程的安全稳定。自研动环采集器TBOX,配合动环监控系统TBOS,在监控数据全链条的『快、稳、准』上有了进一步的提高和保证。
二、面临的挑战
动环采集器作为一个和现场交付结合最紧密的设备,除了产品本身的质量外,与机房现场交付的质量和最终的使用效果量息息相关。在平台上要最终呈现出运营数据,要经过多个转换环节,而每一个环节都需要人为介入处理。通常交付工作涉及如下环节:
驱动解析:设备接入采集器时,需要厂家根据被监控设备厂商提供的驱动文档,制作测点和寄存器之间的映射关系,并定义好测点单位,名称等内容。
位置设定:设置设备的串口地址,IP地址等,并将地址和设备绑定。以便系统识别到对应地址设备上线后,能够匹配对应的设备物理位置。
告警策略:将采集到的数据配置上告警策略,以便在机房异常时,触发系统报警。绝大多数业主没有足够的专业度和精力去详细定义机房上百种设备类型的告警策略,所以厂家通常按自己的经验来定义。
组态绑定:绘制电气单线图,暖通水路图,安防平面度等组态页面,并绑定设备实时数据。
数据对接:将本地监控采集到数据,转换成北向接口协议,上送到业主管理平台。由于业主要求的接口协议不同,监控厂家需要开发对应的API接口和配置测点映射。比如电信要求B接口,腾讯MDC偏向SNMP等。
采集接入层设备,以往均是采购第三方的动环采集器,动环采集器内部的驱动解析、测点映射、告警策略配置、采集周期等信息都是黑盒并经过多次人工手动映射,且后续运维、随业务调整的灵活性都不够。
这里列举了以往项目交付过程中在交付阶段、测试阶段、运营阶段等不同时间点的动环监控系统数据质量汇总,通过对比我们得出常见的数据质量类型可以分为5个方面,其中占比最大或者说问题最多的数据的准确性不够。这些不准确的数据都是项目建设过程中带来的黑盒数据,对于安全运营来说都是潜在风险也会导致故障误判,只能在三方测试、后期运营过程中通过大量的测试、故障分析、演练将测点数据进行校准、修正,耗费大量的人力、精力。

本文来自知之小站

 

报告已上传百度网盘群,限时15元即可入群及获得1年期更新

(如无法加入或其他事宜可联系zzxz_88@163.com)