首页 > 资讯 >正文

揭秘智能运维在时序数据异常检测算法的创新应用

2022-07-04 17:44:01 来源:- 作者:-

随着人工智能技术的应用以及大数据时代的到来,IT运维系统和设备需要监控的指标以及数据类型呈指数型增加,对于不同的系统和业务,其指标的形态也千变万化。在高负载的数据处理系统中,如何利用AI技术提高点异常、关联异常、集体异常以及多元异常等不同数据异常的预测准确性和时效性,成为困扰行业内技术发展的一大障碍。知名IT系统架构师郑力侨先生另辟蹊径,他在研发时序数据异常检测算法的过程中引入智能运维算法,创造出了一套完备的警告系统,为提高数据异常预测的效率以及准确性提出极具借鉴价值的解决思路。

郑力侨先生现在就职于慧博云通科技股份有限公司,担任IT系统架构师职位,致力于云计算中心的IT架构设计。他早年毕业于辽宁大学,在国际科技巨头苹果、惠普负责过多个IT项目的落地实行,在IT架构设计领域有着丰富的行业经验和杰出的创新能力,在业内享有较高的专业声誉。

智能运维又称AIOps(Artificial Intelligence for IT Operations),通过松耦合、可扩展方式去提取和分析数据量、种类和速度这三个维度不断增长的 IT 数据,进而为 IT 运维管理产品提供支撑,从而用机器学习的方法来提升运维效率。智能运维是如何与时序数据异常检测算法产生奇妙的“化学反应”呢?

“IT运维系统要保障时序数据处理服务正常运行,需要将运维的对象进行监控,并通过设定的运维算法规则对指标进行实时检测,因此一套高效完整的预警告示的系统是重中之重。”对于大多数传统的预警报警系统,以消息总线的消息日志为基础,在异常时再去绘制故障交易链路图,对各个数据指标进行不同数据异常的检测,因此这样的报警系统具有明显的滞后性以及低效性。针对这个问题,郑力侨先生改进了智能运维算法并把它应用在异常检测算法当中,从而把不同类型的时序数据转换成标准化、数据仓库式的运维数据,为系统的自主学习提供格式化的基础数据,从而自动生成消息总线的运行日志。这样结合不同算法的检测算法在系统架构到运维工具都做到集中化管理,在发生数据异常时能第一时间形成交易链路图输出报警告示,从而快速解决各类实际运维场景的数据异常问题。

另一方面,智能运维在数据检测的应用,能够提升业务系统的反应决策机制,减小故障处理的时间,并最终实现真正意义上的无人值守运维。“传统运维需要面对海量的异常数据处理,要快速止损和进行决策,人工的分析判断往往需要花费数小时或更久,这个处理效率是非常低下的。”郑力侨先生注意到了智能运维在运维数据上具有强大的挖掘以及处理能力,能帮助人甚至代替人进行更有效和快速的决策。于是,他萌生了研发基于机器自主学习的智能异常检测算法,集合数据采集、作业执行、编排引擎、自定义场景等多模块功能。更为核心的是,这些功能模块之间形成了有效交互,将IT环境中孤立的运维数据统一管理,借助机器学习算法、数据分析技术和全局搜索能力,帮助系统实现快速故障定位和异常处理,能极大地简化研发策略配置成本,提高告警的效率和准确率。

“智能运维作为新一轮产业变革的核心力量,正在推动传统产业升级换代,但是它本身是一门综合性的前沿学科和高度交叉的复合型学科,研究范畴广泛而又异常复杂,其发展需要与计算机科学、数学等学科深度融合。”郑力侨先生表达了对智能运维未来发展的期望。智能运维目前在数据异常的预测准确性和时效性问题上给出优秀的答卷,不过在系统的数据展现、数据统计、告警分析和业务分析功能上仍然面对不少挑战。

“这个检测算法只是一个开始,我们对智能运维的探索还在路上”郑力侨先生说道。

责任编辑:小林