aiops是什么意思
aiops(Artificial Intelligence for IT Operations),即智能运维,将人工智能/ML或其他高级分析技术应用于业务和运营数据,以建立关联并实时提供规范性和预测性答案的软件。这些洞察力产生实时的业务绩效KPI,使团队能够更快地解决事件,并帮助完全避免事件。
什么是aiops
AIOps(Artificial Intelligence for IT Operations),即智能运维,将人工智能/ML或其他高级分析技术应用于业务和运营数据,以建立关联并实时提供规范性和预测性答案的软件。这些洞察力产生实时的业务绩效KPI,使团队能够更快地解决事件,并帮助完全避免事件。
AIOps 结合了大数据和机器学习,使IT运营过程自动化,包括事件关联、异常检测和因果关系确定。利用 AI 及其子集来监控和解决与企业 IT 运营相关的问题。
AIOps的应用
通过对运维数据的计算和分析支持智能监控、智能的故障分析和处理,智能IT知识图谱等。
AIOps的价值
传统运维面对海量的运维数据,要快速止损和进行决策,人工专家的分析判断往往需要花费数小时或更大。
而AIOps在于通过机器学习来进行运维数据的挖掘,能帮助人甚至代替人进行更有效和快速的决策。
智能运维在企业的落地,能够提升业务系统的SLA,提升用户的体验,减小故障处理的时间等,带来业务的价值;并最终实现真正意义上的无人值守运维。
AIOps应用领域
目前各大传统客户围绕AIOps的探讨和建设主要是如下内容:
发现问题:基于机器学习的异常检测;
例如,目前监控数据的异常阈值往往是静态的,无法有效规避变更时间、特殊节假日、业务正常的高低峰等,简单阈值、同环比算法的覆盖面有限,很容易漏警和误警。
基于历史数据或进行样本标记的KPI异常检测,能名列前茅时间发现问题,检测模型能覆盖大多数曲线类型,能较好适应业务生命周期中的变化。
根因分析:基于机器学习的故障树挖掘,定位故障发生的根源以及其原因;例如,首先实现故障精准定位,在多指标情况下的业务异常(多指标检测的异常),出现异常的原因具体是哪个指标导致的;然后根据故障树挖掘和知识图谱,实现故障的精准根因分析与定位。
预测未来:基于机器学习模型的指标预测;例如,基于多种回归和统计方法,实现对不同级别粒度的业务数据的预测,包括业务指标预测、容量预测等,如双11业务对组件容量和资源容量的容量预测等。
IT辅助决策支持:深入运营场景,实现业务运营的IT辅助决策应用;如营收预测、舆情分析与预测等场景。
算法层面则可以跟学术界进行合作或在社区中获取,在早期训练数据集和反馈数据量比较少的情况下,采用无监督学习,具体实现是用模式识别(pattern recognition)的技术来判断指标是否关联。关联性是通过时间序列曲线相似度(similarity distance)来衡量的。
机器学习算法库提供计算时间序列曲线相似度的各种算法,比如:欧几里德距离(Euclidean Distance)、曼哈顿距离(Manhattan Distance)、明科斯基距离(Minkowski Distance)等。
在有足够数据集以后,算法演化成有:监督学习、随机森林(Random Forrest)、GBDT(Gradient Boosted Decision Tree) 、神经网络(Neutal Network)等。
最后,推荐我们的管理工具给大家。