aiops相关理论

AIOps概述

智能运维的理想状态就是把运维工作的三大部分：监控、管理和故障定位，利用一些机器学习算法的方法把它们有机结合起来。
AIOps平台包括数据湖，即存储采集数据，还有自动化系统、记录系统、交互系统、监控生态圈。
AIOps平台主要通过整合分析IT基础设施、APM、NPM、日志、数字化体验监测数据，来提升IT运维流程的效率。
AIOps平台能力的ROI多是基于平均故障接手时间（MTTA）和平均故障修复（MTTR）时间这两个指标的降低进行评估的。

AIOps场景
AIOPS场景很多，诸如异常检测、根因分析、故障自愈、容量预测等方面。根据平台的实际场景和业界AIOPS的实践经验，AIOPS将划分为三个场景：成本、效率和稳定性。针对成本来说，利用AI算法节省资源、智能调度，提高资源利用率的手段来节省资源；针对效率方面来说，利用AI算法主动发现问题、分析问题和解决问题，真正节省人力，提高效率。

AIOps能力
AIOps智能运维平台需要提供如下能力：
提供独立、开放的历史/实时数据采集、算法分析平台，整合IT数据和业务指标数据；
提供告警消噪（包括告警抑制、告警收敛等），消除误报或冗余事件；
提供跨系统追踪和关联分析，有效进行故障的根因分析；
设定动态基线捕获超出静态阈值的异常，实现单/多指标异常检测；
根据机器学习结果，预测未来事件，防止潜在的故障；
直接或通过集成启动解决问题的动作；

AIOps的基础
只有当工程（自动化、标准化）的水平达到一定高度后，才有望向智能化方向发展。以下给出的几种简单方法和技术，既能在异构系统中建立某种关联，为智能化提供一定的支持，又不要求开发人员改变技术栈或开发框架。

日志标准化：日志包含所约定的内容、格式，能标识自己的业务线、服务层级等。
全链路追踪：TraceID或者RequestID应该能从发起方透传到后端，标识唯一请求。
SLA规范化：采用统一的SLA约定，比如都用“响应时间”来约定性能指标，用“慢速比”来衡量系统健康度。

目前AIOps在IT运维领域实践的几个特点：
(1) 机器学习算法落地场景首推异常指标识别。因为工程化成本低，较容易产生效果。一两个核心开发人员即可。而且一旦成功，运维人员能获得最直接的收益。
(2) 从异常指标出发，衍生到异常追溯原因的各类场景。当识别出了异常，自然希望得到答案。例如在根因定位上，使用到了交易链路，所不同的是，有依靠人工管理标注完成，也有使用了算法结合消息总线的日志自动产生。所以，从纯粹数据层面的机器学习逐渐过渡到逻辑层面的机器学习。
(3) 算法结合规则才能达到实际生产运维期望的效果。算法不能解决所有问题。如果要更好的解决实际运维场景的问题，算法结合规则或专家经验才是宝贵的AIOps落地经验。
(4) 标准化、数据仓库式的运维数据是基础，大量运维格式化基础数据是机器学习的先决条件。所以，从组织架构到运维工具都应尽量做到集中化管理。
(5) 类似容量预测或事件预测等类似预测类的场景将是AIOps的下一个探索方向，主动发现与预测将是IT运维未来需要解决的问题。IT技术架构从“IOE架构”逐步走向了“互联网架构”；运维体系从ITIL走向DevOps；运维平台从自动化走向了AIOps；运维核心从关注平台走向数据资产。智能化以及数据化是未来IT运维的总体趋势。

AIOPS的能力框架

AIOps平台能力体系

AIOps 常见应用场景

按照时间来分

AIOPS实施的关键技术

1.数据采集（硬件，业务指标等）

2.数据预处理（特征工程）

3.数据可视化

4.数据存储（数据仓库，Hadoop分布式存储）

5.智能算法

数据采集

性能数据，性能数据 cpu性能，网络消耗，硬盘数据

用户数据：流量，错误率，访问情况，操作信息等个性化信息

运维事件信息，新程序上线扩容，配置更新，软件更新

数据处理

数据字段提取：通过正则解析，KV 解析，分隔符解析等解析方式提取字段

规范化数据格式：对字段值类型重定义和格式转换

数据字段内容替换：基于业务规则替换数据字段内容，比如必要的数据脱敏过程，同时可实现无效数据、缺失数据的替换处理

时间规范化：对各类运维数据中的时间字段进行格式统一转换

数据可视化

数据可视化：快速看到想要的信息，辅助快速分析问题解决问题

要做数据可视化先建立数据关联：

    产品服务层级关联关系

    服务模块之间关联关系

    运维事件与指标数据关联关系

    指标数据与分维度指标数据关联关系

    总体指标数据与分维度指标数据关联关系