大数据云平台智能运营解决方案课件.pptx
《大数据云平台智能运营解决方案课件.pptx》由会员分享,可在线阅读,更多相关《大数据云平台智能运营解决方案课件.pptx(52页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大数据云平台智能运营解决方案关键指标的智能监控智能告警合并智能根因分析智能故障自愈智能监控概述智能故障预警智能监控概述智能告警合并关键指标的智能监控智能根因分析智能故障自愈智能故障预警01监控系统演进的几个阶段监控自动化监控系统可用、好用监控立体化监控覆盖面更全,采集到各维度更全面、更完整的数据监控平台化监控系统与其他运维自动化系统打通和联动监控产品化监控产品更贴近人的使用习惯,用户体验更好监控智能化让监控系统拥有更强的智能01传统监控与智能监控的差别传统的监控监控指标侧重单机运行状态做固定阈值的异常判断发出基本的告警,数量较大做故障现象的告警,需要大量的人工分析发现问题而不处理,由人决定如何
2、处理发出告警时已经出现故障智能监控监控指标侧重业务整体运行情况对周期性波动变化的指标做预测和异常检测对信息做有效的区分和整合做故障根因的分析,揭示问题的本质根据故障根因,智能决定如何处理并执行在故障出现前发出预警01智能监控总体规划监控业务全流程覆盖故障前可以发出故障预警能对周期性变化指标进行预测和异常检测支持按照合适的维度对告警进行合并智能对故障根因进行分析,给出最可能的原因,辅助人做决策可以根据故障原因选择合适的故障自愈策略并执行,自动解决故障智能监控概述智能告警合并关键指标的智能监控智能根因分析智能故障自愈智能故障预警01关键指标的智能预测和异常检测背景整体规律性较强、短期小幅波动较多的
3、关键指标,不适合使用静态阈值适用场景网络出口或业务的进出流量集群和域名的访问量需求按天对流量的提前预测对实时流量的异常检测技术方案使用回归模型按天预测流量变化趋势使用分类模型对实时流量做异常检测01如何使用机器学习的方法明确问题:处理数据:我们要解决什么样的问题解决问题可能需要哪些数据我们可以获取哪些数据流量预测/异常检测历史时刻对应的流量数据清洗特征工程数据标记清洗接口异常数据统计判别结合无监督学习标记数据训练模型:选择模型训练模型验证模型离线训练模型交叉验证模型表现使用模型:线上加载定期修正BadCase分析修正模型01流量预测及异常检测的技术框架原始数据有标记样本库分类模型输出模型实时数
4、据特征工程加载分类模型输出标记离线模块在线模块特征工程回归模型预测流量01训练集样本的标记原始数据有监督分类模型统计方法及无监督算法有标记样本库标记Top N为异常分类模型实时判断异常人工修正确认告警和异常3-sigemaTukeys testIsolation ForestOne Class SVM投票 2负样本投票=0正样本训练样本库分类器有标记样本库标记Top N无监督分类模型01智能故障根因分析基于告警信息提取监控分层系统层:资源使用率(CPU、内存)监控应用层:端口、进程监控业务层(页面、接口)网络层、服务器层:网络设备硬件监控告警信息按层合并,异常发生时由上至下逐层获取告警信息,提
5、取根因;优点:解释性好,结果可靠缺点:非常依赖监控的完备性 01智能故障根因分析可视化视图异常辅助排查页面展示:异常告警事件,部署上线事件发现告警之间的关联,便于确定故障根因01智能故障根因分析调用链信息不完备智能监控概述关键指标的智能监控智能故障自愈智能告警合并智能根因分析智能故障预警01智能故障自愈故障自愈的策略出现故障先不告警,自动执行预定义的一系列处理步骤,尝试自动处理故障如果故障自愈成功,那么无需发送告警如果故障自愈失败,按照预定义的方式发告警在合适的时间,将近期故障自愈的执行结果汇总后通知用户01统计判别方法3-sigemal解释性好l计算开销小l更适用于正态分布,无法处理复杂情况
6、正态分布01统计判别方法Tukeys test l不受异常值的影响l能够准确稳定地描绘出数据的离散分布情况l过于敏感,不够智能=+1.5 ()=1.5 ()Tukeys test01无监督算法Isolation Forest l使用集成方法的无监督算法l计算开销小,训练速度快l异常点更加靠近树的根部,而正常数据多处于树中更深的节点01无监督算法One Class SVM l利用支持向量域描述的思想,寻找分离超平面;l适用于连续数据的异常检测l适用于筛选一定比例的样本01流量预测整体规律性较强历史同期流量统计特征历史同期流量变化趋势移动平均特征历史特征:流量数据特点:短期小幅波动较多移动平均吸收
7、短期波动工作日,周末,假期影响较大设计对应的历史特征提取规则流量趋势可预测01流量预测的效果根据历史数据预测明天的数据01异常检测构建合适的对比样本库,提取特征用于对比当日前n分钟流量数据昨日同时刻前后n分钟流量数据上周同时刻前后n分钟流量数据对比样本库对比样本库统计特征:均值中位数标准差最大值最小值偏度峰度样本对比特征:差值比值同比环比异常时流量一定有反常的波动异常发生频率较低统计判别结合无监督算法解决样本初始无标记问题01有监督算法LightGBMl基于梯度提升树(GBDT)原理l采用直方图算法,训练速度快,准确率高,可处理大规模数据l支持类别特征01异常检测的效果基于数据异常程度将异常分
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 平台 智能 运营 解决方案 课件
限制150内