欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    大数据云平台智能运营解决方案课件.pptx

    • 资源ID:69440961       资源大小:2.76MB        全文页数:52页
    • 资源格式: PPTX        下载积分:20金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要20金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    大数据云平台智能运营解决方案课件.pptx

    大数据云平台智能运营解决方案关键指标的智能监控智能告警合并智能根因分析智能故障自愈智能监控概述智能故障预警智能监控概述智能告警合并关键指标的智能监控智能根因分析智能故障自愈智能故障预警01监控系统演进的几个阶段监控自动化监控系统可用、好用监控立体化监控覆盖面更全,采集到各维度更全面、更完整的数据监控平台化监控系统与其他运维自动化系统打通和联动监控产品化监控产品更贴近人的使用习惯,用户体验更好监控智能化让监控系统拥有更强的智能01传统监控与智能监控的差别传统的监控监控指标侧重单机运行状态做固定阈值的异常判断发出基本的告警,数量较大做故障现象的告警,需要大量的人工分析发现问题而不处理,由人决定如何处理发出告警时已经出现故障智能监控监控指标侧重业务整体运行情况对周期性波动变化的指标做预测和异常检测对信息做有效的区分和整合做故障根因的分析,揭示问题的本质根据故障根因,智能决定如何处理并执行在故障出现前发出预警01智能监控总体规划监控业务全流程覆盖故障前可以发出故障预警能对周期性变化指标进行预测和异常检测支持按照合适的维度对告警进行合并智能对故障根因进行分析,给出最可能的原因,辅助人做决策可以根据故障原因选择合适的故障自愈策略并执行,自动解决故障智能监控概述智能告警合并关键指标的智能监控智能根因分析智能故障自愈智能故障预警01关键指标的智能预测和异常检测背景整体规律性较强、短期小幅波动较多的关键指标,不适合使用静态阈值适用场景网络出口或业务的进出流量集群和域名的访问量需求按天对流量的提前预测对实时流量的异常检测技术方案使用回归模型按天预测流量变化趋势使用分类模型对实时流量做异常检测01如何使用机器学习的方法明确问题:处理数据:我们要解决什么样的问题解决问题可能需要哪些数据我们可以获取哪些数据流量预测/异常检测历史时刻对应的流量数据清洗特征工程数据标记清洗接口异常数据统计判别结合无监督学习标记数据训练模型:选择模型训练模型验证模型离线训练模型交叉验证模型表现使用模型:线上加载定期修正BadCase分析修正模型01流量预测及异常检测的技术框架原始数据有标记样本库分类模型输出模型实时数据特征工程加载分类模型输出标记离线模块在线模块特征工程回归模型预测流量01训练集样本的标记原始数据有监督分类模型统计方法及无监督算法有标记样本库标记Top N为异常分类模型实时判断异常人工修正确认告警和异常3-sigemaTukeys testIsolation ForestOne Class SVM投票 2负样本投票=0正样本训练样本库分类器有标记样本库标记Top N无监督分类模型01智能故障根因分析基于告警信息提取监控分层系统层:资源使用率(CPU、内存)监控应用层:端口、进程监控业务层(页面、接口)网络层、服务器层:网络设备硬件监控告警信息按层合并,异常发生时由上至下逐层获取告警信息,提取根因;优点:解释性好,结果可靠缺点:非常依赖监控的完备性 01智能故障根因分析可视化视图异常辅助排查页面展示:异常告警事件,部署上线事件发现告警之间的关联,便于确定故障根因01智能故障根因分析调用链信息不完备智能监控概述关键指标的智能监控智能故障自愈智能告警合并智能根因分析智能故障预警01智能故障自愈故障自愈的策略出现故障先不告警,自动执行预定义的一系列处理步骤,尝试自动处理故障如果故障自愈成功,那么无需发送告警如果故障自愈失败,按照预定义的方式发告警在合适的时间,将近期故障自愈的执行结果汇总后通知用户01统计判别方法3-sigemal解释性好l计算开销小l更适用于正态分布,无法处理复杂情况正态分布01统计判别方法Tukeys test l不受异常值的影响l能够准确稳定地描绘出数据的离散分布情况l过于敏感,不够智能=+1.5 ()=1.5 ()Tukeys test01无监督算法Isolation Forest l使用集成方法的无监督算法l计算开销小,训练速度快l异常点更加靠近树的根部,而正常数据多处于树中更深的节点01无监督算法One Class SVM l利用支持向量域描述的思想,寻找分离超平面;l适用于连续数据的异常检测l适用于筛选一定比例的样本01流量预测整体规律性较强历史同期流量统计特征历史同期流量变化趋势移动平均特征历史特征:流量数据特点:短期小幅波动较多移动平均吸收短期波动工作日,周末,假期影响较大设计对应的历史特征提取规则流量趋势可预测01流量预测的效果根据历史数据预测明天的数据01异常检测构建合适的对比样本库,提取特征用于对比当日前n分钟流量数据昨日同时刻前后n分钟流量数据上周同时刻前后n分钟流量数据对比样本库对比样本库统计特征:均值中位数标准差最大值最小值偏度峰度样本对比特征:差值比值同比环比异常时流量一定有反常的波动异常发生频率较低统计判别结合无监督算法解决样本初始无标记问题01有监督算法LightGBMl基于梯度提升树(GBDT)原理l采用直方图算法,训练速度快,准确率高,可处理大规模数据l支持类别特征01异常检测的效果基于数据异常程度将异常分为:普通异常、严重异常、陡变异常01异常分级普通异常普通异常:数据与预期有一些短期的小的偏差,可能是与少量的用户突发访问或爬虫抓取引起的能发现短暂的流量异常,比较灵敏,通过连续n次异常才告警的策略过滤掉毛刺识别算法:机器学习算法判别01异常分级严重异常严重异常:数据长时间出现了较大的偏离,需要排查数据变化的原因可能是由于网络故障、系统故障或流量推广活动等引起较大的数据变化识别算法:机器学习算法+历史同期数据统计判别01异常分级严重异常基于历史统计特征对比基于用户反馈调节阈值结合机器学习算法确认异常01异常分级陡变异常陡变异常:流量突然出现断崖式的增长或者下跌可能是受突发的网络流量攻击,或者系统出现严重问题,需要立刻高优先级排查和解决识别算法:机器学习算法+均值比值阈值校验01异常分级陡变异常多点平滑,去除一般毛刺最大/最小值去除,避免个别极端值影响结合机器学习算法确认异常01异常检测模型的普适性模型在时间序列异常检测问题上表现出较好的普适性适用于不同数量级的数据;适用于不同变化规律的数据;适用于不同业务的数据;01流量预测模型的个性化网络流量预测-业务集群访问量预测(使用多个模型进行预测)智能监控概述关键指标的智能监控智能告警合并智能根因分析智能故障自愈智能故障预警01智能故障告警实现的基础对告警的需求告警收敛精准告警告警发送策略告警分级:邮件-微信-短信-语音连续m次异常则告警/在m分钟时间段内有n次异常则告警告警间隔5分钟,最多告警n次30分钟后未处理则升级,1天后未处理则提醒告警升级后使用升级后的告警级别和接收人01智能告警合并合并时间窗口1分钟(可自定义)合并策略根据集群合并根据IP合并根据网段合并根据异常种类合并根据宿主机与虚拟机的关系合并合并收益避免海量告警轰炸快速掌握故障情况辅助决策故障根因01智能告警合并维度选择类比决策树算法,基于基尼值最小化自动选择告警合并维度;基尼值01智能告警合并维度选择集群=58tongcheng 异常信息=页面关键字异常 合并条数=16集群=58tongcheng 异常信息=页面状态码非200 合并条数=16集群=58tongcheng 异常信息=页面连接错误 合并条数=14集群=ganji 异常信息=页面连接错误 合并条数=2集群=anjuke 服务器ip =192.168.40.82 合并条数=201智能告警合并维度选择集群=?异常信息=?ganji合并条数=16合并条数=14合并条数=16合并条数=258tongchenganjuke页面连接错误页面连接错误页面状态码非200异常信息=?服务器ip=?合并条数=2页面关键字异常192.168.40.821.遍历全部备选维度,确认当前合并维度;2.基于合并维度划分数据集,继续选择合并维度;3.到达停止条件后停止;智能监控概述关键指标的智能监控智能根因分析智能告警合并智能故障自愈智能故障预警01智能根因分析应用场景周期变化业务指标突变的根因分析网络出口流量突变网络出口流量与业务集群访问量突变多业务集群访问量突变多层监控根因分析服务器层(宕机)、系统层(资源使用率)、服务层(端口、进程存活)、应用层(页面、接口)、业务层(集群访问量)基于调用链的根因分析Nginx与业务集群业务集群之间的调用业务集群与存储服务的调用01智能故障根因分析基于数据相关性分析业务流量异常根因分析:异常发生时,基于流量/访问量曲线相关性定位异常根因01智能故障根因分析多业务网络流量的相关性分析左图为某业务流量总端;右图为其对应的app、m、pc分端;总端流量异常下跌时,基于流量曲线相关性确定根因是app端流量下跌;01智能故障根因分析某业务流量与集群访问量的相关性分析左图为某业务流量;右图为其对应的集群访问量;同时段出现异常的集群访问量与业务流量相关性明显高于正常集群;01智能故障根因分析基于告警信息提取监控分层系统层:资源使用率(CPU、内存)监控应用层:端口、进程监控业务层(页面、接口)网络层、服务器层:网络设备硬件监控告警信息按层合并,异常发生时由上至下逐层获取告警信息,提取根因;优点:解释性好,结果可靠缺点:非常依赖监控的完备性 01智能故障根因分析可视化视图异常辅助排查页面展示:异常告警事件,部署上线事件发现告警之间的关联,便于确定故障根因01智能故障根因分析调用链信息不完备智能监控概述关键指标的智能监控智能故障自愈智能告警合并智能根因分析智能故障预警01智能故障自愈故障自愈的策略出现故障先不告警,自动执行预定义的一系列处理步骤,尝试自动处理故障如果故障自愈成功,那么无需发送告警如果故障自愈失败,按照预定义的方式发告警在合适的时间,将近期故障自愈的执行结果汇总后通知用户01智能故障自愈执行简单命令磁盘空间不足自动处理:删除预定义目录的文件服务挂掉自动拉起:执行重启服务的命令调用相关系统服务器宕机自动处理:自动恢复;自动分配备机、部署服务、切流量负载升高自动扩容:调用部署系统和云平台流量自动调度:操作DNS、四层和七层负载均衡服务进行流量切换智能监控概述关键指标的智能监控智能故障预警智能告警合并智能根因分析智能故障自愈01智能故障预警智能故障预警场景:接口、页面监控,业务集群访问错误率监控通过集群整体服务指标监控做故障告警通过对集群中单机服务指标监控做预警智能容量预警根据集群中异常服务器比例评估容量风险根据流量变化风险评估容量风险发现容量处于瓶颈的系统,自动给出扩容建议智能硬件预警基于硬件性能指标评估硬件损坏风险

    注意事项

    本文(大数据云平台智能运营解决方案课件.pptx)为本站会员(飞****2)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开