网络流量应用性能分析故障定位分析项目.pdf
《网络流量应用性能分析故障定位分析项目.pdf》由会员分享,可在线阅读,更多相关《网络流量应用性能分析故障定位分析项目.pdf(48页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 XX 省农信社 基于产品的网络流量、应用性能分析、故障定位分析项目测试报告 2020 年 7 月 16 日 目录 1 概述 随着大量新兴技术和业务趋势的推动,用户的网络架构、业务系统和数据流量日趋庞大、复杂。为了保证网络和业务系统运行的稳定和畅通,我们需要对网络及业务系统进行全方位监测,以确保网络及应用系统可以正常、持续地运行。应用性能管理是一个新兴的市场,其解决方案通过监控应用系统的性能、用户感知,在应用出现异常故障时,帮助用户快速的定位和解决故障,其标准的需求如下:通过网络流量分析工具,掌握各级网络运行的趋势和规律,主动、科学地进行网络规划和策略调整,将网络管理的模式从被动变为主动:通过
2、网络流量分析工具,实时监控网络中出现的非法流量,及时采取管控措施,保障应用系统的安全运行;应用系统出现问题(如运行缓慢或意外中断时,)通过网络流量分析工具可回溯历史网络流量,快速找出问题的根本原因并及时解决。网络拥堵时,通过网络流量分析工具快速判断是正常应用系统占用了带宽还是异常流量占用了带宽,立即执行相应、有效的控制措施。从最终用户感知的角度,提供多维度的应用性能监控,实时掌握应用系统的性能状况;724 小时实时监控各区域用户的真实使用体验,及时发现用户体验下降,并及时作出相应的处理,提升用户满意度。当故障发生时,快速定位故障域,缩短故障分析时间,降低故障对最终用户造成的影响,提高系统的运维
3、质量。年 APM 市场全球分析报告与魔力象限分析,Riverbed(OPNET)公司已经成为全球这个领域的领导者。OPNET 公司的客户群体非常广泛,国内的用户包括中国移动、中国网通、中国电信、信息产业部电信规划研究院,中国农业银行总行,民生银行,新华人寿,中国海关总署,银河证券,国信证券,电信设备供应商中包括华为、大唐电信、摩托罗拉、中兴电子及西门子等。2 测试方案 OPNET网络应用性能监控设备,及 OPNET 应用性能深度分析,提供了业界最优秀的最终用户体验监控与预警、应用 SLA 监控与违反预警、应用性能瓶颈定位、应用性能问题根源分析、未知/异常流量发现、流量成分分析、流量流向分析、及
4、应用预部署仿真系统。XX 省农信社的应用服务器目前主要部署在核心机房,大致分为 3 个区域,生产区域、广域网区域、网银区域。当应用出现问题或柜面用户出现无法使用业务系统时很难快速确定问题出现在网络问题、服务器问题还是应用本身问题。为了能够快速了解客户端运行业务的性能问题的变化状况,快速了解应用可能出现的问题区域,建议分别在 XX 省农信社生产区域、广域网区域、网银区域的核心交换机上通过端口镜像的方式将流量监控起来,当出现应用性能问题时能够通过关联分析了解整个应用流程的性能变化状况和快速提取出现性能问题时的故障现场,快速了解出现网络异常和网络性能问题的原因,快速确定故障域。同时快速了解 XX 省
5、农信社整个交易的性能状况,及时发现可能存在的问题,预警可能出现的性能问题,主动进行交易系统的应用性能管理,避免不必要的用户投诉。当用户出现应用投诉时,能够及时利用这套监控方法重现用户投诉时的故障现场,及时发现出现用户投诉时的客户的访问行为,分析并确认客户投诉的根本原因,提升客户满意度和交易系统的应用性能。根据 XX 省农信社的要求,本次 Opnet 提供的测试设备为 ARX3700,ARX3700 监控采用非侵入式的监控方式,通过交换机端口镜像的方式在网络上进行流量采集实现端到端的应用性能分析和故障定位。并通过 ATX 深度分析确认出现故障原因的根本原因-如客户端、网络、服务器还是服务器上的页
6、面处理慢、应用交互次数多等。ARX/ATX 提供了业界最优秀的最终用户体验监控与预警、应用等级 SLA 监控、SLA 违反预警、应用性能瓶颈定位、应用性能问题根源分析、未知/异常流量发现、流量成分分析、流量流向分析、及应用预部署仿真系统,保障银行各项关键业务的运行通畅。根据要求,测试要求达到下列目标:对于不同的业务交易提供实时的业务流量和业务性能变化的状况,快速了解是否已经出现应用性能瓶颈.提供业务系统整个流程流量原始裸数据包保存,能够保证快速提取相关问题的原始数据包。对于 WEB 业务交易的性能变化状况和业务交易性能提供统计报告,包括交易的交易量,交易的响应时间,交易的 4xx 错误,交易
7、5xx 错误,慢的交易数量及页面的大小等参数,了解整个业务的交易情况.设置主动运维的报警,自动报警出现交易性能问题的交易,自动保存故障前 5 分钟的数据,方便运维人员及时提取相关的报警数据,回放故障现场的数据,确定故障的原因.针对投诉的客户能够重现客户当时访问的交易并提取客户投诉时间段的原始数据,根据原始数据进行客户投诉现场的分析确定客户投诉的原因.利用 RTCC-响应时间组成图,快速确认响应时间延迟发生的部位,提供依据,对根本原因进行排查;提供自动化端到端诊断,包括瓶颈的发现、解决或优化建议;SLA 服务质量-利用 SLA 服务水平,掌握各个不同的区域客户的运行状况,随时能够了解不同区域的用
8、户的网络质量的变化和业务质量的变化状况,对随时出现故障的影响区域,进行有效的主动管理和故障分析及定位.网络整体服务质量-利用 Network performance 仪表板查看网络性能监控,查看网络上的延迟和重传,保证业务健康运行.网络上应用的分布状况及服务质量-了解整个系统应用流量和性能的变化趋势,了解整个系统的日常基准,随时自动追踪流量和性能变化,报警可能出现的网络攻击和异常的变化,主动进行分析和解决出现的异常,按天、周及月等时间跨度进行流量统计.服务器的服务质量-利用 Slow Server-IP 仪表板查看性能差的服务器(交易处理较慢的服务器 IP 地址)。自动记录不同业务组中的服务器
9、对外提供的服务质量,快速定位出现应用性能问题的服务器,及时解决问题,保证正常的业务服务。如果出现用户投诉的现象,利用分析软件确定相应时间慢的瓶颈,确定优化的步骤和措施.网络异常攻击和蠕虫防病毒监控-利用Worm hunt仪表板(发现三次握手失败的连接),自动记录出现网络连接失败次数高的应用和通讯对。了解网络上连接数的变化状况,避免由于网络攻击造成的对业务的影响,快速定位攻击的来源和对象,避免业务损失.网络线路延迟监控-利用 High Network Latency-IP 仪表板(延迟比较长的 IP),自动统计业务组的网络延迟,网络延迟最大的组为 Internet,延迟最大的网络区域和 IP,查
10、找延迟大的原因,发现潜在的网络延迟区域,发现潜在的网络拥塞,主动进行相关的网络故障分析和故障排除,保证网络正常运行.网络丢包率监控-利用 High Packet Loss-IP 仪表板(丢包较高的组别),可以看到各个子网的丢包变化状况。查看网络上丢包状况,及时定位丢包率高的网络,修复出现的网络故障,保证业务健康运行.内置智能告警-利用内置的智能告警,自动识别异常告警和用户自定义的阀值,发现网络上出现异常的现象,主动进行网络上的故障分析和故障定位.事件驱动的数据采集和保存-利用 Rolling Buffer 和事件驱动的网络全包数据采集能力,记录全部的数据全包和事件驱动的全包数据采集保存,方便客
11、户进行事后的故障现场分析和故障定位.3 Opnet 测试情况汇总 根据 XX 省农信社应用的特点及实际情况,分别在生产区域、广域网区域、网银区域依次部署 ARX3700 设备。根据用户的要求,尽量不影响现有的应用和服务器性能状况,采用无代理监控的方式进行日常应用性能的监控。ARX3700 设备采用非侵入式、全透明的监控方式,是透过本身的监控端口,收集从核心交换机镜像的流量来实现,不需要在任何服务器安装代理服务。此外,ARX3700 设备配置一个 10/100/1000 电口,作为远程管理、登录监控界面时使用,并能实现带外管理。因此,设备对网络不造成任何影响与干扰,安装时不中断网络,不对任何网络
12、设备造成压力,也不造成任何延时,对网络及业务零影响,能够在一般的机房环境中正常执行监控工作。ARX3700 设备本身带有 4 个监控端口,当镜像的端口数量超过 4 个时可以采用流量聚合设备进行流量的合并,然后将合并后的流量接到流量监控设备上进行相关数据的分析和故障定位.。监控设备的接入方式采用端口镜像的方式实现,镜像是由交换机的背板(backplane)进行。因此,镜像完全不影响源镜像口所在的板卡,不影响目的镜像口所在的板卡,也不对有关的板卡造成额外压力或延时。因为镜像是在背板进行,背板速度一般在 100Gbps 以上,因此,对设备本身的影响微不足道.3.1 生产区域 3.1.1 网络质量监控
13、 3.1.1.1 网络总体性能监控 查看网络上总体性能的变化状况,了解各个部门的网络占用状况和应用性能的变化状况,制定合理的网络升级计划,保证业务健康运行。设备安装上架并配置完成后,即可从 ARX 的监控界面中查看整体网络流量状态,可监控的参数包括包括吞吐量、RTT、丢包(入站、出站)、TCP 数等指标。如图发现 9:00-10:00 之间有较高的吞吐量,选中进行分析。双击打开详细信息,深入分析得出,该时间段内吞吐量达到 3.1.1.2 网络连接数监控 了解网络上连接数的变化状况,避免网络攻击,快速定位攻击的来源和对象,避免业务损失。在 ARX 的管理界面中,可查看网络流量中的 TCP 连接状
14、态,可 TOP 显示出连接数最频繁的 ip 通信对及通信端口、协议等信息。利用 Worm hunt 仪表板(发现三次握手失败的连接),自动记录出现网络连接失败次数高的应用和通讯对。3.1.1.3 网络性能监控 查看网络上的延迟和重传,保证业务健康运行。ARX 的管理界面,可实时展示出,网络流量中,延迟最高的 IP 通信对,及应用的名称。登录 ARX 的 Console 管理界面,利用Network?performance 仪表板(识别关于某个应用、组、IP 等在 ARX 部署位置两边的网络延迟和重传)可以看到各个子网的网络性能变化状况。利用 RTT 时间可以看到网络的服务质量的变化。3.1.1
15、.4 网络带宽占用监控 了解网络上应用带宽的占用状况,合理分配网络资源,避免不必要的资源浪费,保证业务健康运行。通过 ARX 的管理界面,实时展示出网络中,产生流量最大的 IP 通信对及使用的协议、端口信息。登录 ARX 的 Console 管理界面,利用 Bandwith hogs-ip 仪表板(流量比较多的主机),自动记录流量大应用和流量大的通讯对。3.1.2 应用服务质量监控 3.1.2.1 用户体验时间监控功能 了解系统一周内的变化状况,根据不同的交易时间设置交易响应时间的报警,获取交易故障时间的故障数据,便于事后的故障分析和故障定位,进行主动的事件管理和故障分析及故障解决。对较为重要
16、/频繁的应用进行定义。定义完成后,即可在 ARX 的管理界面中,查看用户访问应用的性能状态。登录 ARX 的 Console 管理界面,查看 RCTT 交易响应时间组成图,可以看到不同交易的响应时间分布状况。3.1.2.1.1 信管响应时间 在应用表格中选择信管业务,然后点击 RTCC图标,产生信管业务的响应时间构成图。3.1.2.1.2 财管响应时间 在应用表格中选择财管业务,然后点击 RTCC图标,产生财管业务的响应时间构成图。3.1.2.2 服务器响应时间监控 查看网络上响应时间慢的服务器,主动进行服务器故障的定位和排差,保证服务器提供正常的业务。对服务器区的服务器进行定义后,即可在 A
17、RX 的管理界面中,实时展示各服务器的响应性能状态。利用 Slow server-ip 仪表板(交易处理较慢的服务器 IP 地址),自动记录不同业务组中的服务器对外提供的服务质量,快速定位出现应用性能问题的服务器,及时解决问题保证正常的业务服务。3.1.2.3 应用性能监控 掌握网络上运行应用的变化状况,制定合理的网络应用服务质量,主动进行应用性能管理,避免不必要的客户投诉。3.1.2.3.1 关键业务-信管 3.1.2.3.2 关键业务-财管 3.1.2.3.3 网站性能分析 利用 Web Transaction Dashboard 仪表板,自动统计流量大的前几个 Web 应用的性能状况,了
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网络流量 应用 性能 分析 故障 定位 项目
限制150内