酒钢数据中心智能运维管理系统平台建设零固项目采购技术协议.docx
-
资源ID:95093034
资源大小:62.09KB
全文页数:23页
- 资源格式: DOCX
下载积分:15金币
快捷下载
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
酒钢数据中心智能运维管理系统平台建设零固项目采购技术协议.docx
酒钢数据中心智能运维管理系统平台建设零固项目采购技术协议甲方:酒泉钢铁(集团)有限责任公司信息自动化分公司代表(签字盖章):乙方:XXX代表(签字盖章):监控内容包括但不限于:国提供对所支持数据库数据的采集。团提供对所支持数据库的状态和性能告警,如缓存命中率,表空间利用率, 查询的速率、数据库状态等。国支持对所支持数据库的运行情况、服务提供情况、性能情况进行实时监控。 主要包括数据库实例基本信息、连接信息、Sga/Pga区配置、锁、缓冲区命中率、 联机日志、表空间&数据库文件、回滚段、Schema Objects等。各运行指标同时 提供历史性能的中长期趋势挖掘分析。团支持对数据库实时性能监控,支持配置信息列表展示。支持数据库性能信 息列表展示,如缓存命中率,表空间利用率,SQL语句执行时长、数据库状态、 锁、会话数等。团支持对历史数据库数据进行统计,综合评估数据库在一段时间内的运行趋 势。回监控信息包括监视器信息、内存使用、数据库页使用、连接统计、缓存统 计、闭锁统计信息、访问方法明细、等待任务、数据库连接数、按时间排序TOP1O、 按逻辑读排序TOP1O、按物理排序TOP1O、按CPU统计TPO1O等。3. 1.6中间件监控要求运维监控平台要求对各类应用服务器、Web服务器等中间件,可检测应用服 务器的会话性能、虚拟机内存、线程池、事务状态、JMS,队列、负载度量、运行 模式等,可检测Web服务器的可用性、响应时间、访问性能统计、页面传输性能、 当前状态、告警日志等。支持的中间件包括:应用服务器包括:. Net、JBoss、Tomcat、WebLogic> WebSphere、GIassFish> Lync2013> TongWeb 等。Web服务器包括:Apache>独由*、1代等。消息队列中间件包括:RabbitMQ、TongLINK/Q、Tuxedo、WebSphere MQ 等。邮件服务器包括:Exchange2010等。监控的各类中间件指标明细会根据版本发布定时更新,也可以在帮助中了解 监控指标的详细信息。监控内容包括但不限于:队列、通道、会话、WEB应用、线程池、连接池、线程、JVM信息、JMS消 息等。团基本属性监控:如中间件类型、版本、驻留服务器,支持应用模型中应用 支撑关系的发现和定制。团运行状态监控:监控中间件运行状态、WEB应用状态、进程状态及主要消 息的状态,及时识别异常情况并给予告警提示。回主要性能指标监控,支持关键指标的动态阀值管理。回监控中间件连接池的情况:连接池的状态、连接池名称、当前使用的连接 数量、等待池中连接的最大客户数、丢失的连接数、连接池最大连接数。团监控J2EE各部件(如JSP、Servlet. Java Bean、EJB)的性能和资源消 耗情况,包括Servlet、Java Bean> EJB中每个部件的平均执行时间、提交的交 易请求情况等。0EJBs Servlet的多种统计数据,包括被分配的Beans、在使用的Beans、 空闲的Beans、超时的Beans数、等待的Beans、Serv I et响应时间;TOPN Serv I et 和JSP的详细信息;TOPN EJB的详细信息;TOPN EJB方法的详细信息。团监控中间件JMS情况:JMS的连接总数、川S当前的连接总数、JMS的最高 连接数、JMS Server总数、当前JMS Server总数、JMS Server历史中最高总数、 JMS Sess ion的总数、当前的JMS Sess ion数、最高的JMS Sess ion数、已接收 的JMS消息数、未处理的JMS消息数、JMS发送的消息数。团监控JMX的运行情况。团监控中间件执行队列的情况:执行线程的总数、当前空闲的执行线程数、 队列中未处理的请求数、队列已经处理的请求数。回监控中间件WEB应用:当前打开的Session数、打开的Session最高数、 打开的Session的总数、状态、名称。0JVM: JVM堆栈大小、JVM堆栈利用率等。团可以对过去任意时间段内的中间件运行状况进行查询和分析,实现对 Weblogic、Websphere等中间件的JVM内存堆使用情况、Servlet执行情况、JMS 消息处理情况、WEB应用会话情况、Weblogic事务处理情况、JDBC连接池等内 容进行集中监控管理。团支持监控应用中间件服务器的Java进程的内存占用情况和垃圾回收情 况,包括 Java heap、Java thread、Java stack、GC 等监控。团支持中间件服务器上所部署的应用(功能模块)的运行状态的监控,能及 时发现状态异常的情况。团支持监测中间件服务器队列中消息数量的监控,尤其是队列中Pending消 息数超过一定数量时,代表应用系统的运行性能已经严重下降。并且支持对 pending消息数量设置阀值,实现性能预警功能。3. 1.7容器监控要求运维监控平台要求通过多种方式对容器以及容器平台进行监控,可对 Kubernetes容器平台集群、节点以及POD的基本信息以及状态进行监控,可通 过命令行或者RESTful接口调用的方式对Docker容器进行监控,满足客户实际 的需求。包括容器基本信息、磁盘信息、镜像信息以及使用的资源信息、性能信 息、告警日志等。监控内容包括但不限于:包容器CPU使用率团容器用户态CPU使用率团容器内核态CPU使用率团容器内存使用量团容器网络发送速率团容器网络接收速率团容器磁盘读速率回容器磁盘写速率回容器运行状态团容器日志3. 1.8自定义监控要求运维监控平台要求支持自定义监控模板,包括采集的具体指标、采集间隔、 阈值、告警级别、触发次数,实现灵活高效的个性化监控需求。运维人员可以通过图形化配置界面,通过SHELL、SMI-S、SNMP协议对监控 系统预置资源类型的监控指标进行扩展、新增未适配的资源对象:运维人员可以通过Linux/Unix下的shel I脚本采集自定义指标。自定义采 集输入参数、资源图标、访问参数,使用Perl脚本扩展shell能力,支持密码、 密码+super密码、密码+秘钥、秘钥等各种SSH认证配置。运维人员可以编辑系统预置监控概览视图,设计全新监控概览视图,实现对 重点关注的监控指标重点展示。自定义支持包括:支持画布拖拉拽,所见即所得,多种布局方式;支持字体样式、大小、颜色自定义支持柱状图、趋势图、面积图、饼图、南丁格尔饼图等多种图表样式自定义;支持指标筛选、指标排序、TOPno3. 2告警管理功能运维监控平台要求具备告警中心功能,告警中心可以接收各类告警源的告警 事件,包括设备告警、资源性能监视告警、网络流量异常监视告警、日志告警等; 同时通过支持对设备以及资源的定时轮询,实现通断告警、可用性告警、性能阈 值、配置变更告警等。设备告警包括电源电压、设备温度、风扇等告警事件,设备冷启动、热启动、 接口 Down等重要告警事件,路由信息事件(OSPF, BGP)变化,热备份路由(HSRP) 状态变化等告警事件,支持对H3C、CISCO,华为等多厂商设备告警的识别和解 析。资源性能监视包括CPU利用率,内存使用率,以及RMON告警的故障管理。支持定期轮询告警,通过对设备性能、接口、链路、操作系统、数据库、中 间件等各类应用等运行状态和性能定时进行轮循,并及时上报通断告警、响应时 间告警等告警事件。支持多种提醒方式,如告警实时提醒(告警板)、告警提示音、微信告警, 短信告警等,可支持定制开发同即时通讯软件进行对接。运维监控平台要求提供多种进程告警规则设置;通过各种规则的设置支持进 程重启、进程消失、进程数量减少等多种告警,同时支持自定义别名功能,通过 设置与应用相关的别名,告警产生时“告警信息”将自动关联进程别名,从而协 助运维人员及时发现以及定位到问题,提升运维效率;同时通过对远程端口、被 连接端口、监听端口的全方位监控,及时发现端口通断异常,确保应用的正常运 行。3. 3流程管理功能运维监控平台要求具备流程管理功能,流程管理为用户提供重要信息预览的页面,帮助运维流程系统用户快速了解工作相关信息。用户登录管理平台首页,该页面缺省显示与当前登录用户相关的个人信息, 包括任务信息、待办事项、已办事项、公告和我的消息等内容。待办事项可以直 接点击处理,公告信息可以点击查看。提供灵活表单设计器,支持自由布局页面结构,支持用户自定义个人首页展 示内容,支持组件拖拽式布局,快熟搭建和部署基于企业应用需要的表单内容。自定义表单结构和数据格式,提供丰富的表单设计组件,如单行文本、多行 文本、复选框、单选框、树、日期、数字、人员组件、配置项查看、配置项修改、 配置项删除等;流程平台提供图形化流程设计器,支持自定义流程定义设计,通过可视化的 流程设计器,快速实现流程的在线设计及发布管理。主要涉及应用的流程执行步 骤信息,包含开始、流程流转过程中每个环节的执行内容(活动任务)、网关关 系、子流程和结束。3.4应用系统服务管理功能运维监控平台要求具备应用系统运行总览的功能,通过应用系统数据窗、应 用系统监视列表等形式,方便快速查看应用系统整体运行情况,运维人员能够对 所有应用系统进行建模、设置,并可以初步判断应用故障点。平台可通过360度应用视图的形式对单个应用进行详细分析,分析按IT基 础架构层、应用应用层、用户体验层3个层次进行运行状态监控与分析,并通过 把3个层次数据拉通进行端到端智能分析,帮助运维人员完成对某个应用故障发 现、故障定位分析、故障预防相关工作。应用系统数据窗通过应用状态分布图直观呈现应用系统健康度、繁忙度分布 运行情况,三位一体核心应用卡片实时展示各个应用系统当前的用户体验层状 态、应用程序运行状态、IT基础架构层运行状态。应用体验层指标包括:体验度、访问量、用户量;应用程序层指标包括:应用性能指数、平均响应时间、错误率;IT架构层指标包括:健康状态、繁忙程度、可用状态。为IT管理者提供综合运维管理的总体视图,可以全面整体了解应用系统运 行情况。运维监控平台能够对应用系统相关的告警进行趋势分析、时序分析,分层次 查看告警详情、告警可以和应用拓扑联动,查看告警和其他的关联影响关系。运维监控平台能够分层次对应用体验指标、应用性能指标、IT基础架构状 态指标进行同时间轴分析,找到引起应用总分降低的关键指标;可以对异常指标 下钻分析,找出具体KPI。运维监控平台能够关联分析应用性能、应用告警、IT资源配置管理数据变 更、IT服务管理工单数据,帮助用户分析变更和应用系统性能变化之间的关系。3. 5资源配置管理功能运维监控平台要求具备资源配置管理功能,资源配置管理功能可基于集团公 司目前的IT运维成熟度,进行针对性的IT成熟度评估,对当前环境中的物理资 源和逻辑资源进行梳理,构建结构成熟、信息可消费的CMDB (配置管理数据库)。 通过CMDB融合完成网络、主机、应用部分数据的自动化收集,通过人工处理和 功能对接等工作完成其他系统信息的统一管理。通过收集多种来源资源信息与整 合,建设集中、完整、统一、实时的资源管理数据库;记录、存储资源的应用系 统信息、关联信息、软硬件基本信息、维护信息;为事件管理、问题管理、变更 管理提供查询、诊断的基础;同时也为IT资产管理提供记录、查询、汇总、统 计、分析基础。3.6 自动化管理功能运维监控平台要求具备自动化管理功能,自动化管理功能具备智能巡检功 能,可根据用户灵活定制的各种应用运行指标,对应用进行全面运行状态自动化 检测分析,深度感知应用基础架构运行状态。同时,实时输出准确、详实的分析 报告及改进建议,预防应用运行中可能出现的各种风险,发现应用潜在的性能瓶 颈,为用户应用提供专业、深入、智能的管家式服务。3.7 报表管理功能运维监控平台要求具备报表管理功能,报表管理功能应实现对报表模板管 理、周期性报表管理和报表模板的发布,同时提供实时报表和周期性报表的查看。提供基于实时监控指标的巡检报表,对设备的状态全面检测,深度感知设备 运行状态,对于异常项高亮展示。统计时间、统计时段可自定义。统计页面内容可自定义配置,支持按照权限生成不同的管理报表,并按角色 分配报表查看人员;周期性报表机制:支持天报表、周报表、月报表、季度报表、半年报表、年 报表。可以设定周期性报表的开始时间、失效时间。可以将自身的组织名称和 Logo融入到发布的报表中,可以定时生成后Email到指定邮箱。支持报表导出,导出格式可支持Microsoft式rd (RTF) > Microsoft Exce I > PDF、 XML、 CSV、 DOCX、 PPTX 等;提供定制化开发功能,根据用户实际报表需求和设计进行定制化开发。3. 8知识库管理功能运维监控平台要求具备知识库管理功能,知识库管理功能能够规范知识库条 目的支持知识入库、审核、发布的生命周期。包括:支持知识入库、审批、更新、废止的生命周期管理,支持知识有效期管理。支持知识核心内容图文编辑,支持知识分类检索和关键词全文检索方式。支持对知识访问进行权限控制,将知识授权给所有人员、部分具体的人员和 群组。支持事件、问题管理与知识库的关联。支持最新知识、推荐知识、最佳知识的推荐。支持将知识共享给其他人员,被共享的人员可以在“推荐知识”栏目中查看 被共享的知识。支持用户订阅自己关注的知识类型,并在“关注知识”中查看订阅类型的相 关知识。支持提供知识汇总、知识好评数、知识引用次数的排行。支持对知识分类进行权限控制,设置某个知识分类的查看权限,授权方式支 持按工作组、组织机构和个人。3.9 大屏展示功能运维监控平台要求具备大屏展示功能,按照指标化要求进行设计配置,要求 提供1个以上定制大屏页面首页(首页下包含多级下钻页面)的定制开发服务, 按需定制URL页面分辨率、展示功能模块内容、展示信息、展示UI风格等,实 现用户的个性化集中展示需求。3.10 系统用户权限功能运维监控平台要求具备严格及丰富的权限控制功能,支持功能授权和数据授 权。通过资源和人员的归属机构映射,自动过滤数据和以树型结构的层次展示, 以满足多层级组织结构的集中统一运维要求。通过人员所属机构与资源所属机构关联,以做到每个机构的人员内只能处理 相应机构的资源对象。在每个机构内,通过对资源进行分组,以做到同一机构内 不同人员管理不同的资源对象。通过功能权限和数据权限组合,即可实现分级分权管理。如需进行更加细化 的权限划分,用户可按需自定义。通过将平台的功能菜单及操作按钮进行组合,以形成不同的权限。不同的权 限包又可以组合为不同的角色。将不同的角色与不同的账户关联,即可控制不同 人员操作不同的菜单及功能项。3.11 APP 功能运维监控平台要求提供移动APP,查看平台告警、性能、资源等运行数据。支持运维人员及业务人员通过移动端创建工单、处理待办、查看已办、知识 库和公告;支持与第三方app进行嵌入集成;在移动端能够处理哪些流程可以在 后台进行配置;支持同一流程节点在移动端和web端使用不同的表单页面,移动 端的表单界面展示字段可以在后台进行配置,灵活调整。3.12 其他功能运维监控平台要求具备系统(设备)运行故障处置记录功能,包括系统(设 备)运行故障处置记录的新增、编辑、删除、查询、分析报告导入、运行故障处 置记录节点跟踪维护等功能。3.13 功能或点数授权要求3.13.1 运维监控平台如按功能授权的,本协议要求的所有功能在酒钢集团 公司范围内使用不受限制,可以接入酒钢集团公司范围内所有的机房、网络、计 算、存储、虚拟化、容器、云资源、操作系统、数据库、中间件等软硬件设备。3.13.2 运维监控平台如按点数授权的,点数应满足本协议建设内容的要求, 并承诺后续接入点数授权费用不能高于本次采购费用。四、运维监控平台技术要求为了满足系统功能的正常使用,避免系统在高负荷运转时出错与故障,系统 在技术性能方面也必须具备以下要求:4.1架构要求(1)为保证系统高可用性,运维监控平台以集群方式最少3节点部署运行, 任何1个节点故障不能影响平台运行,且必须基于Linux虚拟化微服务架构,容 器底座,具有良好的扩容兼容性,当系统资源不足时,可增加主机节点到集群中, 系统将迁移部分容器或服务到新的主机节点,完成扩容,参考网络架构图如下。2023年 月曰集群节点1集群节点2集群节点3(2)运维监控平台架构设计方面,分为展示层、应用层、处理层、运行层、 采集层、资源层,或在此基础上拆分出更细化的架构设计,参考模型示意图如下。展示层售理员视图杳百员视图租户视图统一运维门户桌面Portal移动APP场景化定制Javascript、Css% Vue、SpringBoot业务层处理层运行层小仙kh川皿I杯TM巾丽I加我it9查词MySQLOnentDBSpringCloudActivitiH3 hnuxKubernetesMatrix分布Agent /机房动阵采集I 硬件没雷采集 I无线终不寐集I 应用性院采簸 虚拟化寐集I育器不莱I大数堀采集I 云采集 I第三方采集InfluxDBKafkazookeeperSNMP/SSH/Telnet/FTP/sFTP/WMI/IPMI/NetConf/NetFlow/NetStream/JDBC/Restful/Soap/SDK/JMX/Socket/SMI-S资源层 M g。崛es回星“:* w型肉& t机唐 动环网电设备服务器 存储设备安全设备秘 卷送OS 数旗座中间件 应用 点拟机 容器大数春 云(3)运维监控平台架构具有充分的开放性,能够实现与第三方系统对接。(4)运维监控平台架构具有“热插拔”能力,以便在启停某一应用模块的 时候不会影响其它应用模块的正常运行。(5)运维监控平台系统的总体架构要具有科学性、安全性和可扩展性,系 统建设应根据当前用户需求及未来发展的要求,至少在未来3-5年内保持领先 水平。(1)运维监控平台页面响应时间登录、单一操作或查询响应时间=3s;综合查询(大数据量统计除外)响应时间=5s;大屏告警响应时间=3s。(2)运维监控平台在线、并发用户数在线用户数500以上,并发用户数150以上。4. 3二次开发要求(1)运维监控平台要求具有丰富的南、北向接口,支持restful等主流接 口方式,可以对外提供所有监控及告警数据。(2)运维监控平台支持与酒钢统一用户平台的单点登录,支持与酒钢协同 办公系统的待办集成。4.4带外管理交换机要求5套带外管理交换机:交换容量:25.28Tbps、包转发率:2180Mpps; 端口: 248个10/100/1000Base-T自适应以太网端口,26个万兆SFP+口;路 由协议:支持IPv4、IPv6静态路由,BGP4, BGP4+for IPv6;配置24个10GE万 兆多模模块,交换机自带欧标电源线,配套辅材为监控硬件所需六类非屏蔽机制 跳线、LC-LC双芯0M4万兆多模光跳线。五、技术服务本项目技术服务要求由保密要求、客户培训、知识产权要求、售后服务和项 目交付物清单五部分组成。5.1保密要求签订数据保密协议并在项目全程遵守协议保密要求。对用户及相关方人员进行使用操作培训、系统管理培训、系统维护培训、自 定义配置及二次开发培训,并提供有效的、全面的培训文档和开发工具,培训方 式不限于现场培训、集中培训和远程培训,培训学时不少于60学时。5. 3知识产权要求5.1.1 项目建设所需的操作系统、中间件、数据库等基础软件由乙方提供。5 . 3.2乙方提供新系统建设的所有软件均为正版软件,并提供正版授权文 件,授权对象为酒泉钢铁(集团)有限责任公司,且按照产品最新版本进行项目 实施,并提供不限地理和时间范围的开发和使用永久授权。6 .3.3乙方必须向甲方提供涉及本系统开发和使用的第三方软件、测试运行 软件、软件中间件等的永久使用授权,永久使用授权还要包括这些软件的附加组 件和插件。5. 3. 4乙方在本项目中提交给甲方的所有产品需具备合法的自主知识产权, 因乙方提供的产品引发的所有法律责任及给甲方造成的全部经济损失由乙方承 担。5 . 3. 4本项目二次开发源代码100%开放,产权全部归甲方所有。6 .3.5甲方有权利对二次开发源代码进行修改,可形成甲方完全自主的知识 产权,后续产生的成果物及其所有权利也完全归甲方所有。5. 3. 6本软件在本项目形成的知识产权、科技成果等完全归酒钢所有。5.4售后服务要求5.4.1 质保期5. 4. 1.1质保期自项目竣工验收合格之日起计算,为期一年。在质保期内, 乙方为甲方提供“7*24小时”技术服务。6. 在服务期内,免费提供小版本的升级补丁和支持服务。质保期以外,甲乙双方通过协商签署维保合同,由乙方继续为本项目提供服 务。乙方在投标文件中要注明质保期外的系统维护内容及收费标准。如因为乙方软件BUG产生的系统运行问题,乙方将无条件解决。7. 5项目交付物清单整个系统建设文档,包括需求、设计、开发、测试、部署、试运行、维护管 理体系对应的各阶段交付文件、会议纪要、项目报告及系统运行与运维开发所涉 及的所有源码、控件与配置文件。实施文件和技术文件应与系统相一致,文件应全面、完整、详细,并且针对 各阶段交付物应制定详细的验收方案。本项目需交付的文档资料如下(包括但不 限于):1)项目工作说明书;2)项目计划;3)项目蓝图设计;4)需求规格说明书;5)技术架构说明文档;6)系统功能说明书;7)测试类文档(测试用例、用户验收测试报告);8)系统安装和配置手册;9)系统维护手册(日常维护、故障处置知识库等):10)系统备份恢复方案;11)上线方案;11)上线试运行报告;12)二次开发源代码及说明;13)培训手册;14)项目总结报告等;15)用户使用手册;16)压力测试方案17)压力测试报告;18)点检及定期维护标准;19)正版授权文件。六、本协议作为合同的附件,合同服务过程中要按照本协议的条款严格执行。七、其它条款7.1 本协议未尽事宜双方协商解决。7.2 本协议为商务合同的附件,与商务合同具有同等法律效力。7.3 本协议正本一式四份,需方二份,供方二份。7.4 本协议由甲乙双方签字、盖章后生效。一、总体要求酒泉钢铁(集团)有限责任公司信息自动化分公司(以下称甲方)与XXX (以 下称乙方)就酒钢数据中心智能运维管理系统平台建设零固项目(以下称运维监 控平台),经双方技术交流、现场勘查及协商,达成如下技术协议:本技术协议作为甲方服务采购合同的附件,与采购合同同时生效,具有同等 法律效力。合同执行期间双方再协商形成的补充协议和追加条款也具有同等法律 效力。1.1 本技术协议所提出的是最低标准的技术要求,并未对一切技术细节做出 规定,也未充分引述有关标准和规范的条文,乙方应保证提供符合有关标准和技 术文件的优质产品。1.2 乙方提供服务包含的设备和软件必须为最新的正版产品,具有国内同行 业近几年内的先进制造水平,采用先进工艺、合格材料、成熟的技术或专利技术。1.3 乙方没有以书面形式对本协议的条文提出异议,则意味着乙方提供的产 品完全符合本协议书的要求。1.4 乙方提供服务包含的设备和软件的制造,都应按照国内外通用的现行标 准和相应的技术规范执行,而这些标准和技术规范应为合同签字日为止最新公布 发文的标准和技术规范。1.5 本协议所使用的标准如遇与供方所执行的标准不一致时,按较高标准执 行。1.6 乙方在服务过程中,发生侵犯专利的行为时其侵权责任与甲方无关。二、建设内容为满足酒钢集团数据中心机房及指挥中心机房运维监控应用管理技术需 求,建设运维监控平台,至少满足250台服务器、10台存储、10台光纤交换机、 600套操作系统、146套数据库、80套中间件、4套云平台、100套容器及重点应用 系统的智能监控,本次完成对数据中心机房及指挥中心机房现有信息自动化分公 司维护范围内各类软硬件系统的智能监控及平台各功能的实现。平台功能包括监控管理、告警管理、流程管理、资源管理、自动化巡检、知 识库管理、系统用户权限管理、报表管理、大屏展示、APP等功能。三、运维监控平台功能要求3.1 基础监控管理功能运维监控平台要求具备监控机房、网络、计算、存储、虚拟化、容器、云资 源、操作系统、数据库、中间件等所有IT基础架构的功能,持续优化应用可用 性,实现资源的统一管理。1 .1.1服务器监控要求运维监控平台要求可对各个品牌小型机、各种架构服务器硬件状态、硬件性 能数据进行监控,并具备自动巡检功能。通过带外管理端口直接对服务器硬件的 监控,服务器监控要求不在每台服务器上安装代理软件或服务器厂家的管理软 件,实现与操作系统的无关性。能对IBM、HP、DELL、华为、联想、浪潮等各品 牌的机架服务器的硬件状态进行监测。运维监控平台要求支持通过IPMK SNMP和RESTful协议带外方式对主流厂 商服务器进行硬件层面的精细化管理,包括服务器序列号、硬件型号、产品ID、 风扇状态/风速、温度、电源功率/状态/模式、处理器状态/缓存/速度、内存大 小/状态/频率、网卡状态相关信息的监控。同时支持服务器硬件系统事件的采集, 包括硬件错误事件,并支持将服务器系统事件转换为运维平台的告警信息。监控内容包括但不限于:团物理机信息,包括电源数量,额定功率,实时功率。风扇数量,状态,转 数。传感器数量,传感器状态,读数。团BMC模块信息,包括槽位号,管理网口 IP,子网掩码,默认网关。回刀片机信息,包括CPU数量配置,内存数量配置,磁盘数量配置,光纤卡 数量配置。团支持对物理机的监控数据进行实时监控展示。团支持对物理机的状态和性能数据进行告警。团支持对物理机的耗电进行统计分析。3 . 1.2存储监控要求运维监控平台要求支持对主流存储厂商的存储设备进行监控,可通过SMI-S 协议、SNMP 协议或者 RESTful 协议,支持对 IBM、HP、DELL、EMC、H3C、Hitachi、 NetApp、华为、浪潮等各品牌的磁盘阵列、磁带库等存储设备的硬件状态、存储 控制器、磁盘I0等性能数据进行监测。监测范围包括:存储池、存储卷、LUN、 端口、电源、风扇、控制器、存储容量、存储性能、告警日志等。监控内容包括但不限于:团支持展示纳管存储设备数量,总存储,总分配存储,总带宽和峰值,光纤 端口输入输出当前值和峰值,SAS端口输入输出当前值和峰值,耗电量统计。回支持采集和展示存储设备的资源名称、IP、厂商、型号、所在机房、总存 储容量、已分配存储容量、槽位数、电源数、风扇数等。团支持采集和展示存储设备的CPU、光纤端口、SAS端口、电源功率功耗、读 写缓存、读写速度、卷读写速度、磁盘读写速率等。团支持采集和展示存储设备的卷信息,包括卷名称、状态、池、唯一标识、 主机映射、容量等。回支持采集和展示存储设备的主机卷信息,包括卷名称、状态、池、唯一标 识、容量等。团支持采集和展示存储设备的电源数量,额定功率,实时功率。风扇数量, 状态。传感器数量,传感器状态。团支持采集和展示存储设备的驱动器槽位信息,包括槽位号、端口 1状态、 端口 2状态、当前驱动、驱动器ID等。团支持采集和展示存储设备的光纤端口信息,包括端口 ID、类型、端口速率、 节点名称、端口 WWPN标识、节点端口、状态、依附于、适配器位置、适配器端 口 ID 等。团支持采集和展示存储设备的SAS端口信息,包括端口 ID、端口速率、节点 名称、端口 WWPN标识、状态、SwitchWWPN标识、依附于、类型、适配器位置、 适配器端口 ID等。团支持对存储设备的光纤端口、SAS端口的出入速率、设备耗电进行统计分 析。团支持对存储设备的状态和性能数据进行告警。团光纤交换机参照网络交换机进行数据采集,支持对状态和性能数据进行告 警。3. 1.3虚拟化监控要求运维监控平台要求支持对虚拟化设备的监控管理,包括VMware、HyperV. H3C、华为等主流虚拟化厂商。可对虚拟化软件管理的数据中心、集群、宿主机、 虚拟机、虚拟交换机等各个部件的状态进行监控,也可对各部件的CPU、内存、 磁盘等资源使用,以及接口流量、磁盘I/O等性能数据监控。3. 1.4操作系统监控要求运维监控平台要求支持对多种主机操作系统的管理,提供应用主机整体负载 情况的监测,包括CPU负载,内存与虚拟内存利用率,主机网络会话数量、源与 目的及流量信息,各个物理网络接口流量信息,设备连续运行时间等;支持应用 主机各文件系统的磁盘空间大小、利用率、剩余空间,磁盘增长率的管理;提供 应用主机上关键进程的运行状况及其对CPU和内存占用情况的管理等。主机监控 的进程down可主动发送告警通知监控人员。运维监控平台要求具备监控操作系统进程状态的功能,包括监控操作系统进 程的新建态、终止态,运行态,就绪态,阻塞态等变化,同时记录进程的启停时 间,具备编辑进程组的功能,可以新增、删除一个进程组,可以将多个进程添加 到进程组中,每个进程在进程管理中维护,可以配置进程组中多个进程的执行间 隔,对于进程组,可以配置批量启停脚本,也可以使用每个进程的启停脚本。提 供进程组列表展示的功能,可以按照所属系统集中展示系统中管理的进程组,同 时显示进程组属性信息修改时间、启停时间、当前状态。可按照进程组名称、所 属系统、运行主机、进程关键字对任务进行查询。运维监控平台要求具备常见操作系统的监控管理,包括Windows、AIX. IBMAS400 / iSeries、FreeBSD/OpenBSD> Linux、Mac OS 等,同时支持对国产操作 系统如麒麟、统信等的监管。监控内容包括但不限于:团操作系统主机CPU性能(5分钟、小时、日、周)团操作系统主机内存性能(5分钟、小时、日、周)团操作系统主机磁盘性能(日、周)团操作系统主机接口流量性能(5分钟、小时、日、周)团操作系统主机文件系统管理(5分钟、小时、日、周)团操作系统主机CPU峰值分析(小时/日)团操作系统主机I/O性能统计(小时/日)回操作系统主机可用性:1 -(WDOWN机时长)/(24*60) o团操作系统主机CPU时间空闲百分比:CPU空闲时间量占CPU时间总量的百 分比的值。回操作系统主机CPU时间系统百分比:CPU在系统相关任务上所用的时间量 并报告它所占CPU时间总量的百分比值。团操作系统主机CPU时间用户百分比:用户任务所占用CPU时间量占CPU时 间总量的百分比。回操作系统主机CPU时间等待百分比:CPU等待I/O等待所占用CPU时间量 占CPU时间总量的百分比。国操作系统主机CPU使用率:1CPU空闲时间量占CPU时间总量的百分比的 值。回操作系统主机CPU运行队列中进程个数。团操作系统主机平均CPU利用率:基于用户需采集的关键主机的"CPU利用率 "指标,1 (CPU空闲时间量占CPU时间总量的比值),取该指标在1小时之内 所有采样值的平均值。团操作系统主机最大CPU利用率:基于用户需采集的关键主机的"CPU利用率 "指标,取该指标在1小时之内所有采样值的最大值。团操作系统主机内存的使用率:主机内存的使用量与内存总量的比值。团操作系统主机内存交换请求数:Page request (包括page in&out)操作 的数量。国操作系统主机内存交换页换进率。团操作系统主机内存交换页换出率。回操作系统主机等待页操作的进程数量。团操作系统主机系统内存使用率:系统内存占所有物理内存的百分比。国操作系统主机用户内存使用率:用户内存占所有物理内存的百分比。团操作系统主机平均内存利用率:基于用户需采集的关键主机的"内存利用率 "指标,主机内存的使用量与内存总量的比值,取该指标在1小时之类所有采样 值的平均值。团操作系统主机最大内存利用率:基于用户需采集的关键主机的"内存利用率"指标,取该指标在1小时之内所有采样值的最大值。团操作系统文件系统数据缓冲命中率:文件系统数据缓冲命中率。团操作系统主机磁盘物理I0操作速率:磁盘物理I0操作速率(秒)。团操作系统主机平均磁盘请求数量:单位时间内平均磁盘请求数量。团操作系统主机磁盘忙的百分比:磁盘读写的时间占用总时间的百分比。国操作系统主机每秒磁盘读请求:每秒磁盘读请求字节数。团操作系统主机每秒磁盘写请求:每秒磁盘写请求字节数。团操作系统主机磁盘访问平均等待时间:磁盘访问平均等待时间(毫秒)。团操作系统主机等待I/O进程线程数:等待系统I/O (disk、inode、cache> CDFS等)的进程和线程数。国操作系统文件系统使用比率:文件系统已使用的空间与总空间的比值。团操作系统交换区使用百分比:交换区使用百分比。团操作系统逻辑卷(裸设备)文件系统使用率:各逻辑卷上文件系统的使用率。团操作系统告警日志。3. 1.5数据库监控要求运维监控平台要求支持对各种数据库的管理,提供各种数据库可用性和性能 的整体监控,包括数据库连接信息、数据库明细、表空间,数据库大小、缓存性 能、内存、读、写、I/O状态、SQL统计、锁、告警日志等等。支持的数据库包括:Oracle (8i/9i/10g/11g 及以上,RAC)、MySQL (5.0 及以上)、SQL Server (2000 SP4/2005/2008/2012 及以上)、IBM DB2 (10. x 以上)、PostgreSQL(9. 3. 1 及以上)、达梦数据库、金仓数据库、南大通用数据库、Redis、MongoDB.MemCached、 cache、 Informix、 SAP HANA、 Sybase 等。