云平台运维与运营服务方案.docx
平台系统基础支撑平台与运维保障平台用户桌面虚拟化平台数据中心虚拟化平台虚拟应用/桌面承载服务器集群虚拟应用/执享费而淞»jRIHnn虚拟应用/ 共享桌面池独占京百池:虚拟桌面/基础架构 服务器集群(三)第三阶段,XXX国土运维保障平台建设统一规划XXX国土 GIS、0A等业务系统的运维保障平台的建设。运维保障架构图如下:用户桌面虚拟化平台蚊务器数据运维保障系统黄岛数据中心虚拟化平台虚拟桌面技术方案设计云桌面总体架构设计如下:这种基于服务器运行模式的应用交付架构已经在全球被大量的电信、金融、政府 和企业客户所采用,可以在管理维护、投资成本、应用性能、安全和业务连续性各个 方面得到提升: 首先从管理维护的角度,这种集中管理的优势显而易见:以前的软件部署和 管理,工程师们需要对每一台电脑进行安装和维护工作,低级的重复劳动消 耗了大量的人力物力。而现在PC机上不再安装复杂的软件,成为标准终端设 备,如果一台坏了,换一台备用标准设备就可以继续工作,对工作没有影 响。IT管理人员只管理和维护中心服务器,通过应用策略去设定每个用户或 用户组的行为,管理人员足不出数据中心,通过服务器上各种数据、策略和 信息管理着整个企业用户对应用的使用,达到事半功倍的效果。 其次性能同样得到提升,集中发布降低了应用对网络和终端硬件的依赖,使 其不再成为性能瓶颈,同时还可以集中对应用进行优化,使得用户访问效率 大大提高;从安全性来看,所有的生产数据和监控逻辑全部保留在数据中心内,防止了 敏感信息的泄漏,可以精确地控制对各应用程序的安全访问;同时管理人员 可以通过审计录像对敏感操作进行记录,以备审计追踪等。 从总体成本衡量,传统模式需要不断地对PC机和带宽进行无底洞式地投入, 在集中式架构下,XXX国土的应用不再依赖于PC机和客户端网络带宽,只要 为每个业务人员配备一台终端和十几K的带宽就可以正常工作;每次系统和 软件升级只需对少量服务器升级即可,节省了大量成本。 各网段访问虚拟化平台还提供了各种安全和管理功能,可以实现全面的用户 接入的安全控制和管理,包括用户行为控制、远程监控、远程培训、行为审 计、对各个应用的口令管理,以及整体系统的性能监控管理等等。服务器虚拟化方案设计虚拟化总体架构设计图如下:用户应用/桌面虚拟化平台黄岛数据中心虚拟化平台这种基于服务器运行模式的虚拟化架构已经在全国大量用户采用,可以在管理维 护、投资成本、应用性能、安全和业务连续性各个方面得到提升: 资源快速部署。通过虚拟化系统,业务部门提交IT需求时,可以在几分钟内部署一台新的服务器环境供使用,新的服务器环境供使用,大大缩短IT与业务需求落地的时间差。 提高利用资源。通过虚拟化的部署,将传统的硬件资源转化为软件资源,提高现有的硬件资源利用率,并且,硬件资源利用率,并且,可以将所有硬件资源通过利旧、整合到新的虚拟化系统平台中。 绿色数据中心。虚拟化概念一直是绿色数据中心的倡导者。我行通过虚拟化部署,可 以使系统资源高度集中,节约机房空间的同时,更降低了机房用电的开销(包括服务器用电、 空调用电等)。 降低运维成本。除了对电量和空间使用的降低外,在人力成本方面,也可以通过虚拟 化,减轻因为业务成本增长,带来的运维压力,帮助我行的IT人员应对快速的增长业务。业务系统运维保障设计 架构设计业务系统运维保障架构设计如下:黄岛数据中心虚拟化平台 用户应用/桌面虚拟化平台网络访问安全接入网关数据中心服务器虚拟化 承载服务器集群数据运维保障系统业务系统应急25台服务器的实时虚拟化镜像一台设备能接机房内任意故障服务器一台CDAP设备自身可随机应急机房内任何几 台故障X86服务器,保护多达25台。系统和数据 保持完全一致。5/0分钟完全顶替原机使用。数据保障离线快照R- H R- B B物理服务器一种独特的备份技术和容灾架构将服务器整机备份 成虚拟机,磁盘块 级实时复制比传统 方式更快。最“傻瓜式”备份 系统。整机实时备 份(0S+APP+DATA) 整机一体化恢复。支持任何应用数据 类型。瞬间验证和 瞬间恢复;可实现 低成本应用级容灾。运维迁移不同品牌服务器迁移IBM HP DELL 联想P2V V2VV2P P2P不同类型服务器迁移不同虚拟化迁移支持服务器“异机”在线迁移应用于机房搬迁项目 防范搬迁过程中硬件损坏: 确保搬迁过程中数据不丢失: 保障搬迁过程中重要业务不间断.应用于老旧服务器更新 整机一次性迁移,立即可用: 无须重新安装系统和配置应用: 投脱了应用厂商支持的依赖。项目实施计划项目实施计划如下:阶段任务一、分析阶段云平台环境评估|对现有的IT环境进行全面的技术评估分析评估结果,定位风险点和成功部署要素 和集成商团队共同制定出明确的可执行的项目方案记录并交付评估结果二、设计阶段云平台平台设计|集成商团队设计云平台,并与其一起进行设计讨论设计结果包含下面各个方面:/网络架构/系统架构,服务器虚拟化/存储架构,桌面虚拟化三、构架和测试阶段四、发布阶段虚拟化环境架构 网络环境架构 虚拟桌面环境架构,安装并配置下歹1玄平台产品组件,/部署服务器虚拟化/部署桌面虚拟化/创建数据存储/授权服务器部署用户配置文件方案集成现有基础架构(目录服务,文件服务等等)试运行支持 确定试运行用户 支持试运行部署并解决响应的问题 确认接受度投产支持'部署可以支持设计用户容量的应用虚拟化环境进行投产上线实现知识转移项目组织保障工作领导小组为保障XXX区基础支撑平台与运维保障平台项目建设顺利推动,建议由局信 息化建设领导小组直接负责对本项目的组织领导。领导小组拟设立“基础支撑平 台与运维保障平台”建设办公室,具体负责项目建设各项工作的统筹推进,制定 建设方案、工作计划和相关标准,明确任务分工。项目专家小组项目专家小组主要负责配合系统建设项目技术小组完成现状分析、平台设计以及 平台测试与发布的工作。项目专家小组的主要职责如下:> 充分发挥在技术以及信息化认识等方面的特长和能力,指导项目技术小组进 行现状梳理、分析工作。> 参与项目技术小组的各个阶段的成果评审活动。> 对项目实施中有关的业务、技术以及资源配置等可能出现问题,向项目技术 小组提出改进意见。> 在信息系统建设涉及到的业务和技术问题上,对项目领导小组负责。项目技术小组项目技术组的主要工作职责如下:> 负责通过用户访谈、用户问卷、专题讨论、资料收集等方式获取项目建设的 需求,并对调查结果进行整理分析,提交各个部门进行确认,并提交项目领导小组和 专家小组进行评审。> 负责按阶段按时完成项目的分析设计、设计、搭建、测试、试运行、运行工 作。> 负责完成平台的使用及维护培训等集成系统建设的伴随服务,完成项目验收 和鉴定的准备工作。> 在整个项目建设过程中,每周末(月末)向工作领导小组提交本周(本月) 的工作总结和下周(下月)工作计划;要在项目计划完成、需求调研中期、需求调研 结束、系统设计完成、系统集成中期、系统试运行前以及项目收尾等各个阶段,向项 目领导小组进行专题工作汇报。> 当遇到业务问题或困难时,及时向专家小组进行专门咨询,以保证项目顺利 实施。云平台下的运维体系建设工作内容-、系统运维系统运维负责IDC、网络、CDN和基础服务的建设(LVS、NTP、DNS) 负责资产管理,服务器选型、交付和维修。详细的工作职责如下:IDC数据中心建设收集业务需求,预估未来数据中心的发展规模,从骨干网的分布,数 据中心建筑,以及Internet接入、网络攻击防御能力、扩容能力、空间 预留、外接专线能力、现场服务支撑能力等方面评估选型数据中心。 负责数据中心的建设、现场维护工作。网络建设设计及规划生产网络架构,这里面包括:数据中心网络架构、传输网 架构、CDN网络架构等,以及网络调优等日常运维工作。1 项目概述21.1 项目背景21.2 项目目标21.3 建设内容2现状及需求分析31.4 信息化现状31.5 存在的问题41.5.1 运维保障面临主要问题.41.5.2 现有保障手段不能满足需求4223管理运维问题.4方案总体设计63.1 设计原贝IJ63.2 总体架构设计73.3 实施思路7虚拟桌面技术方案设计104 服务器虚拟化方案设计11业务系统运维保障设计134.1 架构设计134.2 业务系统应急144.3 数据保障144.4 运维迁移15项目实施计划155 项目组织保障175.1 工作领导小组175.2 项目专家小组175.3 项目技术小组17LVS负载均衡和SNAT建设LVS是整个站点架构中的流量入口,根据网络规模和业务需求,构建负 载均衡集群;完成网络与业务服务器的衔接,提供高性能、高可用的 负载调度能力,以及统一的网络层防攻击 能力;SNAT集中提供数据中心的公网访问服务,通过集群化部署,保 证出网服务的高性能与高可用。CDN规划和建设CDN工作划分为第三方和自建两部分。建立第三方CDN的选型和调度 控制;根据业务发展趋势,规划CDN新节点建设布局;完善CDN业务 及监控,保障CDN系统稳定、高效运行;分析业务加速频道的文件特 性和数量,制定最优的加速策略和资源匹配;负责用户劫持等CDN日 常故障排查工作。服务器选型、交付和维护负责服务器的测试选型,包含服务器整机、部件的基础性测试和业务 测试,降低整机功率,提升机架部署密度等。结合对公司业务的了解, 推广新硬件、新方案减少业务的服务器投入规模。负责服务器硬件故 障的诊断定位,服务器硬件监控、健康检查工具的开发和维护。OS、内核选型和OS相关维护工作责整体平台的os选型、定制和内核优化,以及Patch的更新和内部版 本发布;建立基础的YUM包管理和分发中心,提供常用包版本库;跟 进日常各类OS相关故障;针对不同的业务类型,提供定向的优化支持。资产管理记录和管理运维相关的基础物理信息,包括数据中心、网络、机柜、 服务器、ACL、IP等各种资源信息,制定有效的流程,确保信息的准确 性;开放API接口,为自动化运维提供数据支持。基础服务建设业务对DNS、NTP、SYSLOG等基础服务的依赖非常高,需要设计高可用 架构避免单点,提供稳定的基础服务。应用运维应用运维负责线上服务的变更、服务状态监控、服务容灾和数据备份 等工作,对服务进行例行排查、故障应急处理等工作。详细的工作职 责如下所述。设计评审在产品研发阶段,参与产品设计评审,从运维的角度提出评审意见, 使服务满足运维准入的高可用要求。服务管理负责制定线上业务升级变更及回滚方案,并进行变更实施。掌握所负 责的服务及服务间关联关系、服务依赖的各种资源。能够发现服务上 的缺陷,及时通报并推进解决。制定服务稳定性指标及准入标准,同 时不断完善和优化程序和系统的功能、效率,提高运行质量。完善监 控内容,提高报警准确度。在线上服务出现故障时,第一时间响应, 对已知线上故障能按流程进行通报并按预案执行,未知故障组织相关 人员联合排障。资源管理对各服务的服务器资产进行管理,梳理服务器资源状况、数据中心分 布情况、网络专线及带宽情况,能够合理使用服务器资源,根据不同 服务的需求,分配不同配置的服务器,确保服务器资源的充分利用。例行检查制定服务例行排查点,并不断完善。根据制定的服务排查点,对服务 进行定期检查。对排查过程中发现的问题,及时进行追查,排除可能 存在的隐患。预案管理确定服务所需的各项监控、系统指标的阈值或临界点,以及出现该情 况后的处理预案。建立和更新服务预案文档,并根据日常故障情况不 断补充完善,提高预案完备性。能够制定和评审各类预案,周期性进 行预案演练,确保预案的可执行性。数据备份制定数据备份策略,按规范进行数据备份工作。保证数据备份的可用 性和完整性,定期开展数据恢复性测试。三、数据库运维数据库运维负责数据存储方案设计、数据库表设计、索引设计和SQL 优化,对数据库进行变更、监控、备份、高可用设计等工作。详细的 工作职责如下所述。设计评审在产品研发初始阶段,参与设计方案评审,从DBA的角度提出数据存 储方案、库表设计方案、SQL开发标准、索引设计方案等,使服务满足 数据库使用的高可用、高性能要求。容量规划掌握所负责服务的数据库的容量上限,清楚地了解当前瓶颈点,当服 务还未到达容量上限时,及时进行优化、分拆或者扩容。数据备份与灾备制定数据备份与灾备策略,定期完成数据恢复性测试,保证数据备份 的可用性和完整性。数据库监控完善数据库存活和性能监控,及时了解数据库运行状态及故障。数据库安全建设数据库账号体系,严格控制账号权限与开放范围,降低误操作和 数据泄露的风险;加强离线备份数据的管理,降低数据泄露的风险。数据库高可用和性能优化对数据库单点风险和故障设计相应的切换方案,降低故障对数据库服 务的影响;不断对数据库整体性能进行优化,包括新存储方案引进、 硬件优化、文件系统优化、数据库优化、SQL优化等,在保障成本不增 加或者少量增加的情况下,数据库可以支撑更多的业务请求。自动化系统建设设计开发数据库自动化运维系统,包括数据库部署、自动扩容、分库 分表、权限管理、备份恢复、SQL审核和上线、故障切换等功能。四、运维研发运维研发负责通用的运维平台设计和研发工作,如:资产管理、监控 系统、运维平台、数据权限管理系统等。提供各种API供运维或研发人 员使用,封装更高层的自动化运维系统。详细的工作职责如下所述。运维平台记录和管理服务及其关联关系,协助运维人员自动化、流程化地完成 日常运维操作,包括机器管理、重启、改名、初始化、域名管理、流 量切换和故障预案实施等。监控系统负责监控系统的设计、开发工作,完成公司服务器和各种网络设备的 资源指标、线上业务运行指标的收集、告警、存储、分析、展示和数 据挖掘等工作,持续提高告警的及时性、准确性和智能性,促进公司 服务器资源的合理化调配。自动化部署系统参与部署自动化系统的开发,负责自动化部署系统所需要的基础数据 和信息,负责权限管理、API开发、Web端开发。结合云计算,研发和 提供PaaS相关高可用平台,进一步提高服务的部署速度和用户体验, 提升资源利用率。五、运维安全运维安全负责网络、系统和业务等方面的安全加固工作,进行常规的 安全扫描、渗透测试,进行安全工具和系统研发以及安全事件应急处 理。详细的工作职责如下所述。安全制度建立根据公司内部的具体流程,制定切实可行,且行之有效的安全制 度。安全培训定期向员工提供具有针对性的安全培训和考核,在全公司内建立安 全负责人制度。风险评估通过黑白盒测试和检查机制,定期产生对物理网络、服务器、业务 应用、用户数据等方面的总体风险评估结果。安全建设根据风险评估结果,加固最薄弱的环节,包括设计安全防线、部署 安全设备、及时更新补丁、防御病毒、源代码自动扫描和业务产品 安全咨询等。为了降低可能泄露数据的价值,通过加密、匿名化、 混淆数据,乃至定期删除等技术手段和流程来达到目的。安全合规为了满足例如支付牌照等合规性要求,安全团队承担着安全合规的 对外接口人工作。应急响应建立安全报警系统,通过安全中心收集第三方发现的安全问题,组 织各部门对已经发现的安全问题进行修复、影响面评估、事后安全 原因追查。,运算效率全人工运 维规范机制无规范机 制工具化运维人工约束平台运维完善规范系统自动约束运维发展过程项目概述项目背景国土资源“一张图”和综合监管平台建设(以下简称“一张图”工程)是国土资 源信息化“十二五”规划中的一项核心内容。根据国土资源部关于进一步运用现代科技信息手段规范和创新管理的指导意见 (国土资发2010 81号)、山东省国土资源系统一个平台、两个市场建设方案 的通知(鲁国土资发201133号)和青岛市国土资源和房屋管理局关于加强信 息化建设工作的意见的通知(青土资房发2012465号)等一系列文件的要求,青 岛市国土房管局xxx分局拟开展xxx区国土资源一张图工程和服务平台系统基础支撑平 台及运维保障平台建设,为一张图工程和服务平台系统搭建安全、可靠的基础设施环 境,为全局信息化发展奠定坚实的基础。项目目标基础支撑平台及运维保障平台的建设实现以下主要目标:(1) 通过加强对业务内网、办公网、互联网的安全管理,实现生产数据和涉密信息的集中存放和管理,保证信息安全;(2) 通过为32个乡镇国土所提供云端虚拟桌面服务,保障数据不在国土所用 户的终端设备上落地的基础上,实现各项数据及业务应用的便捷接入,有效 促进业务协同;通过运维保障平台的建设,为全区国土资源用户提供一致、高度可用、高度可扩展的服务,最大程度地减少系统停机,全面支持国土全系统的业务 连续性;通过云平台建设,充分整合已有资源,实现IT基础设施的集约化建设。建设内容基础支撑平台及运维保证体系主要包括以下建设内容:(-)业务网、办公网、互联网网络接入及防火墙设备与交换机设备环境的规戈k设计与整合;(-)局机房服务器、存储、光纤网络环境的设计、整合与搭建;(三)局业务网服务器虚拟化与桌面虚拟化资源池的统一建设;(四)局国土政务管理服务系统、0A等业务系统及数据中心的运维保障平台的 统一建设现状及需求分析信息化现状xxx国土资源分局是主管xxx区有关土地、矿产等自然资源的规划、管理、 保护与合理利用工作的市政府工作部门,负责全市土地、矿产等自然资源的保护 与合理利用等重要工作,在现代化新形势发展要求下,配备了一系列提高工作效 率和功能的信息化业务系统。具体的信息化现状如下: 网络现状:办公网(金宏)、业务内网(涉密)、互联网、互相物理隔离,主要 业务信息系统部署在业务内网(涉密)。 基础架构:网络通过分网络部署防火墙、交换机实现各网络分离。实现在新的机 房中部署一套虚拟化系统,实现物理服务器资源的集中管理与调用。19所分支通 过内网专线访问虚拟桌面平台实现办公,应用现状:业务内网主要为一张图工程和服务平台系统,具体包括建设项目用地 预审管理系统、土地利用规划管理系统、建设用地审批管理系统、临时用地管理 系统、设施农用地管理系统、土地利用规划管理系统、土地储备审批管理系统、 土地供应管理系统、建设用地跟踪管理系统、权籍管理系统、土地登记信息动态 监管查询系统、采矿权管理系统、测绘成果管理系统、OA、移动办公系统、成果 展示系统、综合数据库管理系统、综合监测监管系统、移动辅助决策系统、综合 管理服务平台等20个业务系统。存在的问题运维保障面临主要问题 业务连续性存在潜在威胁业务系统设备多数使用一机一应用/一机多应用的模式,当前的这种部署模 式,如果某台物理服务器因为各种原因计划内停机或者故障停机,都不可避免的 会造成其上运行的业务系统停止的问题,这将直接影响到用户业务的正常开展。 管理复杂,响应速度滞后每个业务系统的服务器的维护,高可用性和灾难备份没有统一的管理手段, 只能因系统而异,管理难度大,无法响应业务系统的要求。 数据和应用备份的快速恢复系统现有应用系统由于更新和版本变化。应用系统设备安装业务复杂,管理维护 压力增大。当出现硬件和系统错误时候,缺少非常简便和快速备份和恢复系统。现有保障手段不能满足需求国土有些应用数据做了一定传统备份和容灾手段进行保护,但这种传统容灾 备份只解决有限问题,与实际需求很大差距。现有备份效率低下,不能快速验证 数据完整;缺少对系统应用版本备份;出现故障后,恢复漫长繁琐,可操作性很 低。在容灾方案上普遍有很大误区,往往把“容灾”当成一个万能保障系统,而 且高指标的容灾系统是需要巨大投入,相对大部分单位,投资回报比不高。传统容灾预防是万分之一小概率事故,但机房真正频繁威胁是单个服务 器故障和逻辑错误,这些问题都用不上容灾。不能把任何服务器错误 “事件”升级成“事故”,只有极端灾难事故情况下需要动用容灾系统。切换异地容灾需要复杂操作流程和漫长时间,真正能解决问题需要时间 很长。从容灾恢复数据远比本地要慢很多。所有本地应急系统才是能快 速顶用系统,很实用。管理运维问题PC运维难以为继XXX国土现有约200台PC终端,终端性能参差不齐,设备维护管理复杂,IT运维 人员每天需要面对数量众多的零散服务请求(PC故障、系统恢复、软件安装、补 丁更新等),由于人数有限,难以为继,矛盾越发突出。 PC终端使用周期短客户端硬件难以适应未来的系统升级、更新需求(如Windows 7/8等新系统的升 级等),每年都有大量的PC终端面临淘汰更新的压力,终端投入成本较高。 移动终端的运维管理移动工作方式意味着越来越多的移动设备被用于访问办公环境,如何合理、高效 地对这些移动设备进行设备生命周期的管理,成为了 IT部门的棘手问题。移动设 备的运维管理需要涵盖设备配置、应用置备、安全保护、远程支持、监控报告、 设备淘汰等方面,传统的桌面管理软件并不具备对移动设备的管理能力。方案总体设计设计原则本次项目拟使用端到端虚拟化解决方案实现安全隔离、安全加护,构建以信息使 用者为核心的信息安全虚拟化管理平台:> 实现业务内网(涉密)的网络环境建设> 实现业务内网(涉密)云平台中服务器虚拟化与桌面虚拟化建设> 实现平台建设后,后期有效的进行容灾、备份恢复等运维工作服务器及生产数据存储均放置在数据中心,真正做到数据中心生产数据不落 地另外,通过端到端虚拟化还将带来以下好处:> 用户体验好用户操作体验平滑过渡,变化小,减少项目推进阻力。> 优化投入成本采用最新虚拟化技术,最大限度提高资源利用率,降低项目建设成本。> 功能模块化设计虚拟化平台可拼装,可拆卸,灵活部署,实现全行信息安全管理标准化,构建生 产、办公、外网信息安全访问虚拟化统一平台。总体架构设计数据中心业务级 应急保障平台防火墙方案总体架构设计实施思路根据前期需求,考虑项目工作量、用户行为变化及流程设计,建议分期分阶段进 行建设,其中分为三个阶段建设:(一)第一阶段,XXX国土基础网络建设阶段统一规划业务网、办公网、互联网,防火墙设备与交换机设备环境搭建 统一规划服务器、存储、光纤网络环境搭建重新规划的网络建设架构如下:(二)第二阶段,虚拟化平台建设阶段统一规划业务网服务器虚拟化与桌面虚拟化资源池的环境搭建。虚拟化平台建设架构图如下: