同城容灾规划方案(模板).docx
XXXXX容灾中心规划方案1 总体规划41.1 设计依据41.2 设计原则41.3 建设内容51.3.1 第一阶段建设内容51.3.2 第二阶段建设内容51.4 总体设计61.4.1 容灾技术选择61.4.1.1 容灾技术选择原则61.4.1.2 技术选择61.4.2 容灾架构设计71.4.2.1 镜像实现数据级容灾71.4.2.2 容灾方案优势81.4.2.3 本地Cluster.同城异地Cluster91.4.2.3.1 Cluster101.4.2.3.2 同城CIUSter111.5 分阶段建设121.5.1 第一阶段建设121.5.1.1 基础设施建设121.5.1.1.1 容灾机房建设121.5.1.1.2 裸光纤链路121.5.1.1.3 连接设备121.5.1.1.4 SAN交换机131.5.1.2 数据级容灾建设131.5.1.2.1 数据容灾架构131.5.1.2.2 容灾资源要求131.5.1.3 各应用系统数据异地备份容灾建设141.5.2 第二阶段建设141.5.2.1 应用级容灾建设141.5.2.1.1 应用系统容灾架构错误!未定义书签。1.5.2.1.2 设计描述141.5.2.1.3 容灾资源要求152 详细设计162.1 基础设施建设162.1.1 网络系统设计162.1.1.1 设计原则162.1.1.2 网络系统设计172.1.2 双中心互联设计182.1.2.1 双中心之间链路选择182.1.2.2 双中心之间网络设计182.2 数据级容灾设计192.2.1 系统设计192.2.1.1 方案的结构原理192.2.1.2 系统架构202.2.2 系统故障响应212.2.2.1 生产中心存储系统故障212.2.2.2 灾备中心存储系统故障222.2.2.3 生产中心和灾备中心SAN链路故障222.3 应用级容灾设计232.3.1 系统构架232.3.2 系统部署232.3.3 容灾软件部署242.3.4 系统故障和灾难响应2623.4.1 生产中心存储系统故障2623.4.2 容灾中心存储系统故障2723.4.3 生产中心和容灾中心SAN链路故障2723.4.4 生产中心和容灾中心之间IP网络链路故障2823.4.5 生产中心一台数据库服务器不可用2923.4.6 生产中心所有数据库服务器不可用2923.4.7 生产中心所有数据库服务器和存储系统不可用292.4各应用系统数据异地备份容灾设计302.4.1 备份系统建设原则302.4.2 备份方案设计311总体规划1.1 设计依据XXXXX容灾中心建设设计,将遵循以下设计依据:/2006-2020年国家信息化发展战略(中办发【2006】11号),信息安全等级保护管理办法(公通字【2007】43号)/重要信息系统灾难恢复规划指南国信办/信息系统灾难恢复规范(GB/T20988-2007)o1.2 设计原则从硬件平台的目标来看,首要需要实现的是第一阶段目标,在第一阶段目标实现的基础上实现第二阶段的目标。因此,硬件平台设计中应遵循以下原则:安全性:XXXXX重要系统24小时运行,安全是非常重要,服务器、存储系统和数据传输等方面都需要考虑安全性,在此基础上,才能考虑下一步的稳定性设计。稳定性:网络、服务器、存储等建设主要目标之一是就是稳定,应该保证业务的连续性,服务器和存储系统都需要保证应用的稳定运行,在遇到突发情况时备机和备份系统发挥作用,确保业务能够持续。可靠性:网络、服务器和存储的建设不可忽视的是可靠性的提升,比如通过网络、服务器之间的双机、存储级别的同步来实现高可用,网络有足够的带宽适应突增的数据流量、保证应用系统的可靠性。兼容性:硬件和软件设施都应该有很好的兼容性,需要合理的利用资源,利用虚拟化等技术,保证能和其他的产品很稳定的兼容在一起。1.3 建设内容XXXXX现有业务系统分为数据库服务器、应用服务器两个类别。建成后的容灾中心将实现如下目标:容灾级别容灾目标同城应用级容灾要求生产中心故障后,允许人工干预切换到备份中心,做到数据接近零丢失,应用恢复时间小于2小时。针对XXXXX应用系统的情况,将XXXXX容灾中心建设划分为二个阶段,具体如下:1.3.1 第一阶段建设内容第一阶段建设内容:令容灾基础设施建设:完成容灾中心机房、SAN网络、链路等基础设施建设;令数据级容灾建设:各应用系统的数据级容灾建设,实现跨中心的数据镜像,零数据丢失;令实现各应用系统数据集中备份、异地存放;令建立容灾应急预案和演练流程。132第二阶段建设内容第二阶段建设内容:令应用级容灾建设:完成各应用系统的应用级容灾建设,通过跨中心的应用系统集群、双活中心建设,实现零数据丢失,2小时内完成业务接管;令完善容灾应急预案和演练流程。1.4 总体设计1.4.1 容灾技术选择容灾技术选择原则容灾技术选择依据以下这些原则:1 .满足不同应用需求的容灾数据损失(RP0)、及应恢复时间(RT0),数据一致性等具体要求。2 .支持本地的系统加固以及本地系统的弹性构架。而弹性构架是对IT系统的长期发展直观重要,主要是指IT系统横向、纵向的扩展性。比如异构环境的支持、扩展。而系统本地加固与远程容灾的技术必须是互不冲突的。3 .在能够满足以上两项要求的同时,最经济。.支持容灾各层的总体切换。1.4.L2技术选择前面对各种数据复制技术进行了深入分析,根据XXXXX各应用系统容灾建设需求,选择如下技术实现容灾:应用系统容灾需求容灾技术数据级容灾RP0=0,RTO<2小时异构盘阵间镜像应用级容灾RP0=0,RT(K2小时集群1.4.2容灾架构设计1.4.2.1镜像实现数据级容灾此次XXXXX容灾系统建设,建议采用异构盘阵间镜像,逐步实现从数据级容灾到应用级容灾的建设。利用镜像技术,实现异构盘阵间的数据同步,来构建容灾方案。就是将生产中心和灾备中心之间的SAN存储区域网络通过光纤连接起来,建立城域SAN存储网络。然后,通过跨阵列磁盘镜像技术来实现同城容灾。从原理上讲,在城域SAN存储网络上的两套磁盘系统之间的镜像,和在一个机房内的SAN上的两个磁盘系统之间镜像并没有任何区别。利用光纤将生产中心和灾备中心的SAN网络连接起来,构成城域SAN网络以后,我们就可以非常方便的使用镜像技术实现生产中心磁盘系统和灾备中心磁盘系统之间的数据同步了。如下图所示:1.AN 数据写入流程: 1.客户端向服务器发出写请求。 2.数据由限务器同时写入生产中心及容灾中心阵网。 3.生产中性阵列及容灾中心阵列先后向服务器确认数据写完。 4.服务器向客户端确认数据写完。I生产中心容灾中心利用容灾软件,我们可以创建任意一个逻辑卷(Volume)供业务主机使用,实际上是由个完全对等的,容量相同的磁盘片构成,两的个磁盘片上的数据完全一样,业务主机对该Volume的任意修改,都将同时被写到位于生产中心和灾备中心的两个磁盘系统上。采用这种方式,生产中心的磁盘阵列与同城容灾中心的磁盘阵列对于两地的主机而言是完全同等的。利用城域SAN存储网络和镜像功能,我们可以非常轻松的实现数据系统的异地容灾。并且消除了复制技术(无论是同步还是异步)的切换的动作,从而保证零停机时间,零数据损失的实现。1.4.2.2 容灾方案优势 零停机时间,业务不中断。无论是生产中心还是容灾中心的磁盘阵列发生问题,都不会导致应用停顿,从而导致业务中断。 发生灾难时,无需手工活自动切换来恢复应用,应用会无缝的继续进行。从而也不会造成人为的错误发生。 由于应用不会中断,数据的一致性也没有任何风险,不会像其他的容灾方案,在容灾切换后,数据库仍然有启动不成功的可能性。 跨磁盘阵列镜像一旦发生灾难,修复后,跨阵列的可以实现增量的数据同步,而不需要重新同步所有数据,对系统的影响极小。 跨整列的镜像,支持在不同品牌,不同型号的磁盘阵列之间进行。可以最大限度的保护用户以前的投资。 跨磁盘阵列镜像还可以通过调整读写机制,提高系统的读写性能。 基于SAN的容灾技术,其容灾距离可以在100公里的范围内,得到很好的想能保障。 可扩充性好,不局限于某一品牌磁盘产品 可控的切换时间RTO表示所能接受的业务中断时间,从某种程度上讲,也就取决于在生产中心宕机时,将业务切换到容灾中心的时间长度。系统的切换时间:数据库启动、状态检查5分钟数据库切换10分钟中间件启动一1分钟网络切换1分钟4应用级的容灾容灾分为数据级容灾和应用级容灾。本次XXXXX的容灾系统设计,将提供应用级别的容灾方案。所谓应用级的容灾,是指在数据容灾的基础上,在异地建立一套完整的与本地生产系统相当的备用应用系统(可以是互为备份)。1.4.2.3 本地Cluster>同城异地Cluster备份、Cluster,复制等技术都是为防止系统或数据故障时业务仍然可用。其中,CkISter技术可以处理以下原因造成的故障:系统硬件故障如数据/系统磁盘的损坏将导致数据不能访问,并进而可能导致应用进程终止或系统停机,甚至系统不能重启动;网卡的损坏可使终端用户无法访问系统服务;CPU或内存的失效则会导致系统的死机;应用程序或操作系统出错由于操作系统或应用程序中可能存在不完善的地方,当碰到某种激发事件时,应用程序非正常终止或系统崩溃(只能通过改善程序或系统来解决);人为错误一些人工的误操作,如删除系统或应用文件,终止系统或应用服务进程,也会导致系统服务的无法访问;自然灾害由于一些意外的不可抗拒的因素,如雷击、火灾、洪灾等导致的计算机系统破坏,将会使一般系统的恢复非常困难和耗时,导致业务系统长时间的中断(通过容灾系统来解决,正常的停机主要指计划内的系统升级、安装软件、系统备份等过程。为保证整个容灾系统的高可用,本方案将采用本地Cluster和同城异地Cluster相结合的方式实现应用级容灾。1.4.2.3.1本地Cluster本地Cluster系统应用非常广泛,大部分关键的业务系统都采用Cluster技术来防止单机故障。一般来说,Cluster主要由硬件和软件两部分组成。硬件部心跳线;软件部分有:对资源的监控和切换,分有:多台服务器设备,共享磁盘,心跳协议,日志管理。ChlStet硬件 相同操作系统的两台或以上服务器 共享磁盘 心跳ChISkT软件 资源监控和管理- 磁盘- 应用- 网络心跳协议日志Cluster会在两条心跳链路上传输侦测包,实时监测其他主机系统和各种软硬件资源的运行情况,如应用进程、网卡、IP、磁盘、文件系统等,当任何一种资源失效时,CLUSTER即会按照预先定义的规则快速实行相应的硬件或应用切换。例如:- 当一台机器上的工作网卡发生故障时,CLUSTER会自动地切换到另一块网卡;- 当一台主机发生故障或关机时,CLUSTER会自动地将其上的应用切换到另一台机器;- 当应用服务进程非正常终止时,CLUSTER会自动重起相关进程,或将服务进程切换到其他机器上三当系统需要进行维