IT架构是指由服务器、存储、网络、操作系统、数据库、中间件以及各类管理工具等共同构成的IT运营环境。提升IT架构的可用性可以明显提升IT系统整体的可用性、安全性和持续性。要实现IT架构的高可用性,不仅需要在数据中心基础设施方面实现高可用性,还需要在服务器、存储、网络、操作系统、数据库、中间件等方面满足高可用性需求。
主机系统高可用性解决方案
当应用系统的主机发生故障时,可利用主机的集群技术来解决,当一台主机发生故障后,业务系统会自动切换到其它主机继续提供服务。目前,主机的群集主要分为本地群集和远程异地群集两种,群集方式主要包括主备方式、互备方式和并发方式。
主备方式采用N+1备份方式,即用1台主机作为多台主机的备份主机,当某一台生产主机发生故障时,用备份主机接替生产主机运行。
互备方式一般是两台主机分别运行不同的应用系统,互为备份,当某一台主机的某个应用系统发生故障时,启用另一台主机的备份系统运行。
并发方式一般是多台主机运行同一个应用系统,并实现负载均衡,当某一台主机出现故障时,其他主机接管故障主机,并重新进行负载均衡。
存储系统高可用性解决方案
对于单一存储配置,可通过磁盘RAID技术加热备磁盘来解决,对于存储本身一般都采用双磁盘控制器和双电源实现冗余配置;当磁盘发生故障时可以通过热备磁盘及时替换来进行故障处理,当存储控制器故障时可以实现连个控制器的自动切换。电源故障时有冗余电源,不会因造成存储的故障造成数据库的数据丢失。
对于冗余存储配置,采用冗余存储,利用存储之间的镜像技术,使数据同时保存在两个存储上;或者逻辑卷镜像的方式来实现存储系统的高可用性,采用多路径技术将业务数据分别保存在两个存储或者两个不同的逻辑卷上,当一个存储或者一个逻辑卷发生故障,数据库主机系统会自动切换到另外一台存储或者另外一个可用的逻辑卷上。
网络高可用性解决方案
在多个数据中心网络系统的建设中需要遵循有关的网络互联标准、规范,选用合适的网络互联技术及产品(包括交换,路由及接入设备),依托公共通信设施可提供的通信环境,采用完备的网络设备构筑起一个结构合理、性能良好、安全可靠的网络通信平台,在其基础上可以实现高质量的数据和图像、文件等的通信、复制服务,达到提供高质量通信服务的目标。
网络系统作为承载业务系统的基础,系统的高可用性是保证业务连续性要求的重要保证,网络系统的短时间中断就可能影响大量业务,造成不可挽回的重大损失。
因此多中心的网络系统建设应具备完整容错能力和最小网络故障恢复时间,网络的结构应具有冗余性及可恢复性,网络设备的高可用性,充分保证了网络系统的整体高可用性。由于业务连续性的要求,99.999%的网络高可用(一年中不能提供服务的时间在5分钟左右),已经开始成为双中心网络建设的基本要求。
为保证双中心网络系统的高可用性需从以下几方面考虑:
网络设备的冗余设计
在网络设备的选择上应考虑设备自身冗余配置,包括设备自身的冗余电源及风扇、冗余引擎、无源备板、冗余控制单元、冗余内存单元、冗余数据存储单元、冗余端口等设计,可以有效减少设备自身故障导致的业务系统中断。
网络连接架构冗余设计
在层次化结构的网络系统中,接入层、汇聚层、核心层之间的连接需配置多条冗余链路,并可以实现链路之间的自动切换,以保证故障发生时最小的中断时间。
数据中心的网络系统与各外联机构的连接线路类型、数量、运营商及带宽都应有所不同,当每个外联都有两条或两条以上不同运营商线路连接的情况,采用相应的线路自愈技术,可以实现线路的快速接替,避免由于运营商的问题造成对业务的影响。
网络设备的业务连续性机制
在多中心网络系统设计中,核心设备以及关键设备需在不停机情况下,实现不停机扩容、维护、升级等服务,提高性能以满足新的业务需求,并具有7×24×365连续工作的能力。
数据库高可用解决方案
数据库的高可用性是建立在主机高可用性的基础之上的,必须要用高可用的主机集群和高可用性的存储来保证。数据库的高可用性解决方案可实现不同场景下的数据恢复和业务连续性。
对于主机故障导致的业务中断,可通过数据库群集技术,如Oracle RAC(Real Application Cluster)技术,实现数据库的无缝连接,当一个主机系统发生故障时,业务系统无需中断,可以继续连接到集群中的其它数据库服务器上进行业务操作,保持业务的连续性。
对于人为误操作导致的业务中断,可采用数据库回滚操作,或者利用恢复技术从已经备份的数据文件中,恢复数据库对象。同时可通过限制用户的访问,只允许数据库操作人员对执行业务实际所需的数据和服务进行访问,严格控制数据库操作人员对数据库的访问权限。
对于数据损坏导致的业务中断,可通过数据库系统本身的备份恢复技术,提供的各种形式在线备份,例如ORACLE数据库的RMAN及exp备份以及数据文件的在线备份,SQL Server的BCP备份。当数据库发生文件故障时,可以利用备份文件对数据库进行快速恢复,从而保证数据安全性。
对于站点故障导致的业务中断,可通过在本地或远程创建并维护一个生产数据库副本。在遭遇灾难或发生损坏事件时,数据用户将可以通过访问远程数据库继续保持工作。数据保护的最简单形式为离线存储数据库备份文件。当数据库无法在合理的事件内继续提供服务时,备份文件可恢复到其它站点的系统中,从而使用户可以连接至备份系统。常见的技术包括Oracle的DataGuard、Quest SharePlex for oracle、Golden Gate、DSG RealSync等技术。这些技术可以实现数据库的准实时复制,将数据库的日志传输到异地,再进行数据库SQL重用,将数据重新写入到副本数据库中,实现数据库的异地站点保护。
对于由于数据更改导致的业务中断,目前的数据库,如Oracle可在不停机的情况下对数据库进行运维。比如:为 SMP 服务器添加或删除处理器;在线添加或删除 RAC 集群中的节点;动态增加共享内存分配,自动线调整内存;在线添加或删除存储,同时不影响数据库访问;作到在线运维;在线移动数据库文件;在线数据库备份与恢复。