首页 >> 新闻资讯 >> 行业新闻 >> 详细内容
test

 

 

 

 

 

中信集团灾备中心建设方案

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

V4.0

 

 

 

 

中企网络通讯技术有限公司

2015年5月14日

 

 

第1              集团应用系统灾备需求... 4

1.1                  灾备项目背景... 4

1.2                  集团生产站点总体现状... 4

1.3                  灾备项目需求... 9

第2              集团灾备中心建设目标... 10

2.1                  灾备级别划分... 10

2.1.1          2  备份介质异地存放+异地备份数据中心... 10

2.1.2          3  网络传输+异地数据中心部分设备支持... 11

2.1.3          4  网络传输+异地数据中心完整设备支持... 12

2.2                  灾备系统组成... 14

2.3                  灾备模式介绍... 15

2.4                  集团一期灾备项目关键指标要求... 15

第3              业务系统灾备建设方案... 16

3.1                  方案设计思路... 16

3.2                  灾备中心VM规划... 17

3.3                  信息披露系统灾备设计... 18

3.3.1          方案设计拓扑图... 18

3.3.2          虚拟服务器层面... 18

3.3.3          Oracle数据库设计... 19

3.4                  股份门户网站灾备设计... 20

3.4.1          方案设计拓扑图... 20

3.4.2          虚拟服务器层面... 20

3.4.3          SQL Server数据库设计... 20

第4              灾备网络概要设计... 21

4.1                  方案设计拓扑图... 21

4.2                  集团管理信息部部署方式... 22

4.3                  上海宝山机房部署方式... 23

4.4                  灾备数据业务流向... 24

4.4.1          Veeam灾备数据复制... 24

4.4.2          应用系统数据复制... 25

4.5                  灾备切换场景及业务数据流向分析... 27

4.5.1          正常情况下的路由及数据流... 27

4.5.2          灾备切换场景概述... 28

4.5.3          灾备切换情况说明... 30

第5              数据灾备及数据回复的实现过程... 31

5.1                  数据灾备过程... 31

5.2                  数据回复过程... 32

第6              灾备技术说明... 33

6.1                  Veeam的实现过程... 33

6.2                  Veeam的优势分析... 34

第7              灾备项目实施相关... 36

7.1                  实施计划... 36

7.2                  灾备站点基础设施... 37

7.2.1          软硬件选型... 39

7.3                  灾备站点虚拟机配置... 40

7.4                  项目交付... 41

7.5                  安装过程... 41

7.6                  项目支持团队... 42

7.7                  项目进度... 42

7.8                  UAT测试标准... 43

7.9                  灾备启动流程... 44

7.10               灾备回复流程... 45

7.11               责任划分... 46

第8              客户服务... 48

8.1                  客户服务理念... 48

8.2                  一站式服务支持... 48

8.3                  客户满意度的措施... 48

8.4                  服务优势... 49

8.5                  中企通信服务质量承诺标准... 49

8.5.1          MPLS VPN专线承诺标准... 49

8.5.2          中企通信云平台承诺标准... 50

第9              中企通信灾备中心服务介绍... 51

9.1                  中企通信灾备中心服务综述... 51

9.2                  上海宝山数据中心概述... 52

9.3                  中企通信云计算服务(SMARTCLOUD™)概述... 52

9.4                  中企通信灾备服务(BRR)概述... 54

第10           成功案例... 56

 

 

 

  1. 集团应用系统灾备需求
    1. 灾备项目背景

随着集团业务信息量增大,集团日常工作对信息化的依赖程度越来越高。业务系统一旦中断,将给集团带来巨大的经济损失和负面效应。业务连续性的保障工作成为集团管理信息部首要考虑的问题。因此要建设异地灾备中心,对核心业务系统进行容灾备份,在系统出问题时,能有相关的容灾系统及时接管业务,保证业务系统的连续、稳定运转。

    1. 集团生产站点总体现状

中国中信集团有限公司建设有IT共享服务中心和数据中心,承载着集团的所有信息化系统及子公司的部分应用系统。

 

IT共享服务中心拥有2台IBM P710主机、6台IBM P730主机(112核CPU、448G内存)以及10台IBM X3850服务器、2台IBM X3650服务器(44颗6核CPU、1664G内存),利用PowerVM和VMware虚拟化技术,构建了小型机资源池和PC服务器资源池,同时利用2台IBM V7000存储(22T可用容量)、1台Netapp V6210a存储(20T可用容量)构建了存储资源池;数据中心拥有2台IBM P730主机(32核CPU、128G内存)以及3台IBM X3850服务器(18颗6核CPU、160G内存),利用PowerVM和VMware虚拟化技术,构建了小型机资源池和PC服务器资源池,同时利用1台IBM V7000存储(11T可用容量)构建了存储资源池;小型机资源池和PC服务器资源池通过4台CISCO 9148光纤交换机多路径连接到存储资源池。

IT共享服务中心和数据中心利用PowerVM、VMware技术部署了40余台小型机虚拟机以及140余台PC服务器虚拟机,承载着门户网站、内联网、集成化管理类应用、邮件系统、数据分析系统等应用系统及各应用系统的开发测试环境。

虚拟机的操作系统包括AIX(6.1为主)、Windows(2000、2003、2008、2012)、Linux(Redhat、CentOS、SUSE),数据库包括Oracle RAC(10g、11g)、SQL Server双机、DB2、MySQL等,中间件包括Websphere、Weblogic、Tomcat等,应用平台包括Portal、Domino、HFM等。

IT共享服务中心和数据中心的网络由2台CISCO 4507R和一台Huawei5700交换机组成,利用2台天融信TG61040、2台Feitigate1000c防火墙划分出核心区、辅助区、安全区、测试区、Web区等多个虚拟网络,防火墙具有访问控制、防攻击、防病毒的功能。

IT共享服务中心和数据中心还部署有2对美国优势网络公司的Inchorus1240应用前端交换机,配置了部分应用系统的负载均衡。

用户访问各应用系统时,大部分通过TDS统一认证,有些应用系统有自己的认证系统。

1.2.1 一期生产站点现状

集团的信息披露系统和中信股份门户网站的服务器架构基于双机热备份的架构部署。

 

 

 

 

 

 

 

 

信息披露系统的现状如下:

 

如图所示,目前信息披露系统由9台服务器组成,其中2台web服务器、2台HFM服务器、2台数据管理服务器以及及1台报表分析服务器共7台服务器运行在集团的VMware虚拟化平台上,操作系统为Windows2008 R2,2台数据库服务器运行集团的PowerVM虚拟化平台上,操作系统为AIX 6.1。

7台VMware虚拟服务器部署着Oracle公司的Foundation、HFM、BIEE,以及景华天创公司的Bivison;2台PowerVM虚拟化小型机部署着Oracle RAC。

2台web服务器、2台数据管理服务器使用美国优势公司的Inchorus配置了负载均衡,2台web服务器为双活模式,2台数据管理服务器为主备模式。

信息披露系统数据分为两类:一类为随机上报的披露数据,每月约100条左右;一类为按季度上报的合并数据,目前有70家子公司上报,每家每次数据量为5M左右。

 

 

 

 

 

 

 

 

股份门户的现状如下:

 

如图所示,目前中信股份门户网站由6台服务器组成,2台web服务器、2台CMS服务器、2台数据服务器共6台服务器运行在集团的VMware虚拟化平台上,操作系统为Windows2012 R2。

6台VMware虚拟服务器部署着Windows IIS、Euroland公司的CMS和Windows SQL server数据库集群。

2台web服务器使用美国优势公司的Inchorus配置了负载均衡,为双活模式。

门户网站的数据更新是随机的,每月约15条左右。

根据集团提供的信息系统调查表计算出,生产环境下,各信息系统的的资源用量为:

服务器

CPU

内存

存储

VMDK文件大小

IP地址

负载均衡(服务)IP

中信集团信息披露系统

Web服务器1

2

8G

C:100G   D:50G

8G   12G

172.20.17.65

172.20.16.26

Web服务器2

2

8G

C:100G   D:50G

8G   12G

172.20.17.66

HFM应用服务器1

2

16G

C:100G   D:150G

11G   24G

172.20.17.55

172.20.17.55

HFM应用服务器2

2

16G

C:100G   D:150G

8G    14G

172.20.17.56

172.20.17.56

数据管理服务器1

2

16G

C:100G   D:150G

10G   21G

172.20.17.58

172.20.16.25

数据管理服务器2

2

16G

C:100G   D:150G

8G    12G

172.20.17.59

数据库集群

 

 

 

 

 

172.20.21.30

中信股份门户网站

Web服务器1

4

12G

C: 50G

25G

172.20.2.8

172.20.2.18

Web服务器2

4

12G

C: 50G

23G

172.20.2.9

CMS服务器1(主服务器)

4

12G

C: 50G

24G

172.20.17.68

172.20.17.68

CMS服务器2(备用服务器)

4

12G

C: 50G

22G

172.20.17.69

172.20.17.69(备用地址)

数据库服务器1

4

16G

C:

150G

500G

29G

2G

172.20.21.32

172.20.21.35

172.20.21.34

                 

 

 

 

 

    1. 灾备项目需求

集团目前第一期计划针对信息披露系统和中信股份网站进行灾备项目的实施。目前信息披露系统的web服务器、HFM服务器、数据管理服务器以及报表分析服务器共7台服务器运行在集团的vmware虚拟化平台上,披露系统的Oracle数据库系统运行在小型机上,该系统的主要功能是完成财务报表的合并,同时支持中信股份的信息披露业务;中信股份的官方网站的6台服务器也运行在集团的vmware虚拟化平台上,该网站属于中信股份的官方网站,是中信股份集团对外的信息发布和形象展示窗口;集团信息部门要求针对这两个系统提出可行性灾备方案,要求在生产站点业务中断后,灾备站点可以在一定时间内完全接管业务,保证数据在异地有冗余备份。

  • 信息披露系统的要求:
  1. 灾备站点的Web服务器、HFM服务器、数据管理服务器、Oracle数据库服务器和DNS服务器的IP地址均不能变更;
  2. 信息披露系统只针对中信集团本部和集团下属各个子公司提供服务,全部通过中信集团第二张网进行内网访问;
  3. 生产站点和灾备站点之间通过MPLS VPN网络连通,实现数据的传输;
  • 中信股份门户网站的要求:
  1. 灾备站点的Web服务器、CMS服务器和SQL Server数据库服务器的IP地址可以不和生产站点的Web服务器、CMS服务器以及SQL Server数据库服务器保持一致;
  2. 中信股份门户网站对外通过互联网提供访问服务;
  3. 生产站点和灾备站点之间通过MPLS VPN网络连通,实现数据的传输和交互;

 

 

  1. 集团灾备中心建设目标
    1. 灾备级别划分

根据国务院信息化工作办公室于2005年4月下发的《重要信息系统灾难恢复指南》中的定义,灾难恢复等级可以划分为6个不同的等级,根据不同的灾难恢复需求确定灾难恢复等级,不同的灾难恢复等级,其解决方案可根据灾难恢复登记以下主要方面所达到的程度分为七级,即从低到高有七种不同层次的灾难恢复解决方案。可以根据中信集团各业务的系统及数据的重要性以及恢复策略,来设计选择灾难恢复方案和计划。根据《重要信息系统灾难恢复指南》的定义,灾难恢复级别的选择,主要决定以下七个要素:

  • 数据备份系统
  • 备用数据处理系统
  • 备用网络系统
  • 备用基础设施
  • 技术支持
  • 运营维护管理
  • 灾难恢复预案
    国信办在《重要信息系统灾难恢复指南》中定义了灾难恢复等级划分了六个标准,依据风险分析和业务影响分析,按照业务连续性要求,集团总部信息系统分为重要信息系统、次重要信息系统和非重要信息系统3类,每类信息系统适用不同的国家灾备等级标准:
  • 重要信息系统:4级
  • 次重要信息系统:3级
  • 非重要信息系统:2级
    具体内容如下:
     
      1. 2  备份介质异地存放+异地备份数据中心

第二级灾难恢复应具有技术和管理支持如表A.2所示。

表 A. 2 第2级灾难恢复的技术和管理支持

 

要素

要求

A.2.1

数据备份系统

  1. 完全数据备份至少每周一次;
  2. 备份介质场外存放。

A.2.2

备用数据处理系统

  1. 灾难发生时能在预定时间内调配所需的数据处理设备到场。

A.2.3

备用网络系统

  1. 灾难发生时能在预定时间内调配所需的通信线路和网络设备到位。

A.2.4

备用基础设施

  1. 有符合介质存放条件的场地;
  2. 有满足信息系统和关键业务功能恢复运作要求的备用场地。

A.2.5

技术支持

A.2.6

运行维护支持

  1. 有介质存取、验证和转储管理制度;
  2. 按介质特性对备份数据进行定期的有效性验证;
  3. 有备用场地管理制度;
  4. 与相关厂商有符合灾难恢复时间要求的紧急供货协议;
  5. 与相关运营商有符合灾难恢复时间要求的备用通信线路协议。

A.2.7

灾难恢复预案

  1. 有相应的经过完整测试和演练的灾难恢复预案。
      1. 3  网络传输+异地数据中心部分设备支持

第三级灾难恢复应具有技术和管理支持如表A.3所示。

表 A. 3 第3级灾难恢复的技术和管理支持

 

要素

要求

A.3.1

数据备份系统

  1. 完全数据备份至少每天一次;
  2. 备份介质场外存放;
  3. 每天多次利用通信网络将关键数据定时批量传送至备用场地。

A.3.2

备用数据处理系统

  1. 配备灾难恢复所需的部分数据处理设备。

A.3.3

备用网络系统

  1. 配备部分通信线路和相应的网络设备

A.3.4

备用基础设施

  1. 有符合介质存放条件的场地;
  2. 有满足信息系统和关键业务功能恢复运作要求的场地。

A.3.5

技术支持

  1. 在备用场地有专职的计算机机房运行管理人员。

A.3.6

运行维护支持

  1. 按介质特性对备份数据进行定期的有效性验证;
  2. 有介质存取、验证和转储管理制度;
  3. 有备用计算机机房管理制度;
  4. 有备用数据处理设备硬件维护管理制度;
  5. 有电子传输数据备份系统运行管理制度。

A.3.7

灾难恢复预案

有相应的经过完整测试和演练的灾难恢复预案。

      1. 4  网络传输+异地数据中心完整设备支持

第四级灾难恢复应具有技术和管理支持如表A.4所示。

表 A. 4 第4级灾难恢复的技术和管理支持

 

要素

要求

A.4.1

数据备份系统

  1. 完全数据备份至少每天一次;
  2. 备份介质场外存放;
  3. 每天多次利用通信网络将关键数据定时批量传送至备用场地。

A.4.2

备用数据处理系统

  1. 配备灾难恢复所需的全部数据处理设备,并处于就绪状态或运行状态。

A.4.3

备用网络系统

  1. 配备灾难恢复所需的通信线路;
  2. 配备灾难恢复所需的网络设备,并处于就绪状态。

A.4.4

备用基础设施

  1. 有符合介质存放条件的备用场地;
  2. 有符合备用数据处理系统和备用网络设备运行要求的场地;
  3. 有满足关键业务功能恢复运作要求的场地;
  4. 以上场地应保持7 x 24运作。

A.4.5

技术支持

在备用场地有:

  1. 7 x 24专职计算机机房管理人员;
  2. 专职数据备份技术支持人员;
  3. 专职硬件、网络技术支持人员。

A.4.6

运行维护支持

  1. 有介质存取、验证和转储管理制度;
  2. 按介质特性对备份数据进行定期的有效性验证;
  3. 有备用计算机机房运行管理制度;
  4. 有硬件和网络运行管理制度;
  5. 有电子传输数据备份系统运行管理制度。

A.4.7

灾难恢复预案

有相应的经过完整测试和演练的灾难恢复预案。

 

    1.  
    2. 灾备系统组成

一个典型的灾备系统由灾备中心基础环境设施、数据备份系统、备份处理系统、网络通信系统和灾难恢复计划等组成。

 

在集团第一期的灾备项目中,灾备系统的组成如下:

  • 基础设施环境:由中企通信位于上海宝山的云计算数据中心(T3+级别)提供异地灾备数据中心的基础设施环境,以保障数据备份系统和备份处理系统的正常工作;
    采用DELL高性能x86架构服务器、SAN存储以及光纤交换机作为底层硬件资源;
  • 数据备份系统:依托集团总部数据中心和上海宝山数据中心之间高速、稳定的MPLS VPN骨干网络,通过中企通信SmartCLOUD vONE私有云和虚拟化灾备软件veeam backup & replication来构建此次项目的数据备份系统;
  • 备份处理系统:veeam server控制台系统、Oracle数据库、SQL Server数据库、TDS身份验证系统以及DNS系统,构成灾备中心的整个备份处理系统;
     

灾难恢复计划主要基于以下两个阶段考虑:

系统切换阶段:业务系统的故障切换主要针对灾备中心的业务系统虚拟服务器进行快速、有效地恢复,按照预先制定的业务系统恢复流程和启动顺序进行操作;

网络切换阶段:网络层面的切换主要针对灾难发生后的业务访问进行快速、有效的网络切换,确保用户可以正常访问到灾备中心的业务系统;

 

 

    1. 灾备模式介绍

灾备模式主要分为双活模式和主备模式2类,其中主备模式又可分为热备模式、暖备模式和冷备模式。

双活模式:主中心和灾备中心负载均衡,用户可同时访问主中心或灾备中心,主中心和灾备中心之间双向同步复制数据(要求距离小于100公里),数据零丢失,适用同城灾备,该模式对应国家标准6级。

热备模式:当主中心发生灾难时,自动切换到灾备中心,主中心数据向灾备中心同步复制数据(要求距离小于100公里),数据零丢失,适用同城灾备,该模式对应国家标准6级。

暖备模式:当主中心发生灾难时,手动切换到灾备中心,主中心向灾备中心实时复制数据,数据丢失小,适用同城或异地灾备,该模式对应国家标准5级。

冷备模式:当主中心发生灾难时,手动切换到灾备中心;主中心向灾备中心定时复制或备份数据,数据丢失较大,适用同城或异地灾备,该模式对应国家标准4或3级。

    1. 集团一期灾备项目关键指标要求

集团目前一期计划针对中信股份信息披露系统和中信股份网站进行灾备项目的实施,通过项目的实施,形成一种灾备的模式,下一步对更多的核心应用进行灾备。根据应用系统的访问需求,对灾备中心提出如下需求:

要求信息披露系统在2小时内实现业务系统的全面接管,包括系统的启动、内部网络IP的接管、应用的启动,以及辅助的域名解析服务、TDS身份认证服务、VPN访问的切换;同时要求信息披露系统的数据丢失量小于4个小时;(RT0<2小时、RPO<4小时)

要求中信股份网站在半小时内恢复可访问,包括系统的启动、域名的切换;同时要求中信股份网站的数据丢失量小于4个小时;(RT0<0.5小时、RPO<4小时)

以上两个业务系统的灾备需求适用4级的国家灾备等级标准,采用冷备模式。

  1. 业务系统灾备建设方案

中企通信提供一个完整的异地灾备解决方案:使用异地数据中心的SmartCLOUD™vONE私有云服务以及生产站点和灾备站点之间MPLS VPN网络连接的服务来解决由于人为错误、技术故障、自然灾害、病毒木马以及其他不可预知因素导致的数据丢失和业务中断的问题,同时提供一个快速恢复客户的关键任务和业务数据的方案。

该方案的目的是为了保护集团的数据免受灾难和虚拟服务器故障所带来的丢失和损坏风险,在业务系统因灾难或故障引起生产站点不可用或者数据丢失损坏时,灾备中心可以完全接管业务,并且灾备中心的数据具有可恢复性和即时性。

    1. 方案设计思路
  1. 信息披露系统和股份门户网站采用主备模式来实现异地灾备;基于两个业务系统的RTO/RPO要求,针对信息披露系统,采用冷备模式;针对股份门户网站,做镜像站点设计,灾备模式采用冷备模式;生产站点发生灾难时,两个系统均需要进行手工切换;
  2. 生产站点和灾备站点的复制策略可以针对每台虚拟服务器(信息披露系统的web服务器、HFM服务器和数据管理服务器)进行自定义,并提供vmware虚拟化架构下定时复制和增量复制的功能,针对每次复制任务得执行结果要有日志记录功能,出现异常时具有报警提示;
  3. 股份门户网站web服务器的内容通过网站后台进行统一发布;
  4. 股份门户网站的CMS服务器在灾备站点处于开启状态,使用文件定时同步(4小时/次)的方式满足RPO的要求;
  5. 针对信息披露系统的Oracle数据库,在灾备中心部署x86架构下的Oracle数据库,通过自动化脚本的方式实现灾备站点数据的定时更新;
  6. 针对股份门户的SQL Server数据库,在灾备中心部署单机版SQL Server数据库服务器,通过自动化脚本的方式实现灾备站点数据的定时更新;
  7. 针对TDS和DNS,在灾备站点的虚拟服务器中,部署TDS节点,通过MPLS VPN内网同步用户数据;在DNS服务器上对信息披露系统的域名进行A记录的设定;
  8. 有不同的恢复方案应对不同的灾难场景
    1. 灾备中心VM规划

灾备中心规划图:

 

 

灾备中心VM规划列表:

灾备中心VM规划

系统名称

服务器名称

操作系统

应用程序

生产站点IP

负载均衡IP

灾备站点IP

启动顺序

信息披露系统

Web服务器

windows 2008 R2 (64位)

Foundation

172.20.17.65/
172.20.17.66

172.20.16.26

172.20.17.65

 

HFM服务器

windows 2008 R2 (64位)

HFM Bivison

172.20.17.55/
172.20.17.56

 

172.20.17.55

 

数据管理服务器

windows 2008 R2 (64位)

Bivison

172.20.17.58/
172.20.17.59

 

172.20.17.58

 

报表分析服务器

windows 2008 R2 (64位)

BIEE

172.20.17.60

 

172.20.17.60

 

Oracle服务器

 

Oracle 11g

172.20.21.28/29
172.20.21.26/27/30

 

172.20.21.30

 

中信股份门户

Web服务器

windows 2012 R2 (64位)

IIS 7.0

172.20.2.8/
172.20.2.9

 

 

 

CMS服务器

windows 2012 R2 (64位)

CMS

172.20.17.68/
172.20.17.69

 

 

 

数据库服务器

windows 2012 R2 (64位)

SQL Server 2012

172.20.21.32/35、172.20.21.33/36、
172.20.21.34

 

 

 

TDS身份验证系统

TDS服务器

windows 2008 R2 (64位)

IBM Tivoli

 

 

待规划

 

域名解析系统

DNS服务器

windows 2008 R2 (64位)

MS DNS

 

 

10.200.1.1

 

vmware虚拟化管理平台

vCenter服务器

windows 2008 R2 (64位)

vCenter

 

 

待规划

 

veeam备份控制台

veeam备份控制台服务器

windows 2008 R2 (64位)

veeam backup manager

 

 

待规划

 

    1. 信息披露系统灾备设计
      1. 方案设计拓扑图

 

 

复制类型

复制步骤

阶段任务

初次复制

建立复制任务

通过灾备站点的Veeam Server建立复制任务

选择需要复制的VM,复制的时段,vLAN/IP设置等

复制任务的配置(Metadata)将存储于Veeam Server上的文件夹中

对生产站点的VM进行快照

Veeam通过VMware的快照功能对生产站点的VM执行快照

快照存放于VM自身的数据卷中(Datastore)

将生产站点的VM复制到灾备站点

将VM的快照全部复制(Full)到灾备站点

灾备站点的VM将存储于指定的数据卷中,并处于随时可开机状态

当复制完成后,生产站点的VM快照将自动删除

后续复制

对生产站点的VM进行快照

Veeam通过VMware的快照功能对生产站点的VM执行快照

快照存放于VM自身的数据卷中(Datastore)

将生产站点的数据增量复制到灾备站点

将VM的快照和灾备站点现有的VM数据进行比对

将数据的增量复制到灾备站点,更新现有的VM并形成一个新的还原点

当复制完成后,生产站点的VM快照将自动删除

 

根据集团管理信息部对本次项目RTO/RPO的要求,veeam的复制频率设定为4小时/次,并且保留24小时以内的还原点快照;

 

  • 针对身份验证系统和域名解析系统,中企会在灾备站点部署一套处于开机状态的TDS系统和DNS系统,其中,TDS系统作为集团身份验证系统的一个Slave节点定期从TDS的Master节点获取更新数据;DNS系统的IP地址和生产站点DNS系统的IP地址保持一致,并将信息披露系统的域名解析到172.20.17.65以此确保灾备站点启用后,身份验证功能和域名解析功能处于可用状态。
      1. Oracle数据库设计

针对生产站点的Oracle服务器集群,设计如下:

在灾备中心部署x86架构下的单机Oracle数据库,通过自动化脚本的方式实现生产站点Oracle数据的定时导出并定时传输到灾备站点Oracle服务器,在灾备站点的Oracle服务器上执行定时导入;(中企通信会在此次项目中提供具备Oracle数据库的导出、远程传输、定时导入功能的脚本程序,检测脚本)

根据披露系统的灾备级别,数据导出的频率设定为4小时/次,在灾备站点的Oracle服务器端保留24小时以内的数据导出文件;

    1. 股份门户网站灾备设计
      1. 方案设计拓扑图

 

      1. 虚拟服务器层面
  1. 针对WEB服务器,实现方式如下:
    通过在股份门户网站的后台上传功能模块中增加灾备站点的地址,来达到WEB服务器数据同步的目的;
  2. 针对CMS服务器,实现方式如下:
    在灾备站点单独的一台虚拟服务器上部署股份门户的CMS服务,配置不同于生产站点CMS的IP地址,通过自动化脚本的方式实现生产站点和灾备站点两端CMS服务器的数据每4小时同步一次;
  3. 整体架构采用股份门户镜像站点的部署方式,正常状态下WEB服务器通过MPLS VPN内网调用生产站点SQL Server数据库的数据。

 

      1. SQL Server数据库设计

针对生产站点的SQL Server服务器集群,设计如下:

在灾备中心部署x86架构下的单机SQL Server数据库,首先在生产站点的SQL Server设定数据库定时备份策略,定时生成数据库备份文件并传输生产站点的SQL Server备份文件到灾备站点SQL Server服务器上,通过计划任务定时执行批处理文件的方式进行备份文件的定时恢复;(中企通信会在此次项目中提供具备SQL Server数据库的定时备份、远程传输、定时导入功能的批处理文件程序)

数据库服务器IP地址方面,配置不同于生产站点SQL Server集群的地址;当生产站点发生灾难、SQL Server集群服务失效时,中企通信后台运维人员将手工更改灾备站点的SQL Server服务器IP地址为生产站点的SQL Server集群IP地址,完成数据库服务的切换。

根据股份门户的灾备级别,数据导出的频率设定为4小时/次,在灾备站点的SQL Server服务器端保留24小时以内的数据导出文件;

 

  1. 灾备网络概要设计
    1. 方案设计拓扑图

 

方案描述:

  1. 针对此次集团管理信息部的披露系统、中信股份门户网站灾备项目;集团管理信息部将采用现有网络设备完成。
  2. 将灾备服务器部署在上海宝山机房,使其与集团管理信息部采用MPLS VPN(中信第二张网)互联,并在此网络上进行灾备数据的传输和生产站点恢复运营后数据的回传。
  3. 中企在上海宝山机柜部署2台Cisco3945(根据带宽的需求选择其Cisco3945,并且可满足未来带宽升级等变化)连接MPLS VPN网络,在Cisco3945通过BGP从PE接收到达集团管理信息部内部网络的路由。
    1. 集团管理信息部部署方式

 

  1. 针对此次系统灾备项目,集团信息管理部将采用现有网络设备完成灾备数据的转发,不增加硬件设备。
  2. 集团管理信息部访问上海宝山灾备中心的路由,由中企的PE路由器通过BGP协议向集团管理信息部的核心交换6509转发。
  3. 集团管理信息部的核心交换机6509将通过BGP协议收到上海宝山灾备中心的路由,并将其转发到内网EIGRP网络
  4. 在集团管理信息部内网部署Veeam代理服务器,此代理服务器将单独划分一个Vlan专用于数据备份,但此Vlan需要与vCenter通信
    1. 上海宝山机房部署方式

 

 

  1. 上海宝山机房采用2Cisco3945路由器连接MPLS VPN网络,带宽为20M,路由器分别下联2DELL交换机,2台路由器为内网提供高可用服务。
  2. 同时部署UTM安全设备连接互联网,带宽为20M,用于中信股份门户网站的互联网接入。
  3. 将部署2台物理服务器分别上联2DELL交换机,将披露系统、中信股份门户网站、Veeam服务器部署在SmartCLOUD vONE私有云上,在交换机上为这3个系统分别创建3个独立Vlan,在Cisco3945路由器配置3个子接口用于对应不同的Vlan,并为每个Vlan提供网关功能。
  4. 2台物理服务器分别下联DELL存储交换机,通过此存储交换机连接DELL存储设备。
  5. 两台3945路由器上,需要部署少量静态NAT配置,原因是披露系统中Web服务器、HFM、数据管理服务器、Ocacle服务器要求IP地址不能变动,所以在做数据备份时需要在灾备中心CE路由器配置NAT转换,以使得完成路由可达性(详细说明见1.4.2),中信股份门户网站灾备IP地址可以改变,所以在备份过程中不需要针对此系统配置NAT
  6. 针对中信股份门户网站的灾备,上海灾备中心将重新部署IP网段为173.1.1.0/24,在UTM防火墙上将此内部IP映射到互联网,并在北龙中网负载均衡设备上添加上海灾备中心UTM的公网IP地址,当灾难发生时可通过北龙中网设备将流量重定向到灾备中心的门户网站系统。
  7. 披露系统和TDS服务器属于同一个Vlan,中信股份门户网站属于另一个VlanVeeam服务器单独在另一个Vlan
    1. 灾备数据业务流向
      1. Veeam灾备数据复制

集团管理信息部的VM镜像可直接通过Veeam进行数据备份,Veeam的备份任务是通过上海灾备中心的Veeam服务器进行调度

 

                         Veeam备份和调度示意图

  1. 在上海宝山灾备中心建立一个Veeam管理服务器,在集团管理信息部建立一个Veeam代理服务器。
  2. 在上海灾备中心的Veeam管理服务器中创建复制任务,任务通过MPLS网络调用北京Veeam 代理端协作复制任务 (蓝色线路);
  3. Veeam代理端与集团管理信息部的vCenter进行授权连接,将生产站点VMware虚拟服务器的快照文件通过MPLS VPN网络复制到上海的灾备中心(红色线路);
  4. 集团管理信息部为Veeam代理服务器单独划分一个Vlan(具体Vlan可在实施阶段协调)与现有生产网络隔离,Veeam代理服务器与生产网络vCenter服务器实现路由可达;
  5. 复制到灾备站点的快照文件存储在SmartCLOUD vONE私有云的存储中,并处于随时可开机启动的状态;
  6. 为灾备中心的Veeam管理服务器划分一个单独的vlan,该vlan ID与灾备中心vCenter的Vlan ID一致,使之与披露系统、中信股份门户网站灾备服务器相互隔离,
     
      1. 应用系统数据复制

生产中心的oracle服务器和股份门户网站的web服务器、CMS服务器以及SQL Server数据库服务器不通过Veeam进行灾备复制,需要在应用系统层面进行定时的数据同步。

由于信息披露的web服务器、HFM服务器、数据管理服务器以及Oracle数据库服务器不允许改变IP地址,因此需要在灾备中心的CE路由器(Cisco 3945)上进行NAT(网络地址转换)的配置,以达到两端对应服务器之间数据同步的目的;

股份门户网站的web服务器、CMS服务器和SQL Server服务器的IP地址允许变更,并且这三台服务器的数据定时同步模式基于应用层面来实现,因此,只需在MPLS VPN骨干网络上宣告对应服务器的路由信息即可达到两端数据同步的目的;

 

说明: 1.jpg

    1. 北京生产中心的Oracle服务器以及披露系统和TDS(172.20.16.23)不能修改IP地址,因此在备份过程中需要在灾备中心的Cisco3945上配置NAT转换;
    2. 在Cisco3945上将披露系统的Oracle服务器以及TDS服务器IP地址映射为WAN口网段IP地址,北京生产网络在备份时目的地址为NAT转换后的IP地址;
    3. 股份门户网站的三台服务器(web服务器、CMS服务器和SQL Server服务器)可以变更IP地址,因此在备份过程中不使用NAT直接备份,只需保证路由可达即可;
    4. 灾备中心的虚拟服务器之间的数据交互,可直接在局域网内进行,各个虚拟服务器的网关地址都是Cisco3945对应的子接口地址。
    1. 灾备切换场景及业务数据流向分析
      1. 正常情况下的路由及数据流

说明: 1.jpg

  1. 在生产中心正常工作的情况下,集团的两台6509核心交换机将通过BGP协议向中企的PE路由器宣告灾备系统的路由;
  2. 中企的PE路由器收到这些BGP路由后,会将这些路由信息通过BGP协议在MPLS VPN网内传播,最终将传达到各子公司的CE路由器(蓝色线路);
  3. 各子公司将通过集团广播的核心区域路由进行寻址,经过中企的MPLS VPN骨干网后,访问位于集团核心区的信息披露系统(红色线路)
  4. 中信股份门户网站通过互联网进行访问;
     

 

      1. 灾备切换场景概述  
        1. 集团管理信息部整个业务系统故障

 

 

 

        1. 集团生产站点发生灾难性故障,业务系统全部故障,且无法在短时间内恢复业务时,由集团工程师通过电话、邮件等方式向中企网络发起灾备切换需求。
        2. 中企网络收到切换需求后,将第一时间安排云计算工程师协助集团启用灾备中心的虚拟服务器,并按要求修改系统设置(修改TDS系统的IP地址/修改股份门户网站web服务器中数据库的调用地址)。
        3. 同时中企网络将安排网络工程师,修改灾备中心的PE路由器的配置,按计划将灾备系统相关业务系统的主机路由信息(披露系统、股份门户网站、TDS服务器和DNS服务器)通过BGP协议广播到集团的第二张MPLS VPN网内(紫色线路)。删除北京PE路由器关于生产电点业务系统网络路由
        4. 集团及各子公司的CE路由器将通过BGP协议接收到灾备中心的网络路由,后续访问披露系统和股份门户网站的数据包全部传输到上海灾备中心。
        5. 当生产中心恢复正常后,中企网络将按照客户要求,将VM数据反向同步到生产中心,并按约定时间删除相应的主机路由广播,路由收敛完成后,业务系统的访问流量将会引导回原有路径(红色线路)。
        1. 集团管理信息部某一个业务系统故障

 

        1. 集团生产中心的系统发生故障,且无法在短时间内恢复业务时,由集团工程师通过电话、邮件等方式向中企网络发起灾备切换需求。
        2. 中企网络收到切换需求后,将第一时间安排云计算工程师协助集团启用灾备中心的虚拟服务器,并按要求修改系统设置(如需要)。
        3. 同时中企网络将安排网络工程师,修改灾备中心的PE端配置,按计划将灾备系统相关的主机路由(Web、DNS、oracle、披露系统、数据管理服务器主机IP地址)通过BGP协议广播到集团的第二张MPLS VPN网内(紫色线路)。
        4. 集团及各子公司的CE路由器等将通过BGP协议接收到灾备中心的主机路由,并把这些路由与现有的生产中心路由(/20、/24等大路由)同时放入路由表,如路由表中将同时存在172.20.16.0/20及172.20.17.65/32等主机路由。
        5. 当用户需要访问已切换到灾备中心的系统时,数据包到达CE路由器后,将进行相应的路由查找,而根据路由最长匹配原则,灾备中心广播的主机路由(如172.20.17.65/32)将会作为优选路由,引导数据包流向上海灾备中心(绿色线路),如需要访问生产中心的其他系统,则会走原有路径(红色线路)。
        6. 当生产中心恢复正常后,中企网络将按照客户要求,将VM数据反向同步到生产中心,并按约定时间删除相应的主机路由广播,路由收敛完成后,业务系统的访问流量将会引导回原有路径(红色线路)。

 

        1. 集团总部外部互联网络故障
              1. 基于集团信息披露系统和股份门户网站的访问要求,当集团外部的互联网发生中断故障时,信息披露系统的访问不受任何影响;
              2. 北龙中网的智能DNS会自动检测北京和上海两地网站服务器的状态,当检测到集团总部互联网发生故障时,将自动切换所有访问流量到上海;

 

      1. 灾备切换情况说明

在发生灾备切换时,需要注意以下情况:

              1. 如果生产中心发生网络故障,导致信息披露系统及中信股份门户网站无法访问,将需要同时切换两个系统及相关联的服务器到灾备中心;
              2. 如某个业务系统故障,则只需要切换系统到灾备中心,另外一个系统无需切换。
              3. 集团管理信息部智能DNS服务器增加上海灾备中心公网IP地址,用户股份门户网站双活访问。
              4. 当某个业务系统故障或整个生产站点故障时,中企通信都会在网络中广播相应的主机或网络路由,以替换现存的核心区域大网段路由。
              5. 业务系统切换到灾备中心后,原生产中心核心区域网段内(如172.20.16.0/20)的主机及服务器,将无法访问灾备中心的主机或系统,原因为核心区域的设备会认为灾备中心的设备还在同一个网段内,会进行ARP查询对应IP地址的MAC(结果为ARP查询超时,无法封包成功),而不会进行路由查找,将数据包发送到网关
              6. 当生产站点的互联网出现故障时,对于信息披露系统的访问没有任何影响;对于中信股份门户的访问,北龙中网的智能DNS服务将生效,将所有的访问流量全部切换到上海灾备中心,其余所有的网络结构和业务系统结构不需要做任何改变。
  1. 数据灾备及数据回复的实现过程
    1. 数据灾备过程

当生产站点发生灾难,需要启动灾备中心的相应服务时:

  • 针对信息披露系统的web服务器、HFM服务器和数据管理服务器,故障切换过程如下:
  1. 在灾备站点的veeam server上选择“故障切换(Failover)”选项,启动故障切换任务;
  2. 在veeam上选择还原点的快照文件,并启动;
  3. 等待虚拟服务器启动;
  • 针对股份门户网站的web服务器和CMS服务器,处理过程如下:

在灾难发生后,中企通信的运维人员需要手工将网站的数据库连接文件web.config中的数据库连接地址变更为灾备站点中SQL Server数据库的IP地址,北龙中网的智能DNS解析服务器检测到生产站点的服务器故障后,会自动将所有访问流量切换到上海灾备站点,以此保障股份门户网站在数分钟即可恢复;

  • 针对信息披露系统的Oracle数据库服务器和股份门户的SQL Server数据库服务器,故障切换过程如下:

停止灾备站点上Oracle服务器的定时导入脚本的任务(信息披露系统);停止灾备站点上SQL Server的定时导入脚本的任务(中信股份门户);

  • 针对TDS服务器,处理过程如下:

手工修改灾备站点TDS服务器的地址为172.20.16.23(与生产站点TDS系统的负载均衡地址相同);

  • 以上系统的网络切换部分请参考4.5
  • 最后,虚拟服务器启动完毕,数据库连接文件修改完毕后,验证灾备站点中虚拟服务器的状态和数据。

 

    1. 数据回复过程

当生产站点的业务恢复,需要将灾备中心的数据进行回复时:

  • 针对生产站点中信息披露系统的web服务器、HFM服务器和数据管理服务器全部损坏的情况,故障切换过程如下:
  • 在灾备站点的veeam server上选择“故障回复(Failback)”选项,启动数据回复任务;
  • 选择故障回复的类型;
  • Veeam将关闭灾备站点的虚拟服务器,然后将灾备站点虚拟服务器的快照文件全量复制到生产站点,复制完成后,生产站点的虚拟服务器自动开启;
  • 针对生产站点中信息披露系统的web服务器、HFM服务器和数据管理服务器全部恢复正常的情况,仅需执行网络切换即可完成业务系统的切换;
  • 针对股份门户网站的web服务器和CMS服务器,采用数据反向复制的方式更新两台服务器的应用程序文件;
  • 针对信息披露系统的Oracle数据库服务器和股份门户的SQL Server数据库服务器,故障回复过程如下:
    Oralce数据库:将灾备站点中Oracle的数据导出一份到生产站点的Oracle服务器,在生产站点的Oracle服务器上执行数据的导入工作;
    SQL Server数据库:将灾备站点中的SQL Server数据备份传输一份到生产站点的SQL Server数据库,在生产站点的SQL Server服务器上执行数据的恢复工作;
  • 以上系统的网络切换部分请参考4.5
  • 最后,验证生产站点虚拟服务器的状态和数据后,确认数据回复完成,此时,veeam恢复到故障切换前的保护状态,仍然按照原有的灾备策略执行定时复制任务;
  1. 灾备技术说明
    1. Veeam的实现过程

本次灾备方案中针对集团总部的vmware虚拟化环境,我们采用veeam backup & replication实现虚拟服务器的异地复制。

复制过程示意图:

 

 

复制过程描述:

  1. 在集团现有Vmware虚拟化环境中部署veeam backup proxy服务器负责数据的处理,并在传输过程中执行压缩操作,如图所示;
  2. 在灾备站点安装部署Veeam Server(主控台),Veeam Server负责管理复制任务,执行Failover和Failback;
  3. 集团Veeam backup proxy服务器(例如每4小时)将所有需要受保护的虚拟机通过vmware的快照功能执行快照处理,快照存在于虚拟服务器自身的数据卷中,然后定时复制快照至灾备中心的私有云存储阵列中,首次复制采用全量复制的方式;复制完成后,生产站点的虚拟服务器快照将自动删除;
  4. 后续的复制任务开始前,veeam会将生产站点新产生的快照和灾备中心的快照进行对比,将数据的增量复制到灾备站点,更新现有的虚拟服务器并形成一个新的还原点;复制完成后,生产站点的虚拟服务器快照将自动删除;
  5. 复制到灾备站点的虚拟服务器处于随时可开机的状态;
  6. 在集团的生产站点失效时,所有的备用虚拟服务器可以手动顺序启动;一旦集团的的生产站点恢复运营,虚拟服务器将切换回生产站点,并将通过增量复制的方式更新生产站点的数据;
    1. Veeam的优势分析

Veeam backup & replication是业内首屈一指的针对vmware/Hyper-V环境下的虚拟服务器备份灾备解决方案。迄今为止,它已经为25000多个客户提供了虚拟化环境下强大的数据保护和灾难恢复产品及服务。它具备以下优势:

  • 最大限度减少风险:每隔几分钟复制,更快更频繁地备份,以避免数据丢失。另外,通过测试每个备份以确认一切运行正常,来确保备份的可恢复性。
  • 降低成本:以一个低廉的价格提供强大的功能:备份、复制、压缩、去重、应用项恢复、恢复验证、多 hypervisor 支持等等。
  • 优化管理:对于大规模部署 ,Veeam 提供自适应的分布式架构,该架构可动态分配任务,让您无需为工作耗费大量精力,或不断调整工作时间表。
  • 支持任何存储器:Veeam Backup & Replication 对存储器无限制。
  • 没有代理程序:在任何的机器上都不需要安装代理程序,也不需要人工干预。
  • 映像级别的备份:允许客户恢复备份文件中某个单独的内容,也支持整个文件系统的整体恢复。
  • 安全的处理和存储:所有的备份数据都会通过SSL加密的方式转移到我们安全的存储网络中去。
  • 数据压缩和去重:数据备份的同时会在源端进行自动压缩和去重处理,保证以最小的数据进行传输,提高备份效率。
  • 快速的文件和虚拟机恢复:当备份完成时,备份文件立即可以用来恢复,客户可以向我们的服务平台请求单个文件或者多个文件恢复,甚至虚拟机整体恢复。
  • 可靠性验证:我们的备份系统会在备份后自动的验证每一个备份文件,保证备份的可用性。 

 

 

  1. 灾备项目实施相关
    1. 实施计划

为了更好的帮助客户进行项目实施,中企通信将提供一流的一站式的项目管理服务,中企通信的工程师和项目经理将与客户在初始配置的细节方面进行沟通,确定各个环节的配置形式,完成配置表单。此过程是为了确保客户的要求能满足,并避免在安装和服务开通后的任何误解。

中企通信的项目管理团队将安排与客户的项目会议,讨论项目计划并确定实施时间表;

 

 

 

 

    1. 灾备站点基础设施

中企建议集团信息部门采用异地部署SmartCLOUD™vONE私有云的方式实现业务系统的异地灾备;中企通信SmartCLOUD™vONE服务提供了一个私有的,专用的和安全的,基于VMware vSphere套件管理服务的虚拟私有基础设施。通过建立SmartCLOUD™vONE高可用云计算平台来减少服务器停机时间和增加业务敏捷性。中企通信根据客户的业务需求提供定制的私有云解决方案,由中企通信提供私有云解决方案设计、部署、持续管理和操作,它显著减少运维复杂性和运维成本,并能在更短的时间内完成客户业务系统灾备体系的建设;SmartCLOUD™vONE服务是一个成本可控和全面的一站式解决方案,提供了以下主要特点:

    • 私人和专用的基于云平台的高可用性的保护;
    • 独享的服务器、存储设备和网络设备;
    • 提供了一个双因素认证安全令牌;
    • 云平台的基础设施采用N+1的冗余架构,完全杜绝由硬件故障带来的业务系统瘫痪;
    • 简单扩展,资源量增加时,只需增加ESXi主机即可完成私有云资源的扩展;
    • 中企通信后台团队提供从硬件基础设施到云平台资源池的7x24小时运维监控服务;
    • 集成MPLS VPN网络和BGP互联网。

SmartCLOUD™vONE服务

上海宝山数据中心的SmartCLOUD™vONE私有云架构采用两台高配置x86服务器和一台集中存储阵列,使用Vmware vSphere5.1进行服务器虚拟化;采用SAN集中存储方式,这样可以将每个虚拟机的文件系统创建在共享的SAN集中存储阵列上,VMware VMFS 虚拟机文件系统,是一种高性能的群集文件系统,允许多个ESX Server 安装同时访问同一虚拟机存储。支持通过 VMware VirtualCenter、VMware VMotion™ 技术、VMware DRS 和 VMware HA 提供的基于虚拟化的分布式基础结构服务。由于VMware的虚拟架构系统中的虚拟机实际上是被封装成了一个档案文件和若干相关环境配置文件,通过将这些文件放在SAN存储阵列上的VMFS文件系统中,可以让不同服务器上的虚拟机都可以访问到该文件,从而消除了单点故障。该架构配置采用两台高配置Dell PowerEdge服务器(Intel(R) Xeon(R) Processor E5-2650 2.0GHz, 8C x 2/192GB Memory/300 GB SAS Hard Disk x 2),该服务器最大配置为(Intel(R) Xeon(R) Processor E5-2650 2.0GHz, 8C x 2/1.5TB Memory/300 GB SAS Hard Disk x 2);一台Dell存储阵列(1TB x12 7.2K NL-SAS, with Dual Controller 2U ,RAID-10),最大可用空间6TB;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

硬件连接示意图如下:

SmartCLOUD™vONE私有云硬件架构

型号

配置

数量

Dell Server

Xeon E5-2609/256GB/1TB*4

2

Dell EqualLogic系列存储

14个2.5英寸硬盘,采用  6 Gbps SAS后端;

两个热插拔10 GbE控制器,每个控制器 配备4 GB内存

1

Dell 千兆交换机

24口千兆交换机

2

Dell 光纤交换机

24x10GbE SFP+ port

2

TrustCSI UTM FG100

UTM防火墙,支持VPN功能

1

Cisco 3945 Router

CE路由器

2

 

  • 软件系统

软件名称

功能

数量

Vmware vSphere Enterprise Edition

虚拟化软件

4个CPU授权

Veeam Backup & Replication Enterprise

第三方虚拟化备份软件

16个CPU授权生产站点的CPU数量

Windows server 2012 Enterprise Edition

操作系统

SPLA

 

    1. 灾备站点虚拟机配置
  • 两台台高配物理服务器安装VMware企业版,做成一个虚拟群,共虚拟约12台虚拟服务器;
  • 每台物理服务器本地硬盘安装VMware的ESX Server,ESX Server上创建的虚拟机VM则放在共享的iSCSI存储上;
  • 首次复制阶段100Mbps MPLS VPN带宽,后续20Mbps MPLS VPN带宽;
  • 20Mbps BGP互联网带宽;
  • UTM防火墙(开启SSL VPN),支持500账号拨入
     
     
     
     
     
     
     
     
     
     
     
     
     
     
    1. 项目交付
  1. 开通京城大厦和上海宝山数据中心的MPLS VPN Port;
  2. 开通BGP互联网连接;
  3. UTM安装,并配置SSL VPN,集成TDS身份验证;
  4. 完成SmartCLOUD™vONE私有云的硬件安装和配置;
  5. 完成生产站点和灾备站点veeam Backup & Replication的安装,并按照客户的要求配置完成复制任务策略;
  6. 完成数据库层面各个功能脚本的功能测试;
  7. 完成并通过在预先定义的UAT计划中所列的测试用例;
    1. 安装过程

中企通信公司将确保MPLS VPN网络、网络设备、UTM设备、服务器以及存储阵列在灾备服务实现之前准备完毕,同时完成生产站点和灾备站点veeam软件的安装配置;
veeam复制任务建设先决条件如下:

客户端:

  • 1 台 VM (2 vCPU, 8 GB Memory) 安装Windows Server 2008 R2并提供Administrator权限;
  • 客户的vCenter Administrator权限;
  • 开通两端的MPLS VPN专线连接;

 

灾备端

  • 1台VM (2 vCPU, 8 GB Memory) 安装Windows Server 2008 R2并提供Administrator权限;
  • 灾备环境的vCenter Administrator权限;
  • 灾备资源池的分配;
  • UTM的安装,完成SSL VPN的配置;
     

实施内容摘要:

  1. 在上海宝山数据中心,中企通信的工程师将安装所有必要的服务器、网络设备和SAN存储,完成SmartCLOUD™vONE私有云的基础硬件架构;
  2. ESXi服务器的安装与配置,虚拟网络的配置,vCenter的安装调试以及SAN存储的安装和配置;
  3. 调试两端的CE路由器,开通MPLS VPN网络连接;
  4. 远程进行生产站点和灾备站点的Veeam Backup & Replication软件的安装配置和调试;
  5. 生产站点虚拟机的首次复制;
  6. 灾备站点中TDS服务器、DNS服务器的安装配置;
  7. Oracle服务器的安装以及数据导出/导入脚本的调试;SQL Server服务器的安装以及数据导出/导入脚本的调试;CMS服务器文件同步的调试;三
  8. 灾备站点的业务测试,具体方式为,全部开机启用,客户通过SSL VPN拨入灾备中心内网,进行业务系统的可用性测试;

 

    1. 项目支持团队

 

    1. 项目进度

项目进度是确保每个阶段的任务在项目中可控。中企通信将通过规划项目中的各个关键时间点,合理分配资源,完成项目的跟踪。

更改日程安排只能由项目经理进行。这些变化应反映变化范围,完成百分比,以及任何事件的发生对该项目时间的影响。

 

以下任务和日期代表项目中的关键时间点:

关键步骤

时间计划

采购所有必要的硬件设备

6 - 8

准备机柜、机柜内的布线以及机房内的连线

1

设备上架、虚拟化环境安装配置

1 – 2

Veeam的安装调试,复制任务的配置;

数据库自动化脚本的调试和测试;

文件同步脚本的调试和测试;

4

整体验收测试

1

 

 

 

    1. UAT测试标准

Veeam复制测试:

一旦如下面符合验收标准的结果完成相关验收测试后,该服务供应被视为成功完成。

  • Veeam的数据复制测试;
    验收标准:
    通过veeam建立复制任务,首次复制披露系统和股份门户的所有虚拟服务器,复制完成后,启动灾备中心的虚拟服务器,由客户验证数据完整性;当收到veeam的复制完成邮件,灾备中心的虚拟服务器可以正常启动,表明本项测试成功;
  • MPLS VPN连通性和稳定性测试;
    验收标准:
    客户端PE发起ping测试,测试目的地址为灾备中心端PE设备,10000个数据包,抖动不超过10ms,丢包率不超过0.01%,可认为此次测试通过;
  • Oracle自动化脚本的功能测试;
    验收标准:
    手工在生产站点Oracle服务器上执行数据导出脚本可以完成数据的导出和远程传输到灾备站点Oracle服务器的功能;
    在灾备站点Oracle服务器上执行数据导入脚本可以完成数据的导入工作;
    脚本执行完毕后,启用web服务器、HFM服务器和数据管理服务器,由最终用户验证业务系统数据的完整性,披露系统可以正常访问,数据与生产站点一致,可认为此次测试通过;
  • SQL Server自动化脚本的功能测试;
    验收标准:
    手工在生产站点SQL Server服务器上执行数据导出脚本可以完成数据的导出和远程传输到灾备站点SQL Server服务器的功能;
    在灾备站点SQL Server服务器上执行数据导入脚本可以完成数据的导入工作;
    脚本执行完毕后,启用web服务器和CMS服务器,由最终用户验证业务系统数据的完整性,股份门户网站可以正常访问,数据与生产站点一致,可认为此次测试通过;
    1. 灾备启动流程

 

详细过程描述:

  1. 客户呼叫中企通信客服热线或服务经理发起启动灾备站点的请求;
  2. 中企通信的客服人员回拨到授权清单所列请求者的联系电话,以验证他/她的身份;
  3. 中企通信的客服热线和服务管理人员共同协调后端工程师,执行故障切换任务,按照预先和客户约定好的顺序,启动灾备站点的虚拟服务器;
  4. 中企通信的后台技术工程师进行在恢复虚拟服务器的同时,进行网络的切换;
  5. 中企通信的后台技术工程师确认灾备站点的业务服务器启动成功,网络切换成功,业务系统可以正常访问;中企通信的客服热线人员或者服务管理人员通知客户所有业务已经全部切换至灾备站点;
  6. 客户方对异地恢复的业务系统进行可用性测试,验证业务系统的状态;
  7. 验证业务系统可用后,任务结束;

 

    1. 灾备回复流程

 

详细过程描述:

  1. 客户生产站点业务恢复正常,决定启动数据回复流程;
  2. 中企通信的客服人员回拨到授权清单所列请求者的联系电话,以验证他/她的身份;
  3. 中企通信的客服热线或服务管理人员共同协调后端工程师,执行数据回复任务,将灾备站点的虚拟服务器增量复制到生产站点,完成虚拟服务器的Failback,同时进行网络切换的工作;针对Oracle数据库,将灾备站点产生的归档日志文件传输至生产站点的Oracle服务器进行手工恢复;
  4. 中企通信的客服热线或服务管理人员通知客户数据回复完成;
  5. 客户验证业务系统的可用性;
  6. 验证成功后,任务结束。
     
     

 

 

 

    1. 责任划分

角色

主要职责

中企通信服务经理

  • 灾备站点启动任务的第一联系人;
  • 在整个灾备过程和数据回复过程中协调各部门人员和资源;
  • 提交客户的需求给后台技术工程师,并保持与客户的实时沟通;
  • 交付启动完毕的灾备中心的业务系统客户;

中企通信的客服热线

  • 灾备站点启动任务的第二联系人;
  • 验证客户的身份,并与后台技术工程师确认客户的请求;
  • 通知客户的最新状态,并随时转发客户的要求给后台技术工程师.

中企通信云计算运维中心

  • - 执行故障切换和客户虚拟机的故障恢复。
  • - 确保整个灾备恢复过程成功并在所承诺的RTO内完成;
  • 反馈最新的灾难恢复情况给客服热线和客户服务经理;
  • 在客户进行灾备站点可用性验证时提供必要的技术支持;

中企通信网络运维中心

  • 确保灾备资源的网络配置正确,并在RTO要求的时间内完成生产站点网络到灾备站点网络的切换工作;
  • 反馈最新的灾难恢复情况给客服热线和客户服务经理;
  • 在客户进行灾备站点可用性验证时提供必要的技术支持;

 

 

 

  1. 客户服务
    1. 客户服务理念

中企通信的客户服务中心是对外服务及应急响应的统一接口。同时,客户服务中心对每次服务及客户申报事件都进行有效跟踪,建立客户信息库。在问题处理过程中保持与客户的联系及信息反馈,直至问题处理完毕。

热线技术支持服务面向中企通信客户;对于合约客户,为其在数据库中建立客户档案,并提供热线技术支持服务、信息咨询服务、故障受理服务、网络远程诊断、备件保修服务、电话回访服务等等,而且还在不断创新,所有的服务均贯穿着以客户为中心的服务宗旨。

各地线路故障统一申报热线电话:800-830-8315 / 400-884-1883 (支持普通话、粤语、英文、日语、韩语),并提供“一站式”服务,线路、设备问题统一解决。

7x24 x365全天候响应模式是为保证客户关键系统正常运作而特设的一种响应模式,在故障发生时,可以在第一时间作出响应,以最快的速度采取行动,在最短的时间排除故障,恢复正常,最大限度地减少系统故障可能给客户造成的损失。

 

    1. 一站式服务支持

通过统一的客服中心联系,客户可以依靠中企通信的援助几乎任何相关的通信服务和云平台服务,并具有处理客户的设备供应商、网络运营商和服务的能力。 

    1. 客户满意度的措施

中企通信通过客户的反馈,通过一系列积极的、主动性的措施持续改进服务质量,并制定了严格的内部监控标准。因此,定期的客户满意度调查是其商业和运营战略的一个核心部分。

    1. 服务优势
  • 选址优势:自建T3+级别数据中心,同时该数据中心也是中企通信一个重要的MPLS VPN核心 POP节点,从网络资源到机房环境,均处于业内领先地位;
  • 网络优势:上海和北京之间稳定、可靠、快速的MPLS VPN网络连接,骨干网SLA承诺;
  • 资源优势:独享硬件资源的SmartCLOUD™vONE私有云架构;
  • 运维优势:后台网络工程师团队(NOC/云计算工程师团队(COC/安全事件响应团队(SOC)提供全天候7x24小时的主动式监控和运维服务;

 

    1. 中企通信服务质量承诺标准
      1. MPLS VPN专线承诺标准

 

骨干网网络可用率≥99.99%,封包成功率≥99.8%;

网络时延承诺标准:北京至上海的骨干网延时平均在45ms,见下图:

 

 

      1. 中企通信云平台承诺标准

服务的可用性目标是99.99%,这是基于一个标准的自然月,不包括计划中的维护任务造成的服务中断。

 

 

  1. 中企通信灾备中心服务介绍
    1. 中企通信灾备中心服务综述

根据中信集团此次应用系统的灾备需求,中企通信将在本次项目中提供一个从集团总部到上海宝山数据中心一站式的灾备管理方案,里面包含以下产品和服务:

  • MPLS VPN专线服务;
  • BGP互联网连接服务;
  • 多层次的安全管理服务:提供独享的UTM防火墙(具备安全防护以及SSL VPN功能);
  • SmartCLOUD™vONE私有云服务;
  • SmartCLOUD BRR的异地灾备服务,包括专业的项目安装和部署服务(包括Veeam的安装/配置/复制任务建立/灾备站点UAT/灾备演习等)
  • 灾备管理服务,包括Failover和Failback;
  • COC/NOC/SOC提供全天候7x24小时的监控运维服务,具体包括:
  • UTM防火墙
    • 设备状态
    • 端口状态 (带宽使用量/吞吐量)
  • 交换机 (管理层面/数据层面)
    • 设备状态
    • 端口状态 (带宽使用量/丢包率)
  • ESXi 服务器
    • 服务器状态
    • 硬件状态(电源 / 磁碟 / 网卡等..)
    • 资源使用状态(CPU/内存/磁盘空间..)
  • SAN存储
    • 设备状态
    • 空间使用率
  • VMWare组件
    • vCenter Server状态
    • vCenter Database Server状态
    1. 上海宝山数据中心概述
  • 按照T3+级国际标准建造,设计运营PUE=1.5;
  • 机房建筑面积14,000 m2 ,托管区域和辅助功能区域独立分开;
  • 层高5.5米,800mm架空地板层,1000公斤/m2地板承重;
  • 可容纳近1,600个机柜, 根据客户需求可提供围笼和私有房间订制方案;
  • 基于中企MPLS VPN平台提供互联网和VPN连接服务;

说明: 宝山

中企通信上海宝山数据中心

 

    1. 中企通信云计算服务(SMARTCLOUD™)概述

中企通信在上海宝山数据中心提供云计算Iaas层面的服务,包括公有云服务、私有云服务和混合云服务(公有云和私有云的连接/公有云和托管服务器的连接);

说明: 图片1

Iaas层云计算服务

 

中企通信的云计算服务采用Vmware公司vSphere5.1服务器虚拟化软件作为基础平台,配合FC-SAN存储和冗余的网络环境,构建了一个安全、高效、可控、伸缩性较高的云计算平台;

 

说明: 图片2

中企通信SmartCLOUD云计算架构示意图

 

    1. 中企通信灾备服务(BRR)概述

SmartCloud 数据备份和恢复服务为SmartCLOUD Compute云服务的客户或使用VMware Hypervisor的用户提供全面的数据保护,防止客户因技术故障、人为错误,自然灾害、病毒和特洛伊木马造成的数据丢失,同时提供客户关键业务数据快速恢复服务。

服务内容包括:P2C/V2C/C2C,以适应客户的不同灾备需求,通过Veeam Backup & Replication来提供基于虚拟机的灾备方案。中企通信的灾备服务具有以下特点:

  • 没有代理程序:在任何的机器上都不需要安装代理程序,也不需要人工干预。
  • 映像级别的备份:允许客户恢复备份文件中某个单独的内容,也支持整个文件系统的整体恢复。
  • 安全的处理和存储:所有的备份数据都会通过SSL加密的方式转移到我们安全的存储网络中去。
  • 数据压缩:数据备份的同时会自动压缩。
  • 无重复数据:在数据备份的过程中会产生多个文件副本,只有一个会被保存。因此只会占用很少的磁盘空间和备份时间。
  • 平台支持:我们的备份服务支持VMware平台所有的数据存储形式。
  • 快速的文件和虚拟机恢复:当备份完成时,备份文件立即可以用来恢复,客户可以向我们的服务平台请求单个文件或者多个文件恢复,甚至虚拟机整体恢复。
  • 可靠性验证:如果备份文件不能用来恢复,那么就是无用的,我们的备份系统会在备份后自动的验证每一个备份文件,保证备份的可用性。
  • 自定义备份策略:默认情况下,客户资源池下所有的虚机会每天进行备份,备份的数据默认保存7天。客户可以填写备份和恢复服务表单提交自己的备份策略和保存的期限。
  • 客户通知:一旦完成数据备份的工作,客户会收到一份通知,里面包括备份的内容和具体的细节。
  • 服务监控:当客户的备份任务出现不正常的情况,中企网络通信技术有限公司的备份客户将会尽快联系客户的技术人员,并一起确定问题所在,尽快修正错误。

 

 

 

  1. 成功案例
  • 某国际知名建材连锁超市

 

 

  • 某再保险集团