2007年通信行业
网络信息安全高峰论坛
时间:2007年11月22日至23日
地点
:北京京都信苑宾馆

主办单位
人民邮电报社

协办单位
中国电信、中国网通、中国联通
中国移动、中国卫通、中国铁通

承办单位:埃普威


中国铁通网络支撑中心处长 刘 健
(2007-11-22  16:00)

演讲主题:中国铁通融灾备份介绍

演讲内容:中国铁通网络支撑中心处长 刘 健

尊敬的各位领导、各位专家,大家下午好!今天非常荣幸能够有这样一个机会,能够代表我们中国铁通公司和在座的各位专家,就中国铁通灾备及业务连续性等相关问题进行交流。我们中国铁通作为一家新兴的电信运营企业,与其他的电信运营商相比,在灾备工作领域的基础相对比较薄弱。但自中国铁通成立之日起,公司便对灾备工作给予了足够的重视,经过这几年的努力我们也建立了初步的灾备体系,来适应电信运营新的发展要求,接下来我就将我们铁通公司对有关灾备工作的一些理解、感想、经验和建议给大家做一些介绍,还请在座各位领导和专家批评指正。

我今天介绍的主要内容分为以下四个方面,第一方面是概要,主要介绍一下中国铁通作为一家电信运营商,对灾备工作紧迫性的理解,第二方面是中国铁通对容灾工作的一些分析和体会,在这里主要就我们铁通公司对灾备体系中的容灾级别的选定、容灾方案的选择,以及容灾技术的选用这三方面进行介绍。第三方面是介绍一下我们铁通在容灾工作中的一些具体实施情况,第四部分总结一下我们铁通公司在灾备工作中的一些经验、体会,以及下一步的工作思路和想法。

一、 容灾工作紧迫性的理解
首先第一点我们认为灾难是不可避免的,在我们的运营生产中所面临的灾难有很多,可以包括来自于自然界的地震、火灾、洪水,以及来自于人为因素的恶意破坏、误操作、政治动乱、病毒、战争等等,同时也包括由于各种原因所造成的网络中断、电力中断、建筑物倒塌等等。那么在这些灾难面前,我们人往往显得很渺小,显得无能为力,这也就是我们所说的灾难不可避免。其次是我们认为灾难的影响非常巨大,由于灾难给我们电信运营商所带来的最直接的影响就是业务及系统的中断,进而对我们公司的经营和声誉带来难以估量的损失,根据相关统计在经历过大型灾难而导致系统停运的公司中有将近五分之二没有再次恢复运营,剩下的公司也有将近三分之一在两年内破产,通过以上数据统计我们不难看出灾难给我们电信运营企业带来的影响是巨大的。第三点是由于日趋激烈的企业竞争,对我们电信行业提出了近乎苛刻的要求,我们的用户对我们所提供的网络和我们的信息服务要求是7×24小时的,是不允许中断的。正是基于以上三点因素,我们认为作为电信运营商,它的容灾备份系统建设已显得日益紧迫,我们建立容灾备份体系的目的实质也就是要确保永不停顿的业务经营。

二、 容灾体系的理解和分析
灾备工作是一项复杂的系统工程,它涉及的技术众多,涉及面很广,需要考虑的问题也很多,为了能够很好的来部署灾备工作,我们铁通公司经过这几年的摸索,认为应该做好以下三方面的工作,分别是容灾目标的期望,也就是容灾级别的分析与选定,容灾系统方案的选择,以及容灾技术的选用。容灾级别的选定,首先我们要明确的是我们要建立我们的容灾系统的目标和期望是什么?也就是说面对什么样的灾难,我们需要实现什么层次,什么级别的容灾,当然这要建立在我们之前所必须进行的系统所面临的风险分析,所建容灾系统对既有业务系统的影响分析,以及投资回报分析的基础之上。虽然说起来很简单,只是三个分析,但是这三项分析确是我们容灾系统建设的一个前提,只有做好这三项分析才有可能做好容灾级别的选定,在这里我们认为应该根据我们业务的重要程度不同,核心程度不同,用户的需求不同,而选择不同的灾备级别。

一般情况下我们认为容灾级别可以分成数据级容灾、应用级容灾和业务级容灾三个级别。数据级容灾,数据级容灾的关注点是在于数据本身,在灾难发生之后我们要确保原有的数据不会丢失或者遭到破坏,但在数据级容灾这个级别,灾难时应用是会中断的。在数据级容灾方式下,我们所建立的异地容灾中心,我们可以简单地把它理解成一个远程的数据备份的中心。数据级容灾的恢复时间比较长,但是相比其他容灾级别来讲它的费用比较低,而且构建实施也相对简单。

第二个级别的容灾是应用级容灾,应用级容灾是在数据级容灾的基础之上,在我们的备份站点同样构建一套相同的应用系统,这样可以保证我们的关键应用在允许的时间范围内恢复运行,尽可能减少灾难带来的损失,让我们的用户基本感受不到灾难的发生,这样就使我们的系统所提供的服务是完整的、可靠的和安全的。在应用级容灾中生产中心和在异地的灾备中心之间的数据传输是采用异类的广域网传输方式;同时应用级容灾系统需要通过更多的软件来实现,可以使我们的多种应用在灾难发生时可以进行快速切换,确保我们业务的连续性。

第三个级别的容灾是业务级容灾,应该说是在数据级容灾和应用级容灾基础之上的一个更高级别的容灾,它是指在生产中心和容灾中心对我们的业务请求同时进行处理的一种容灾方式,能够确保业务持续可用。在灾难发生时,保证所有的业务都是正常运行的,对于用户来讲是不受灾难的影响。同时我们要达到所期望的业务级容灾解决方案,不仅要在技术上做到所有受灾难影响的应用程序可以平滑切换到我们的备用系统,而且在我们的业务操作流程上也有很严格的规定,这样才可以保证我们业务操作的不中断。

下面我们借助这样一张表格,对三种不同级别的容灾就它们的实施难度,恢复时间,对既有的影响情况以及投资这四个因素做一个简单的对比。从表格中我们可以看到,数据级容灾具有实施难度较小,但恢复时间长,对既有系统没有影响,投资相对较小这么一些特点;应用级容灾实施难度居中,系统恢复时间比较短,在用户的可接受范围之内,对既有系统也会有一些小的影响,但是它的投资就相对于数据级容灾来讲要多一些;最高级别的业务级容灾,实施难度相对较大,但是它的恢复时间可以很短,可以立即实现系统的恢复,同样它对既有系统就会带很大的影响,对既有系统要进行一定的改造,才能够实现我们这种所期望的业务级的这种容灾,必然它投资会是比较大。

附表:


综合下来目前我们铁通公司主要采用的是前两种容灾级别,即数据级和应用级容灾方式,以及在一套容灾系统里面采用数据级和应用级混用的容灾级别。

之前我们明确了准备建立灾备系统的意义和目的,并根据我们的业务情况进行了选定容灾级别之后,我们所需要做的就是选择最适合我们自己的容灾系统方案。这需要从我们的实际情况出发,把我们最关注的内容,作为我们最主要的因素来进行考虑。一般情况下,我们铁通公司在建立某一个系统的容灾系统时主要把以下这五方面内容作为我们主要考虑的因素,即恢复点因素(恢复程度因素)、恢复时间因素(恢复的速度因素),还有我们在刚才已经提到的所面对的灾难类型因素、对既有业务系统的影响因素、投资成本因素。重点跟大家交流一下RTO和RPO这两个因素,首先说RPO因素,在这里我们关注以下两个指标,一个是数据的完整性指标,也就是说我们建立容灾系统之后我们的数据是无丢失的,另一个是数据的一致性指标,也就是通过我们的容灾系统可以保证我们的数据是正确而且可用的,当然RPO和RTO这两个指标要求越高,我们系统的可用性就会越高,当然我们的投资成本也就会越来越大。简单用这个一张胶片介绍一下我们所关心的容灾系统五个因素以及它们之间的关系,通过这张胶片可以很直观的看到,容灾系统的五个因素之间具有相互影响和相互制约的关系,当然成本因素无疑是其中最核心的这么一个因素。每一项指标因素的要求越高,我们的成本就越高,作为运营商来讲,需要将成本因素作为主要的因素来考虑。

附图:


在我们明确了建设什么样的容灾系统以及采用什么样的容灾系统方案之后,接下来我们所需要关心的就是这样的容灾系统方案,我们可以通过哪些成熟的、高效的技术来实现它。在这里我们认为容灾系统实际上主要涉及的技术分为两类,一类是数据备份技术,另一类是我们所非常需要的应用程序的自动切换技术。首先我们来介绍一下在不同的容灾级别下,各自的数据备份的实现技术,首先介绍一下数据级容灾,我们一般采用以下三种实现技术,分别是备份介质自动异地存放技术,数据库的自动复制技术,和基于存储设备及管理软件来实现数据的自动复制和保护技术,刚才两位厂商专家已经介绍得非常清楚,我在这里就不再过多介绍,只是简单比较一下这么三种技术之间的差异。

备份介质异地存放技术,它是将离线的备份介质存放在距离上相对较远的异地,这种方式投资比较少,操作比较容易,可以备份任何类型的数据。但是缺点是没有办法做到的数据实时备份,数据的恢复比较复杂,耗时比较长,但是在容灾系统建设早期,很多用户都采用了这种备份方式。

数据库自动复制技术,主要是利用数据库提供商所提供的技术,通过数据库自动实现数据的备份,实现数据库数据的异地复制,这种方法的优点是易于配置和管理,系统可以自动保证我们数据的完整性,但是缺点是复制效率比较低,而且在某些时候是要求只有在同一种数据库之间才能够做到这种复制。

第三种就是刚才厂商专家详细介绍的基于存储设备和管理软件的这么一种数据的备份方式,效率及安全性高,有着前两种方式所无法比的技术优势,但实施复杂,投资较大,由于时间关系我在这里边就不再详细介绍了。
容灾系统中的第二类核心技术,就是应用的远程切换技术,简单说就是在灾难发生时,我们的应用可以很快在异地进行切换,这样来保证业务的连续性。因为我们清楚,通过各种数据备份技术可以实现数据的自动备份,但是数据备份之后,如果没有应用的快速切换,还需要我们经过一段时间把备份好的数据再倒回原有系统,这样还是造成了我们的业务应用的中断、不可用。在应用的远程切换技术上,铁通公司主要是采用和接触了两种技术,一种是cluster技术,一种是借助应用本身具备的容灾能力,也就是说应用程序本身是具备远程切换功能的。第一种方式实现起来相对比较简单,第二种方式可能相对复杂,投资也比较大。那么铁通公司在实现应用级容灾的系统上大多采用了第一种方式,同时也在很少一部分系统采用了第二种方式,在后面铁通公司容灾系统建设具体实施情况的时候会给大家做比较详细的介绍。

谈到容灾我们就不能不提到我们容灾系统所依赖的广域网络,因为我们目前所提到的灾备体系,大多是指异地容灾系统的建设,或者是同城异地,或者是在不同的城市来实现容灾,那么它对数据的复制和应用的切换都是基于我们的网络在异地实现。因此我们在选择网络恢复技术也就是网络保障技术的时候,一般要考虑这么两个层次,一个层次是网络设备的备份,通过网络设备的冗余配置来实现网络设备的备份,另一个层次是我们在实现网络保护的时候,一般采用异种网络备份,这里主要是指我们长途通道的提供。举个简单的例子,比如说我们互联网网管的容灾系统,它长途通道就不会选择互联网来承载,而是采用其他的异种网络,比如ATM网络,或者是其他的DDN专线组网来实现,这样进一步提高我们容灾系统的安全性。

三、 铁通公司在容灾、灾备工作的一些实施情况

在这里我重点给大家介绍一下,我们铁通公司容灾工作的整体实施情况,以及在各灾备系统建设维护中的一些具体案例,具体分为三方面,一方面是我们灾备工作的组织保障,另一方面灾备工作的制度保障,最后是我们各系统的灾备工作实施情况。首先我们大家都应该认可这样一个事实,我们的灾备工作实际上一项非常复杂的系统工作,灾备建设很重要的一部分,而且是非常重要的一部分就是我们组织和制度流程的保障。在之前各位专家也分别都提到了,实际上由于人为因素,由于非自然界因素所造成的灾难,实际上它的概率和影响程度都是比较高的。所以我们铁通公司经过这几年的容灾工作实践,认为灾备的组织保障和流程保障是非常重要的,也初步形成了一套组织和流程保障体系。

在铁通公司领导的大力支持和帮助下,我们初步建立了我们全国和省级这样两级的容灾保障组织。在每一级的保障组织里面我们又细化了三个机构,分别是灾备领导小组、灾备办公室和灾备实施小组。在我们全国一级和省级之间,以及同级的不同机构之间我们按照一定的流程来协同工作,同时为了保证我们这种流程能够高效实施,我们明确了各机构在我们的容灾系统的不同状态下的职责与分工。简单解释一下,我们明确了在我们的容灾方案处于正常情况下、预警情况下、容灾方案启动情况下的不同机构的职责,也就是说在容灾方案实施的情况下,我们的灾备领导小组是做什么,我们的灾备办公室是做什么,我们的灾备实施小组是做什么。具体的他们之间职责相互流程在后边有专门的胶片给大家来介绍。

我们铁通公司在制度保障方面,先后编制发布了中国铁通公司容灾工作管理办法,中国铁通容灾技术规范书,同时还制订了中国铁通灾难恢复流程,容灾方案建设和修改流程,以及容灾系统日常维护管理工作要求等一系列的相关制度要求,在我们公司灾备体系的各个环节以及各个细节上都发挥了很好的规范和指导作用。
接下来借助两张胶片,介绍一下我们铁通灾备工作中的两个具体的流程,首先是我们的灾难恢复流程,我想这应该是整个灾备工作体系中最为重要的一个流程,因为这个流程的实施好坏、是否合理,直接会影响到我们整个灾备体系建立是否真的有意义。在灾难发生之后,首先是我们的灾备办公室,他需要做哪些事情呢?首先他要向灾备领导小组来通报我们的受灾情况,然后对灾难损失进行评价,并提出灾备的处理意见,供我们的灾备领导组进行参考;领导组根据灾备办公室所报上的灾难情况、评估及建议,就要迅速做出决策,来下发指令到我们的灾备办公室,灾备办公室就要根据灾备领导小组的指示启动相应的灾备方案;灾备实施组要负责灾难恢复的执行,以及恢复情况的通报,以及整个灾难恢复之后的总结工作。当然在整个灾难发生一直到灾难恢复过程中,我们每一个机构还有很多的职责,他们之间的流程远不止我这张图里面所描述这么简单。
附图:

灾备方案的制度和调整流程,我们认为同样是整个灾备体系中一个非常重要的流程。为了保证我们的灾备方案的高效可行,也就是前边有专家提到的灾备方案的时效性,我们必须根据各种外界因素的变化情况,主要指我们的网络调整,我们的业务发展变化,我们的用户需求变化,以及来自于自然界的,来自于政治因素的变化等等,对我们灾备方案中的各个方面进行及时调整,并经常对现行的容灾方案的可行性进行评估和实地演练。通过这张胶片我们可以看到,根据不同机构的职责不同,在容灾系统的不同阶段,大家各负其责,首先是在容灾系统的建设前,我们的领导组来确定这个容灾方案的目标和范围是什么;我们的灾备办公室就要根据领导的目标和范围具体去落实和实施我们这个容灾方案;接下来我们的灾备实施小组就要根本已定的容灾方案进行定期演习、培训和维护。通过他们的演习、培训、维护对这个容灾方案提出修改意见,灾备办公室通过灾备实施小组反馈的意见,组织容灾方案的修改工作,形成一个反复循环的过程,只有这样才能确保我们的容灾方案是具有时效性,具有可行性的,在灾难发生时真正发挥作用。

附图:

综上我们认为灾备工作的实质就是通过人员组织、相应的制度流程保障、技术措施三个因素来保障我们所制订的容灾方案切实可用的,进而通过容灾方案的不断的修改和调整,来确保它的实时性,来实现我们的最终目标,对我们的业务进行保障,确保我们业务运营的连续性。

在铁通公司各部门和各系统都根据自己的业务特点和业务需求,分别实现了不同的容灾保障,首先我们的传输和交换部门,在业务承载线路上和核心节点上都采用了高可用的冗余建设,并且根据业务发展情况,在各自的省内或者是城市内建立高可用的双节点。从某种意义上讲是实现了业务层的容灾,使我们的传输的客户,交换的用户享受到这种最高级别的保护。对于生产数据的保护,我们主要是根据数据量的大小和业务的重要程度来进行选择不同的灾备实现方式。比如说我们智能网业务数据跟交换机的话单数据除了在本地采用双存储设计外,还采用了较高成本的异地的自动备份系统,这样可以实现定时的、自动的、异地的数据备份,来保证我们数据的连续性。相对一些比较不是很重要的这种业务系统的数据,我们就是主要从成本角度考虑,采用本地硬盘和磁盘备份这种方式进行保护,实现灾备。

当然我们针对于计费系统,经营分析系统,企业管理系统,以及我们所应用的网管系统,这些具有可高用要求的业务系统,铁通公司采用了数据库容灾技术和应用级的容灾技术进行保护,并且建设了专门的备用的业务系统随时可以接管生产。我们在数据级容灾的基础之上实现应用级容灾,首先在本地实现磁带、磁盘,或者是其他存储介质的磁盘阵列的本地数据备份,同时通过这种宽带网络来实现异地实时的数据的备份。在备用系统建立与生产中心同样的一套应用系统,应用可以在灾难时进行快速切换,确保我们业务的连续性,举个简单的例子,比如说我们ATM网的网管系统,我们除了在北京设立全国的网管中心之外,在上海建立了一整套完备的备份中心,数据可以实时的在北京和上海两地之间实现备份,当然它的应用也是可以随时根据故障的发生情况,灾难发生情况,随时在上海和北京两地之间进行切换,在灾难时随时启动我们的灾难中心确保我们对网络管理的不中断。

通过之前的介绍,我们认为拥有了一套有效的容灾保障体系,可以给我们运营商带来很多益处,简单说,可以使我们的重要的业务数据在灾难发生时能够得到很完善的保护,其次可以使我们的网络,或者是重要业务在灾难发生后可以在很短的时间内实现这种应用级的切换,来保障我们的用户服务质量,通过以上两点进一步提高了我们的企业的声誉,增强我们的客户对企业的信心,这样就使我们的企业在竞争中处于优势。

四、 总结

最后根据我们铁通公司过去几年在灾备工作上的一些经验和教训提出以下几点建议和展望,供各位专家参考。
首先我们认为容灾、灾备工作应该符合企业自身特点,选择最适合的容灾方案。其次,我们认为应进一步提高对容灾工作的认识,认真做好容灾基础及日常工作,来确保我们容灾工作的有效性。第三我们认为容灾工作应该进一步规范化、制度化、流程化。只有这样才能够保障我们的容灾系统是最实用的,最具有时效性的,只有这样才能保障我们的容灾系统在灾难发生时能够真正发挥它的作用。

以上就是我们铁通公司经过几年的灾备建设,对灾备工作的些理解和体会,在今后的工作中,我们铁通公司会进一步做好灾备的相关基础工作,逐步建立并完善更加可靠、更加高效的异地容灾系统,来确保我们业务的连续性,并积极探索灾备工作领域的先进技术方案和管理手段,为构建安全通讯网络,支撑通讯业的创新变革,做出我们中国铁通更大的贡献。我今天的演讲报告就到此结束,谢谢大家!

 

 

  2007'通信行业网络信息安全高峰论坛组委会版权所有
联系我们:010—51299989;51281998;62070307;62077867