不想错过重要资讯?
马上订阅新闻邮件!
 
a 您现在的位置: 中计在线 >> 资讯 >> 产品 >> 文章正文
告别数据丢失 容灾刻不容缓——第三届存储世界论坛专题报道
作者:郭涛    文章来源:中计在线    更新时间:2006-9-25 15:40:45
【字体:
 中计在线信息化频道全心上线!全力推动中国信息化进程!信息决策,易如反掌,尽在CIW信息化!
热点专题:2007暑期促销宝典
·TMMB被指绕不过韩国专利陷阱
· AMD否认外包芯片生产业务
·华为称华赛正招募大批黑客
·传大唐移动获得青岛TD项目超50%份额
·赛迪金笔杆二季度评选活动

9月18日下午,由中国计算机报社主办的第三届存储世界论坛在上海新国际博览中心举行,来自全球网络存储工业协会(中国)、HDS、浪潮、LSI Logic、GDS万国数据的专家与各行业用户就与容灾有关的问题进行了深入探讨。
  今年是“9·11”事件发生五周年。如今一提到“9·11”,许多人最先联想到的就是灾难恢复。在越来越多的企业实现了数据、应用大集中以后,数据的安全、业务的连续性等就成了企业管理者必须认真思考的问题。在这样一个特殊的日子,以“告别数据丢失 容灾刻不容缓”为主题的第三届存储世界论坛的召开也就显得十分必要。假如某一天,客户资料因计算机病毒而损坏;磁带损坏导致历史数据丢失;交易系统因通信线路故障而中断;机房事故导致公司业务无法继续……其实,这不是假设,而是很有可能发生在你我身边的真实的灾难事件。自然灾害、人为失误,这些大大小小、似乎是防不胜防的灾难事件给我们的正常生活和工作带来了许多负面影响,比如经济损失、信誉受损,甚至可能导致企业倒闭。据IDC的调查数据显示,2000年以前的10年中,美国发生过数据灾难的公司中,55%当时倒闭,29%在两年内倒闭,生存下来的仅占16%。在“9·11”事件中,几乎所有没有进行远程备份的企业都蒙受了巨大的数据损失,部分将核心数据放在大楼里而又没有备份的公司甚至因为无法继续运营而倒闭。这样惨痛的经历能带给我们什么启示呢?为了避免或尽量减轻这些事故或灾难对业务的影响,企业必须建设完善的数据备份及灾难恢复系统。
  有人形象地比喻,建设灾备系统就是亡羊补牢。我们可能无法准确预测或防止灾难性事件的发生,但拥有了灾备系统,至少可以在灾难发生后,尽快恢复数据,保证业务不中断,将损失降到最低。
  建设灾备系统,就像是给企业的业务应用上保险。在日常生活中,虽然很多人都知道保险的益处,但真是让他们每年都交纳一定数额的保险费,为发生几率很小的意外事件投保,很多人就开始打退堂鼓。这是认识上的问题。对于容灾来说,同样存在这样的问题。建设容灾系统投资巨大,只为了防范概率极低的灾难,是否值得?容灾是不是只有像金融、电信这样的大型企业才需要?灾备系统是不是只能自己建设,能否采用外包方式?上述疑问一直困扰着许多行业用户。
  此次存储论坛的召开,主要目的就是给用户“洗脑”,让大家对容灾有一个更清楚、更深入的了解。解决技术上的难题是一方面,关键还是要让大家认识到建设灾备系统的必要性、重要性以及可行性。会上,我们针对来自各行业的100多名用户进行了问卷调查,其中,65%的用户表示还没有建设灾备系统。不过,大家都对建设容灾表现出浓厚的兴趣。对于用户来说,实施容灾的最大障碍是什么呢?缺少资金、缺少专业技术人员和对相关技术不了解成了排名前三的难点。
  这里还要报告大家一个好消息,中国计算机报·51CTO联合存储实验室已于近日成立。中国计算机报·51CTO联合存储实验室的技术总监董唯元在会上向大家介绍了实验室的背景以及基本职能。该联合存储实验室将提供存储产品测试、解决方案模拟实验、存储技术培训、用户采购咨询等服务。
  容灾并非高端的专利
  以前提起容灾,人们往往会首先想到这是在高端计算系统和应用系统中才会用到的艰深的东西,大多数人对容灾的意义和诸多细节并不了解。殊不知,在当今信息化系统应用日趋广泛和深入的时候,容灾已经成了IT系统中的重要组成部分。浪潮存储事业部高级咨询顾问郑大卫指出:
  郑大卫,浪潮存储事业部存储高级咨询顾问,2002年加入存储事业部。曾负责存储产品研发工作,积累了产品和技术基础,参与并完成了第一代全线浪潮产品的研发,其中部分产品的部件设计获得国家专利。
  对于中小企业和机构而言,最大的顾虑在于容灾高高在上的地位。以往,容灾大多在高端计算领域出现,应用范围也仅仅局限在超大型跨国企业和金融、电信的要害部门。容灾方案也经常与高实施成本、高维护成本划上等号。实际上,这样的理解并不全面。
  说到容灾方案和技术,总体上可以区分为离线式容灾(冷容灾)和在线容灾(热容灾)两种类型。
  所谓离线式容灾主要依靠备份技术来实现。其主要步骤是将数据通过备份系统备份到磁带上,然后将磁带运送到异地保存管理。这种方式主要由备份软件来实现备份和磁带的管理。离线式容灾方案的部署和管理比较简单,相应投资也较少。但由于是采用磁带存放数据,所以数据恢复较慢,而且因这种备份不能实现频繁备份,来不及备份的数据会丢失,实时性比较差。
  在线容灾要求生产中心和灾备中心同时工作,生产中心和灾备中心之间有传输链路连接。数据自生产中心实时复制传送到灾备中心。在此基础上,可以在应用层进行集群管理,当生产中心遭受灾难出现故障时,可由灾备中心自动接管并继续提供服务。应用层的管理一般由专门的软件来实现,可以代替管理员实现自动管理。
  从上面的介绍中可以看到,容灾的核心之一是数据的复制和备份。然而需要说明的是,容灾与备份所实现的作用或者说保障的层面是不同的。数据备份实际上实现的是数据的保护与恢复,容灾则在保护数据的基础上,实现对应用、业务乃至对整个企业正常运转的保护。
  具体而言,对于中小企业等对RPO、RTO容忍程度较高、关键数据较少、对IT系统依赖相对较低的场合,可以采用低成本、高RPO、RTO的离线数据备份方式以及本地备份方案,备份介质通常可以采用磁带。而对于关键数据量庞大、关键业务运行完全依赖于IT系统,但是对RPO、RTO有一定容忍度的场合,可以在本地高可用体系下,采取存储方案高低搭配、离线备份与在线备份结合的方式实现容灾。例如,可以采用浪潮公司的AS1000G2存储系统、SAN架构作为主存储系统,浪潮AS500存储系统、iSCSI技术作为备份存储系统,同时配以磁带实施异地备份的方式来实现容灾。总而言之,容灾的实施既是迫在眉睫的事情,同时又是需要深入思考和规划的事情。选择容灾方案的出发点,最根本的还是依据实际情况而定。 (E5)
  名词解释
  灾难(disaster)
  由于人为或自然的原因,造成信息系统运行严重故障或瘫痪,使信息系统支持的业务功能停顿或服务水平不可接受达到特定时间的突发性事件,通常导致信息系统需要切换到备用场地运行。
  灾难恢复(disaster recovery)
  为了将信息系统从灾难造成的故障或瘫痪状态恢复到可正常运行状态、并将其支持的业务功能从灾难造成的不正常状态恢复到可接受状态,而设计的活动和流程。
  恢复时间目标(Recovery Time Objective,RTO)
  灾难发生后,信息系统或业务功能从停顿到必须恢复的时间要求。
  恢复点目标(Recovery Point Objective,RPO)
  灾难发生后,系统和数据必须恢复到的时间点要求。
  保证业务连续性的三种方式
  全球每年都有近1/5的企业遭受灾难的威胁,如何才能构建无忧的运行环境,确保企业自身的竞争优势和盈利能力呢?HDS公司技术顾问经理陈骏告诉您:
  陈骏,2004年10月加入日立数据系统有限公司(HDS),被任命为技术咨询部技术顾问经理,全面负责公司的客户解决方案咨询设计、售前技术支持、项目管理以及技术部门管理等工作。陈骏毕业于湖南大学,持有计算机科学系计算机应用学位。
  根据企业的业务特点及其对数据安全要求的程度,容灾解决方案大致分为三种:同步远程复制、异步远程复制和三数据中心复制方案。
  同步远程复制
  同步复制是实现短距离复制的最常用技术。只有本地和远程站点确认复制完成后,同步复制技术才认为复制处理完成,因此保证了数据的完整性。因此,两个站点是镜像站点。如果主站点发生中断,辅助站点的操作可以迅速启动。但是,传输延迟造成的对性能的影响给同步复制带来限制。同步复制技术的性能在20~100英里范围内开始下降,这取决于应用程序的灵敏度和两个站点之间的通信技术。
  如果短距离复制就能满足企业的需要,此时采用Hitachi TrueCopy同步远程复制软件,可以确保企业在不丢失数据的情况下实现快速重新启动和恢复,同时减少数据丢失并保护数据完整性。
  异步远程复制
  1.TrueCopy 异步远程复制
  如果企业需要远距离复制,并保证灾难条件下数据的完整性和对生产的零影响,此时通过采用Hitachi TrueCopy异步远程复制软件,企业就能够应对大范围灾难,完整复制数据,同时不影响性能。TrueCopy异步远程复制软件可以将可靠的时间戳和主系统创建的其他信息一起使用,在没有任何主机干预的情况下,将更新直接传送到次级系统。然后,这些写操作被缓存到次级系统缓存中,被时间戳系统排队和分类,然后被按相同的顺序写入对应的卷中。主系统通过远程链路发出这些写操作的重写操作,检查嵌入记录中的序列号码,保证没有丢失记录。通过这种方式,保证了I/O一致性。
  TrueCopy异步远程复制软件使用写操作顺序和一致性组来保证数据完整性,并允许用户在每个单独的应用上执行操作。这种方案允许企业用一个简单和便宜得多的基于硬件的解决方案,能够在雪崩式灾难(Rolling Disaster)条件下保证数据一致性、完整性,能承受线路长时间故障,而且对生产系统性能零影响,并且利用异构存储、旧存储系统进行灾备,使企业投资得到保护。
  2.通用复制软件 HUR
  用于TagmaStore通用存储平台的日立通用复制软件是一种先进的技术,能以异步方式复制通用存储平台或外部连接的HDS和其他供应商存储系统上的数据。日立通用复制软件建立在TrueCopy Asynchronous 的经过实践考验的数据一致性算法上,但是与其他解决方案的不同在于,它将数据拖到远程中心,而不是从生产心将其推向备份中心。
  通用复制软件是一种超越了传统复制功能的创新产品,它重新界定了异步复制的执行方式,在大幅降低资源消耗的同时,为数据保护确立了新的标准。该复制引擎不需要冗余服务器或复制设备,即可不受距离限制地异步复制通用存储平台上的数据,能够帮助企业用户实现业务连续性,提高IT系统的运营效率。
  另外, HDS的远程数据复制技术还可以通过与TagmaStore 通用存储平台的虚拟化功能软件UVM(通用卷管理)结合,实现企业用户现有异构存储环境的数据复制和灾难保护。
  三数据中心复制方案
  如果需要额外保护,我们建议企业将同步复制和异步远程复制组合为多跃点或有三数据中心的解决方案。同时拥有一个本地站点(比如与主站点的距离为10~20英里)和一个远程站点(与主站点的距离为几百或上千英里),在通常的情况下,都能有效地确保数据的可用性。
  HDS整合了TrueCopy同步和异步远程复制软件,以及ShadowImage系统内复制软件,用来构建多跃点和有三数据中心的解决方案,能够为用户提供极佳的数据保护。三数据中心方案通过先进的一对二模式,在任意两点之间能够瞬间恢复,无数据丢失。 (E5)
  应用锦囊
  灾难恢复服务的选择
  选择灾难恢复服务提供商时要考虑以下主要因素:服务质量——灾难恢复服务提供商应具有一定的安全与服务品质保障;服务经验——有丰富服务经验的服务商通常都拥有一套完整的恢复程序和控制措施,一套有效的灾难恢复和业务连续管理方法论;服务的范围——服务商能够提供你所需要的场地、设备、紧急递送、系统恢复、业务恢复等;服务商的专注度;服务商的专业程度;灾备中心的基础设施——是否拥有专业的灾备中心,并且具有完善的管理模式;灾难恢复团队——灾难恢复服务商应熟悉信息系统架构,拥有一定规模的灾难恢复服务团队,包括业务连续性专业人员、专职的管理人员、技术人员、运行人员、安全人员,并且人员配置合理、职责分明;测试和演练——在技术设备设施到位后,应该能够安排基于场景的测试和演练,确认灾难恢复预案的完整性和可用性;成长性——服务商是否能够和您一起成长;不要将价格作为选择服务商的第一要素,只有在确信其服务范围和服务质量都可以满足要求的情况下,服务的价格才有可比性。
  (E5)
  要将管理融入灾难恢复建设中
  对企业而言,灾难恢复是业务驱动性的管理实践。建设一个高效的企业灾难恢复体系涉及企业管理的方方面面。全球网络存储工业协会 (中国)高级顾问侯海波指出:
  侯海波,全球网络存储工业协会(中国)技术中心高级顾问,清华大学工学硕士,多年从事信息技术的研究和开发,领域涉及软件开发、网络规划、网络存储、数据安全、灾难恢复、系统集成等方面。
  灾难恢复管理要求企业应该充分利用技术手段、管理手段以及相关资源,确保已有的关键数据和关键业务在灾难发生后,在确定的时间内可以恢复和继续运营。灾难恢复管理强调企业实现灾难恢复的过程是一项集技术和管理于一体的系统工程。
  技术很重要,管理更重要
  实际上,无论是在企业完整的灾难恢复体系架构中,还是灾难恢复体系的建设、运维和应急过程中,管理始终是比技术更重要的出发点。
  提到灾难恢复建设,很容易想到后备数据中心、后备主机、后备网络、数据备份等技术设施。但企业必须明白,单单一套灾难恢复的技术架构是无法满足企业业务持续需要的,企业必须从企业战略管理的高度架设一套完整、高效的灾难恢复体系,才能有效应对灾难,确保业务持续。在这套管理体系中,更关键的因素是合适的团队、规范的流程以及有效的灾难恢复预案,而技术设施仅仅是管理架构中的一部分。
  同时,构建企业灾难恢复体系的过程也是一项复杂的系统工程和典型的管理过程。在企业灾难恢复体系架构建设周期中,企业需要从项目管理的角度来管理和控制整个过程。这个过程包括项目启动、风险分析、业务影响分析、管理决策、编制和部署灾难恢复预案等关键的管理阶段。灾难恢复技术设施的建设仅仅是其中的一个部分。建设合理、高效的灾难恢复技术设施需要以前面的几个管理过程为基础,同时制定符合企业实际情况的预案也是充分发挥灾难恢复技术设施效能的关键。
  完成了灾难恢复体系的建设,仅仅是企业在灾难恢复管理方面开了一个头。企业需要不断维护自己的灾难恢复管理架构,确保灾难恢复的团队、流程符合企业业务发展的需要,确保其能够正确、高效应对随时可能发生的灾难。当然,技术架构有效性的维护也是一个重要的内容,但不是全部。例如,企业还需要定期审计应急团队人员的有效性,需要根据业务的调整及时更新灾难恢复的应急流程和预案。
  不仅要恢复系统,还要恢复业务
  灾难恢复的最终目的是恢复业务。当发生灾难时,除了需要恢复信息系统的运行,还需要恢复业务的运营。信息系统的恢复,仅仅说明信息系统可以支撑业务的运行,但如果没有业务恢复的应急管理,例如应急办公场地、应急办公环境、其他关键业务资产的应急协调和恢复,业务仍旧无法开展。如果拥有先进的灾难恢复技术设施,可以在灾难发生时确保信息系统能在一定的时间内恢复运行,但由于缺乏必要的业务恢复的管理,却最终导致业务无法在规定的时间恢复运营,这实际上是极大地浪费了企业在灾难恢复技术设施上的投资。而且,灾难恢复技术设施与相应的管理能力差距越大,这种浪费越明显。因此,企业应该在合理的灾难恢复目标下,保证技术设施灾难恢复能力与业务灾难恢复管理能力的一致。
  在国内外灾难恢复厂商的推动下,灾难恢复技术和解决方案已基本成熟,灾难恢复的技术实现已不再是企业部署灾难恢复系统的难点。因此,将管理融入灾难恢复建设中,构建合理高效的灾难恢复管理系统,应该成为企业的出发点和着眼点。 (E5)
  数据分析
  
  是否已经实施了容灾
  根据参会听众的反馈,其中多数用户(65%)还没有建设灾备系统。容灾市场在国内还是刚刚兴起,金融、电信这样已经实现了数据大集中的用户对容灾有了比较深刻的认识,但更多的企业对容灾还是一知半解。
  
  容灾项目的投资额
  在回答如果需要建设一个灾备系统,您能承受的总投资是多少这个问题时,超过一半以上的与会听众选择了50万元以下,只有10%左右的人选择了可以承受200万元以上。仅从这个统计数据来看,资金短缺可能是实施容灾的一个主要障碍。
  业务连续管理是真正的未雨绸缪
  如今,越来越多的企业开始关注如何保证在灾难中业务不中断,但是灾难恢复计划(DRP)只是亡羊补牢。GDS万国数据服务有限公司高级顾问徐刚指出:
  
  GDS万国数据服务有限公司高级顾问 徐刚
  地球环境日趋恶劣,各种大的灾难频繁降临在你我身边,越来越多的企业开始关注如何保证在灾难中业务不中断,实施业务连续管理将成为众多企业的首选。
  BCM与DRP、BCP的关系
  灾难恢复计划(DRP)不过是亡羊补牢,业务连续性计划(BCP)和业务连续管理(BCM)才是真正的未雨绸缪。相对于连蜡烛都找不着的店铺,有发电机的老板就是有战略的;相对于全店人都忙着折腾发电机,还找不到柴油的店铺,事先要厨娘们各司其职,让两个熟练的门僮伺候发电机的老板就是有战略的。
  DRP的核心是IT的备份与恢复,还包括围绕IT备份与恢复的灾难恢复资源、灾备中心的运营管理和切换、重续运行与回退预案几部分内容,它面向信息系统及所支持的业务功能,从灾难造成的故障或瘫痪状态恢复到可接受状态。BCP在DRP的基础上增加了业务影响风险分析、业务恢复预案、恢复策略与方案和人员架构组织保障的内容,它面向企业关键业务持续、有效运作,是灾难事故的预防和反应机制。BCM又把BCP的外延内容扩大到了紧急事件的应急响应处理、危机通讯与危机公关、灾难事件应急响应处理和供应链或关联单位的危机管理,它面向企业潜在的风险,考虑内部风险控制及外部利益相关单位,建立一个完善的机制预防或减少损失。
  BCM实施流程方法论
  业务连续管理(BCM)是循环往复的生命周期过程,也是持续改进的过程。其实施应该采用通用的项目管理方法。它总共包括五个流程阶段。
  分析评估阶段是通过风险分析和业务影响分析,得出业务连续管理的目标和需求。
  架构设计阶段是根据分析评估得出的结果,进行恢复策略分析和信息系统方案的制定。恢复策略分析从业务恢复策略、渠道恢复策略、分支机构恢复策略和恢复等级要素等方面进行具体的介绍,信息系统方案则从数据备份/复制、备份数据处理系统和网络切换等方面阐述。
  开发实施阶段将从应急响应预案、灾难恢复预案、业务恢复预案、重续运行计划及其回退计划等方面阐述预案开发的内容,从灾难备份中心的操作管理、变更管理、安全管理、问题管理、应急管理、演练管理和服务水平协议管理等方面详细说明灾难备份中心的运营管理方式。启动管理阶段主要包括划分演练类型、演练各阶段过程介绍和对预案的有效性进行测评。
  持续维护阶段是对于预案进行维护、审核和更新的阶段。其主要内容包括对预案的日常维护,从业务连续能力、政策的合规性和国际标准的达标情况等方面对整个方案进行全面审计检查,还包括所有的业务连续管理过程中的各种培训。
  灾难恢复外包服务
  专业的灾难恢复外包服务,整体上应该包括专业咨询、灾难备份系统设计及实施和灾难备份中心服务这三方面内容。其中,专业咨询包括项目启动和组织架构建设、需求分析——风险分析和业务分析,确定灾难备份策略等内容;灾难备份系统设计及实施的服务包括灾难备份系统设计、灾难备份系统投资及实施、灾难恢复计划制定等;灾难备份中心的服务内容包括灾难备份中心(机房场地/数据处理/设备网络接入/业务连续性资源)、灾难备份中心运营管理、灾难恢复计划演练及维护、灾难恢复及技术支持等。
  GDS公司2001年建成国内第一个达到国际标准的专业灾备中心,2002年开始为深圳发展银行提供的灾难恢复外包服务是国内第一个灾难恢复外包案例。GDS可为客户提供灾难恢复规划、IT方案服务、数据中心管理、测试演练管理服务、审计与评估、灾备中心建设等服务。 (E5)
  应用锦囊
  灾难备份中心的建设
  灾难备份中心是用于灾难发生时接替生产系统运行,进行数据处理和支持关键业务功能运作的场所。它用来提供稳定的、长期的数据备份与灾难恢复服务,更侧重于如何提高灾难恢复能力。灾难备份中心在选址要求、建设规划和运营管理方面都不同于生产中心。
  灾难备份中心的主要选址原则:策略性——明确对灾难备份中心的定位,即灾难备份中心的建设目的是防范什么样的灾难事件,在灾难发生的时候又能够提供何种服务;风险性——选择或建设灾难备份中心时,要注意备选的场址所包含的风险是否在单位能容忍的风险范围之内,或是符合灾难恢复规划、业务连续计划的要求,考虑生产中心与灾难备份中心之间应保持适当地距离,避免因同一灾难导致两个中心同时处于灾难事件当中;科学性——选择或建设灾难备份中心时,应对备选的场址进行相关的场地风险分析,科学、全面地评价各备选的场址;适合性——对于选定的场址而言,首先要符合GB/T 2887-2000《电子计算机场地通用规范》的要求,还要关注场址周边环境、地质地理条件、市政配套条件、电力供应条件、通讯服务商所能提供的服务能力等诸多因素。 (E5)
  可用性度量是惟一指标
  在选择数据备份和容灾方案的过程中,用户应该注意哪些问题?中国计算机报·51CTO联合存储实验室技术总监董唯元指出:
  董唯元,中国计算机报·51CTO联合存储实验室技术总监,有多年存储行业从业经验,2001年创立国内首家专业存储技术论坛——ChinaStor.com。2002年以个人身份加入SNIA。2003年应邀任中科院计算所工程中心863项目组产品化顾问。
  可用性作为衡量设备和系统持续运行能力的惟一指标,一直是存储技术发展的主旨之一。
  在硬件设备层面,众所周知的RAID校验、热交换设计、冗余设计等诸多努力,都是为了确保存储设备在遭遇硬件故障时仍然可以正常运转。虚拟存储等技术则保证了设备扩展调整时,存储资源仍持续可用。在数据层面,数据快照配合传统数据备份,保护了静态数据,可使数据免受各类故障或人为错误的损坏,而CDP技术则更进一步,可以实时动态地保证数据的实时有效。在应用服务层面,高可用集群是保证服务持续运行的常见手段。诸如远程容灾等技术,则在广泛的系统层面全面提升服务的可用性。
  如此众多的技术手段有力地保证了IT系统的持续可用性,但到目前为止,这一IT系统的重要指标却没有统一的量化标准和方法。
  一些设备厂商以平均无故障时间(MTBF)来标定其设备的可用性,但这种基于统计的度量方式,仅限于工作模式单一的孤立设备,并不适用于层次关系复杂且边界条件千变万化的IT系统。
  另一个标记可用性的指标是系统不停机时间比例,即所谓的可用性百分率。然而在实际环境中,一些容错机制虽然可以在故障发生时保证系统仍然在线,但是后台处理过程往往会造成性能明显下降。对前端应用而言,严重的性能下降可能造成系统不可用,而宕机百分率只笼统地给出系统在线时间,根本无法区分短暂频繁宕机和长期运行中的偶然停机。
  我们认为,可用性量化测量不能以简单的孤立数字标注,而应从系统的角度全方位描述。其描述应包括以下五个方面:性能描述——指系统正常工作负载下的性能表现;降级状态描述——指由容错机制产生的影响及持续时间;完整性描述——指得出结论所引用的所有相关数据、信息和状态;精确度描述——指计算过程及方法;边界条件描述——指测试可控范围和结论有效范围。
  测量系统可用性的最终目标是,以量化结果认识各类事件对系统各方面服务的影响。简单地说,测量可用性过程的“输入”是事件,其中包含各类软硬件故障以及正常维护升级行为;“输出”是系统受到的影响,主要指系统对客户端请求的响应服务能力变化。
  测量可用性的方法可以概括为三个步骤:确立基准、插入事件和测量结果。
  由上述方法得出的结果可以转化成图表,并根据实际需求再次转换为量化结论。 (E5)
  名词解释
  平均无故障时间(MTBF)
  平均无故障时间(Mean Time Between Failure,MTBF)是衡量一个产品(尤其是电器产品)的可靠性指标,其单位为小时。它反映了产品的时间质量,是体现产品在规定时间内保持功能的一种能力。具体来说,是指相邻两次故障之间的平均工作时间,也称为平均故障间隔。它仅适用于可维修产品,同时也规定产品在总的使用阶段累计工作时间与故障次数的比值为MTBF。
  数据分析
  

  实施容灾遇到的最大障碍
  谈到实施容灾项目的最大障碍是什么,40%的参会听众选择了资金问题(第一大障碍),还有28%表示是因为没有专业的技术人员,另有24%认为缺少对相关技术的了解,只有8%的人表示现在没有这方面的需求。
  
  对评测数据的关注程度
  存储采购的专业性很强,76%的参会听众都表示,在采购之前,通常都会寻找一些权威机构的评测数据作为参考,但也有9%的用户认为有没有相关评测数据无所谓。大多数用户还是希望能够在采购时得到专业评测机构的帮助,有评测数据可依。中国市场也需要一些专业权威的存储评测机构冒尖。
  SAS提供了前所未有的灵活性
  作为一种新的存储接口技术,SAS不仅在功能上可与Fibre Channel媲美,还具有兼容SATA的能力,因而被业界公认为取代并行SCSI的不二之选。LSI存储元器件客户经理陆峰指出:
  陆峰,LSI存储元器件客户经理。2003年加入LSI北京代表处,负责中国区存储元器件的销售工作,致力于OEM伙伴的合作与服务,并积极拓展渠道建设和市场推广。
  关于SAS和SATA与上一代存储互联比较的文章比比皆是。在此,我们对三种最普遍的企业级和接近企业级的磁盘连接协议的数据吞吐能力进行比较,它们是Ultra 320 SCSI、SAS和SATA。SAS和SATA的性能优势,及其连接性、可扩展性和未来长远的发展路线,使它们成为许多新系统的首选。
  配置与规格
  当前的许多系统将Ultra 320并行SCSI用于引导驱动器、本地数据存储和尺寸适度的外部磁盘阵列。今后两年出现的系统将会采用SAS磁盘用于引导驱动器、本地数据存储和从小到大尺寸的外部磁盘阵列。SATA使用了同样的SAS基础设施架构,并以相对较低的成本增加了大量的存储容量。
  存储子系统性能的两个主要衡量标准是数据吞吐量和输入/输出速率。数据吞吐量通常用MB/s表示,测量最大限度的持续不变的数据速率。通常,最大数据速率可以通过纯读或纯写操作的顺序数据流检测到,数据块的大小为64KB或更大。输入/输出速率是系统每秒钟能够完成的输入/输出的最大值。最大输入/输出速率通常也是通过或读或写操作的顺序数据流进行测量,而且数据块的大小为单一扇区的大小,或者是512个字节。
  来自用户应用程序的输入/输出大多是随机的,也就是要求数据在磁盘的不同位置上跳动。由于一次随机的输入/输出包括移动磁盘的磁头(寻道时间)、等待磁盘主轴转动到正确的位置(旋转等待),以及需要移动数据的时间,随机输入/输出将不会产生在顺序输入/输出的吞吐量级别。磁盘驱动器、RAID控制器和磁盘系统中的数据高速缓冲区,能够减轻随机寻址的影响,但是不能完全消除。跨多个磁盘传播数据量,以及只使用磁盘的一部分来存储数据是增加随机输入/输出吞吐量的一种通用技术。拥有增强连接性的SAS和SATA允许使用比并行SCSI大的容量,并拥有较高的随机吞吐量性能。
  性能变化
  连接性与性能和并行Ultra 320解决方案是紧密联系在一起的。控制器一般拥有一个或两个SCSI通道,每个通道支持的最大速率为270MB/s。每个通道能够链接1~15台设备,共享270MB/s的带宽。在Ultra 320 SCSI执行中的性能变化是有限的,并且可能来自于磁盘数量(每个通道1~15个)、操作模式(Ultra 320、Ultra160、Ultra2等)、PCI-X总线带宽和频率。
  SAS和SATA是串行点到点连接,连接性与性能分离,并可以根据每个系统的要求,单独进行优化。性能变化可能来自于:磁盘数量(每个控制器最多126个,每个域最大为16K);操作模式(SAS 3Gb/s、SATA 1.5Gb/s、SATA 3Gb/s);与系统内存的连接带宽、PCI-Express或PCI-X总线带宽和频率;如果使用了扩展器,性能变化可能来自控制器与磁盘之间的连接带宽。
  连接性的变化范围可以通过控制器、扩展器和磁盘的拓扑结构进行管理,可以达到活动组件支持的最大寻址数量。高度可用的并行SCSI、SAS与SATA存储子系统是采用各种RAID控制器和保护级别、控制器的冗余路径和故障恢复进行构建的。SAS通过支持到达磁盘驱动器的冗余路径来增强可用性。
  对于一个在SAS上以780MB/s吞吐量为目标的系统,需要以下配置:至少是x4 SAS 1.0链接到磁盘;PCI Express x4、PCI-X 133MHz或更好的主机端链接;至少13个2.5英寸磁盘,或者至少9个3.5英寸磁盘,并且这些磁盘能够在任何多个不同的拓扑结构中,通过一个或多个扩展器进行附加。
  磁盘性能数据
  目前,企业级磁盘以两种板型因子提供。板型因子对最大可持续数据吞吐量具有显著影响。对于Ultra320和SAS来讲,一个3.5英寸盘一般支持90MB/s的可持续吞吐量。一个2.5英寸Ultra320或SAS磁盘将支持60MB/s的可持续吞吐量。当我们关注SATA磁盘时,该值会更低。一个3.5英寸的SATA磁盘将支持大约60MB/s的可持续吞吐量,2.5英寸磁盘支持高达45MB/s的可持续吞吐量。这些吞吐量数字假定为一个顺序数据流,并且不受轴转速的影响。对于随机输入/输出,支持的数据速率完全不同,受转速、磁盘行程(配置用于该卷的磁盘容量大小)、输入/输出尺寸和输入/输出排队数量的驱动。但是,持续的顺序吞吐量设置了每个磁盘期望得到的上限。
  发展蓝图
  SAS的优势主要体现在:灵活性,可以兼容SATA,为用户节省投资;扩展性,一个SAS域最多可以直连16384个设备;性能卓越,点对点的架构使性能随端口数量增加而提高;更合理的电缆设计,在高密度环境中提供更有效的散热。衡量一种技术的优劣通常有4个基本指标,即性能、可靠性、可扩展性和成本。光纤通道是最早出现的串行化存储技术,可以满足高性能、高可靠和高扩展性的存储需要,但是价格居高不下;SATA硬盘成本倒是降下来了,但主要是用于近线存储和非关键性应用,但在性能等方面差强人意;SAS应该算是个全才,可以支持SAS和SATA磁盘,很方便地满足不同性价比的存储需求,是具有高性能、高可靠和高扩展性的解决方案
  新的串行SCSI接口正处于发展初期,并将在今后几年内在连接性和性能方面不断发展。一些SATA解决方案正在形成,已经出现了具有3Gb/s串行链接速率的SATAⅡ。不久以后,SATA配置将能够支持1.0GB/s以上的速率。SAS和SATA将随着性能、连接性和管理能力的提高,得到进一步发展。 (E5)
  应用锦囊
  灾难恢复建设模式的选择
  灾难恢复建设的方式主要有三种:自建、共建和外包。
  自建是指单位自己拥有并操作灾难恢复设施,有自己的灾难恢复运营和管理团队。共建是指多个单位共同出资建设灾备中心,在这些单位内部互相提供灾备服务。外包是指单位选择外部专业技术与服务资源,以替代内部资源来承担灾难恢复系统的规划、建设、运营、管理和维护,比如租用灾难备份场地、设备,将灾备运营维护交于灾难恢复服务商、服务商协助应急恢复等形式。灾难恢复建设投资巨大,并且使用概率较低,因此,需要根据自身实际情况,对灾难恢复建设的总体投入成本(TCO)和投资回报率(ROI)进行认真分析和计算,从而确定灾难恢复资源的获取方式。
  在灾难恢复建设外包过程中,用户还可根据自身实际情况,在灾难恢复系统的投资模式、灾难恢复资源使用模式和灾难恢复系统的运营管理模式方面进行合理选择。例如:灾难恢复系统投资模式,灾难恢复系统由外包服务商投资建设和运营管理,用户整体租用;用户自己投资或双方共同投资,外包服务商负责提供托管服务等。 (E5)
 

责任编辑:罗智祥
  • 上一篇文章:
  • 下一篇文章:
  • 发表评论】【加入收藏】【告诉好友】【打印此文】【关闭窗口
     相关文章
    没有相关文章
     相关评论
    网友评论:(只显示最新10条。评论内容只代表网友观点,与本站立场无关!)
    用户名:
    · 您将承担一切因您的行为、言论而直接或间接导致的民事或刑事法律责任
    · 留言板管理人员有权保留或删除其管辖留言中的任意内容
    · 本站提醒:不要进行人身攻击与无聊谩骂。谢谢配合。
    热门文章
    最新推荐