首页 >> 网络解决方案
IDC数据中心系统宕机原因分析
发布时间:2012-3-12 16:33:05 被阅览数:22704次 来源:系统宕机原因
IDC数据中心系统宕机原因分析
Shen Milsom Wilke公司资本和数据中心设计专家罗伯特麦克法兰:人为错误是导致宕机的根本因素
据研究已得出了结论,高达75%的宕机事故是因为一些人为错误引起的。但是这些人为错误背后又是什么呢?以前,我们很简单地归结为是由于“缺乏培训”,但即便是训练有素的人当他们在忙碌、疲惫或没有真正思考时,或只是认为他们可以走捷径侥幸成功的时候,就仍会犯错误。但实际上可能更倾向于“缺乏规划”。一直以来,很多事情(特别是数据中心)之所以让人们犯错,仅仅是因为他们的布局不合理,或者是不良的标记(如果完全标记了),注定要使一些可怜人陷入一场错误之中,以致于一直所作的工作被理所当然地摆在首位,而原本不该是这样的。
例如,现在几乎所有的服务器都是以“双线”的形式连接到两个不同的电源中心的两个不同的电源插座。根据他们的习惯,电工可能把一个插座连接到配电盘A中的断路器7,另外一个插座连接到配电盘B中的断路器16.他们有可能把电路标签放在机柜内的插座上,这可能导致管理员看不见;还有可能把不符合机柜的编号的标识放在配电盘时间表上。这都很容易导致会错误关闭不同机柜里的电路,或者未能关闭计划的机柜电源。
系统宕机会严重影响员工的士气,因为IT行业向来恐惧故障的发生。小问题就足够糟糕了,而大问题则会耗尽员工的所有精力。IT业已成为新的“公用事业”。人们期望数据系统像电力、燃气和水那样,只是安装在那里而不会发生故障,如果发生故障也能迅速恢复。IT人员非常清楚,一旦故障导致影响企业声誉或危及生命,其将付出极大的代价。日常的压力能促使他们避免宕机。
往往最容易被忽略的系统宕机成本是企业形象。不同的企业,损失可能不同。但对有些公司来说,他们的形象受损可能会超出货币估值。另一种系统宕机的损失则是客户流失。假设一家依赖中央数据中心运输系统的汽车制造商突然因宕机事件而被中断业务。一家依靠准时交货的汽车公司一旦遇到了这种交货延迟,它就会转到他们的第二货源。而这个客户可能永远不会回来了。
宕机是不可避免的。IT是一件有压力的工作。总是又有一个服务器要安装,或者总有其他应用程序要推出,而且很少有足够的时间或资源来仔细地或者彻底地制作规范。有时必须要勇敢地面对管理层,并说,“这个时间表不现实,而且它在今后可能会引发灾难性后果。”必须有一个规章制度,并坚绝要求有适当的规划和程序,其中包括上面提到的所有事情。人为操作是引起故障的主要因素。我们不能把一个IT人员推向错误之后,当宕机发生时,还对其行为感到惊讶。
正常运行协会的内容出版物负责人Matt Stansberry:良好的规划可避免宕机
我借助正常运行协会副会长Rick Schuknecht来回答这些问题。Schuknecht在正常运行时间协会的精英数据中心终端用户网络从事工作。他表示,73%的数据中心宕机事故是由人为错误造成的。人为错误包括训练不佳、维护实践不良和操作管理较差。他说,停机可能会令人非常紧张,还会破坏员工的士气,因为工作与补偿往往以企业的有效目标为基础。
Schuknecht还表示,如果一个公司有一个良好并且适当的记录,他们就可以判断停机故障的根本原因,并确定在短期和长期内所要采取的措施。但是,只有当你建立了适当的有效的记录才可能这样。
还有一些被忽视的宕机后果。例如,金融业会有监管处罚。宕机也可能损害公司的竞争力,如在行业内失去商业信誉或者失去客户群。你愿意把你的钱放在哪里呢?放在无宕机的银行里,还是放在反复宕机的银行里?大多数金融公司有适当的方法来保护或恢复数据,避免失去交易连续性可能会导致的严重问题。
数据中心工作人员可以采用什么措施来避免和缓和系统宕机呢?Schuknecht建议建立良好的设施,计算出每件设备的维修计划,建立员工培训计划,介绍员工该如何及何时回应宕机事件,提供足够的资金用于营运以确保一切正常运作,还要建立一个良好的治理计划,其中站点基础设施要依照生产商规定运行。
数据中心经理ChuckGoolsbee:硬件故障导致宕机
最常看到的两个因素是不可恢复的部分故障和操作设备差错。就不可恢复的部分故障而言,通常的罪魁祸首是基于网络协议和不会导致彻底故障的网络硬件问题。网络硬件和协议正如所料在彻底故障的情况下通常是工作的,如线卡坏掉,失去电力到失去冗余等。但是,真正有问题的是在发生故障过程中,部件如何继续工作。虽然网络硬件常常发生这种问题,但是在电气开关设备和不间断电源设备造成的停机中也有类似的故障,比如在三相配电系统中损坏了一个单相。
业务联系QQ:173723134