这种复杂性的操作管理严重影响机房运维人员的

大型数据中心运维管理“智”关重要

从这些数据中可以看出,如何保障数据中心IT基础设施运维管理的可靠和安全,已经成为数据中心运营管理者最为关注也是最棘手的问题。在看来,高品质的数据中心运维管理“智”关重要。

复杂多变的市场环境,快速发展的业务,促使数据中心管理者对IT运维管理提出更高需求,传统的“重建设,轻管理”的IT思维禁锢着数据中心IT系统的价值发挥和潜力发掘。

在后信息时代,管理服务的价值愈发凸显,激发着数据中心管理者对于如何提升管理质量和效率的思考和探索。

宁波是国内最早提出建设智慧城市并启动实施的城市之一。近年来,宁波依托发达的临港产业、制造业基地和外向型经济等优势,为智慧城市建设提供了广阔的发展空间。A数据中心是宁波市规模较大的数据中心,总建筑面积超过8000平方米,拥有逾1000台机柜,参照五星级机房标准进行建设。该数据中心承担着华东地区多个行业多家重量级企业的IT系统入驻、应用和管理维护。

对于如此规模的数据中心,需要一套完整、规范、切合需求的运维管理体系和一支具备丰富运维管理经验和极强的运维管理能力的运维管理团队协助其实现高效运维管理。

整合先进的数据中心运维管理经验和技术,将IT运维管理流程与A数据中心的需求和发展进行科学匹配,建立了一套完善的运维服务管理体系,按照ITSS科学的方法论实现“人员、流程、技术、资源”四大要素的整合,将规划、运维及管理以规范化的IT运维管理方式贯穿整个运维管理过程,制定了专业而全面的维护流程、制度、预案以确保优质的服务水平。

运用科学的管理思路,为该用户解决IT基础设施的管理难题。为保证电源无间断故障产生,采用部署两路市电常供、柴油发电备用的安全方案,双管齐下保证电源环境常年无间断。通过对各种应用系统采用“事前监控预警、事后及时响应”的备战策略,一方面通过先进的监控预警平台,防患于未然,大大降低故障产生率;另一方面对已发生的故障快速响应,积极“灭火”,最大程度地降低了故障损失。

在服务团队及A数据中心管理团队的通力配合下,该数据中心建立了完善的IT系统维护流程、规范的操作制度、详尽的应急预案,并定期进行多种类别的应急演练,保障业务开通和故障处理及时率达99%以上,电源供电可用率99.99%。通过建立安全运维机制,实现7x24电信级集中监控以及7x24小时现场维护值守,对数据中心的网络、动力、环境、消防等系统进行集中监控和预警,现场值守人员进行日常巡检和维护作业,并进行现场处置。其中,现场维护按专业分为IT维护组和动力维护组,并设置动力支持、网络支持、客户服务经理、资源管理和质量分析等支持岗位。相应岗位人员具备专业资格和多年维护工作经验。

数据中心运维管理工作是一项长期的、具有累积效应的工作。以稳健、可靠的服务在历次考核中获得优秀成绩。而随着该数据中心的用户进一步增加、IT设备更加复杂多样,的运维服务管理能力也将面临更高的考验。


必威 1


从这些数据中可以看出,如何保障数据中心IT基础设施运维管理的可靠和安全,已经成为数据中心运营...

其实,采用智能化的管理手段,可以轻松满足这些需要。以电源管理为例,领先的智能电源管理解决方案供应商力登提供了一整套以智能PDU为核心的机柜内部微环境和供配电监控管理以及整个数据中心平台管理方案:通过智能PDU进行实时远程电源监控,能够对相关参数包括对电流、电压、功率(单位:kVA、kW)和能耗达到±1%计费级准确度,甚至可以单独对每个电源插座的上述相关参数进行监控。除了高效、可靠地分配电源之外,新的iPDU还凭借更多计算和存储功能,可支持新的应用并收集和分析IT设备的用电数据、数据中心内可用电源容量以及机柜环境健康状况;并且提供更多的传感功能与基础架构数据收集点(特别是独特的力登电子门锁)。此外,还能通过Power IQ电能管理软件对设备所处微环境的温度、湿度、气压等状况进行监控,更重要的是这些计量后的数据会被收集整理,从而为管理者提供决策参考。

二、应急处理相关名词解释

(1)建立自动化运维管理平台

德讯DCIM解决方案为数据中心提供全方位智能化管理

近年来,国内金融市场逐步全面开放,金融国际化趋势加速,中国金融市场竞争空前激烈。随着金融业信息化进程的不断深入,金融业数据中心所需的信息系统、业务系统不断增多;数据中心的各种设备逐渐增多,运营成本也相对提高。数据中心运营商始终努力采取多项措施来控制数据中心的成本,努力实现高效率、低成本的运营模式。因此,对数据中心进行基础设施资源优化管理,已成为金融系统在信息化建设过程中不可回避的重要议题。

目前,金融机构数据中心均建设有多个管理系统,其中包括环境监控、系统监控、远程管理系统、风险控制系统等。在日常的运维中,常常存在以下一些管理复杂性问题:

⑴ 多权限分配及多密码管理:为了保证各个业务系统的安全、稳定的运行,需要设置不同的管理密码与操作密码,针对每个管理系统分配各自的管理权限。这种复杂性的操作管理严重影响机房运维人员的工作效率。

⑵ 多系统频繁切换管理:由于系统各自的独立性,在日常的运维中,需要在各系统中进行切换查看、排除故障原因,最终解决故障,这会影响故障的处理速度与处理效率。

⑶ 不利于快速定位故障点:设备部署在复杂的机房管理环境中,当设备出现硬件更换需求,需要查找资产信息,确定位置后才可以去进行设备维修、更换,严重影响维护效率。

⑷ 设备管理界面分散化管理:无法直观的、一目了然的掌握机房现状,无法及时排查问题,并掌握系统运行状态。

德讯科技提出的DCIM数据中心基础设施资源优化管理解决方案可以实现在可视化管理界面下、便捷的进行资产管理、运维管理、能源管理、变更管理、环境管理、电源管理等高效、统一的智能化管理流程。在此前提下,可以有效帮助数据中心维护人员规范工作流程,实现精确规划;完善分析处理能力、报告处理能力、审计处理能力。其方案系统部署示意图如下图所示:

必威 2

德讯科技为金融机构数据中心专属打造的DCIM数据中心基础设施资源优化管理解决方案部署完成后,能够成功实现以下重要应用价值:

  1. 统一管理平台

基于DCIM基础设施资源优化系统,实现集网内协议会话、带外运维工具、数据库与应用审计、电源、能耗与环境、资产管理等于一体的3D可视化数据中心管理平台,有效实现了IT与核心基础设施的全面整合,各系统间不再是毫无关联的孤立系统,而是形成了有机的整体,更有利于机房运营和企业综合管理。

  1. 快速定位故障点

DCIM数据中心基础设施资源优化管理解决方案能够提供异常状况逐级报警功能;提供三级报警(如运维人员、主管和主任)与两级审核确认;实现灵活设置处理时段及处理结果的报警提醒;可实时跟踪与处理异常行为。针对报警处理人员的事件处理情况,还可设置审核人员,针对报警处理情况进行审核确认,强化机房系统的监管功能。

  1. 3D可视化管理界面

本方案将所有IT设施状态信息的实时反馈有效结合,以3D可视化效果把整合的数据全部呈现到机房管理者和企业经营者的眼前,有效降低机房管理的复杂程度,真正意义上达到从全局各方面的管理逐步聚焦到局部对应点的管理,使层次化管理再次降低难度;通过有效资源整合与集成,提升了数据中心可管理性与可用性,有如身临机房,简单、直观、全面掌控机房运行动态。

4 系统部署的可扩展性

DCIM数据中心基础设施资源优化管理解决方案支持集中化管理与部署,并拥有非常高的灵活性和可扩展性,能够更好地适应用户数据中心复杂的网络环境和管理需求。适用于具备较多数量运维人员、多样性应用、跨VLAN操作、通过内外网访问等多样化的应用环境,同时可支持多网络管理。

5.兼容主流品牌系统

DCIM数据中心基础设施资源优化管理解决方案除支持德讯自身产品外,还可以同其它主流厂商动环及安防系统、网络监控系统、IT设施运行监测系统等主流品牌系统兼容。

DCIM数据中心基础设施资源优化管理解决方案可细分为3D可视化数据中心呈现系统、动态资产管理系统、微环境及能耗管理系统、以及对其他接口系统(动环、监测、远程管理、堡垒机等)四个部分的建设。DCIM解决方案通过机房的深入管理,为企业决策者提供了一个全方位管理数据中心所有资产能源和设备的平台。将包括电源、制冷、空间管理、服务器、网络连接、存储状况甚至包括物理层安全都全部进行智能化、综合化管理;有效加强系统间关联性,整合资源与集成,提升数据中心可管理性、可用性。通过智能跟踪与预测,加强业务管理灵活性。为管理者提供便捷的管理工具和优化建议数据,大幅度提升管理员的工作效率,加强运维过程的操作安全。

相对于企业领导者关注的资源配置与经济效益问题,全面掌控机房运行状态,为企业制定有利的管理决策提供可靠依据。通过智能跟踪、测量告警、能效管理等功能有效帮助管理者识别并减少配置冗余,节能环保,达到机房最佳资源配置及运行状态,降低企业运营成本并最终提高企业的利润和经济价值。德讯科技始终坚持“以科技及创新改善IT管理方式”的发展理念,不断创新,始终引领IT设施运营管理的发展新航向。

更多详情请关注德讯官方网站或拨打热线电话;亦可扫描下方二维码了解更多产品及活动信息。

必威 3

近年来,国内金融市场逐步全面开放,金融国际化趋势加速,中国金融市场竞争空前激...

人云亦“云”的时代,数据中心作为重要基础设施发挥着必不可缺的重要作用,而随着数据中心建设规模的不断扩大,新技术的层出不穷,数据中心的运维难度也“更上一层楼”。尤其是当面临“突发事故”,更是考验一个数据中心的运维能力。

为了提升数据中心基础设施运维质量,加强数据中心自有应急服务保障物资和装备的管理,确保数据中心各类业务保障工作的顺利开展,依据国家法律、行业规范,各类数据中心应制定适合本数据中心的基础设施运维应急物资管理办法。

目前许多企业的IT运维已经实现从人工运维到计算机管理,但延展咨询在同客户的交流中发现其中很多企业的IT运维管理还只是处在“半自动化”的运维状态。因为这种IT运维仍然是等到IT故障出现后再由运维人员采取相应的补救措施。这些传统式被动、孤立、半自动式的IT运维管理模式经常让IT部门疲惫不堪,主要表现在以下三个方面:

数据中心在国内突飞猛进只有十多年的时间,却已从只有UPS、空调和IT设备的普通机房时代,进入到囊括互联网、大数据、AI、云服务等全方位服务、动辄拥有数万机柜,自然冷、风墙、水下数据中心、液冷服务器等新技术不断被创造和应用的新时代。这样一来,运维管理面临更大的挑战。

  • 应急:应急是一种要求立即采取行动(超出了一般工作程序范围)的状态,以避免事故的发生或减轻事故的后果。
  • 预案:为进行危机管理提前制定的操作计划。
  • 应急信息保障:当数据中心设施遭受破坏、性能降级、异常或执行重要信息保障任务时,通过应急方式来保障信息服务能力。
  • 数据中心保障应急预案:为开展数据中心服务保障工作而提前制定的操作计划,规定了各级单位应对各种突发或重要事件的工作原则、组织机构、应急响应等通用性内容,适用于应对各类突发或重要事件。
  • 重大危险源:指在数据中心园区内或周边,长期地或是临时地生产、搬运、使用或贮存危险性物品,且危险物品的数据等于或超过临界量的,重大危险源历来就是数据中心运营监管重点对象。
  • 分级响应:突发或重要事件发生时,按照分级负责、快速反应的原则,应急响应划分参照国家应急预案标准。

论坛活动地址:

必威 4

3、应急演练小结

维护事件提醒自动化,是指通过对IT设备和应用活动的时时监控,当发生异常事件时系统自动启动报警和响应机制,第一事件通知相关责任人;

上个月,北京亦庄某数据中心柴油机起火事故再次为数据中心运维管理敲响了警钟!

1、应急演练的目的和意义

当变革产生的时候,如果不能主动应对变革,必然会产生失衡,失衡的后果就是信息化建设的坍塌。科技的发展带来了新的IT运维需求,相关服务提供商需 要做的事情是找到应对需求变化的理论方法和技术手段。而用户的信息化管理者需要做的则是找到合理的解决方案并且快速的部署实施。

为了保障新时代数据中心的安全,在实际运维过程中,运营商不仅需要对数据中心里面的温湿度、电能、水流及风量等进行全面实时的监控,以期发现潜在问题,通过预警机制及相应的流程做到防患于未然,还要科学运用这些数据来为应急措施及节能措施提供可靠的指导依据。

(1)选址在交通便利,供电可靠,周围没有明显的安全隐患,不易受洪涝、山体滑坡等影响。

2、数据中心设备“零配置”。这里所说的“零配置”是相关设备与IT运维系统之间的配置关系。对于企业用户而言,内部的信息化设备的品牌繁多,相关 设备的更新换代也比较频繁。如果运维系统需要针对每一台设备进行配置备案的话,工作量浩大而繁琐。而iMC的“零配置”指的是IT运维系统对于相关设备的 自动识别,相关监控数据的自动采集和抓取,这样既节约了运维系统的上线时间,又降低了管理者的工作成本。
 
3、网络服务自动编排。在云时代的数据中心环境中,我们所面临的不再是一成不变的设备环境,基础设施可能随着业务需求的变换而不断增长、调整。为了屏蔽不 同厂商、不同型号设备的差异,使IT管理员聚焦在服务本身,必须要作到对资源及业务的快速开通,实现高度智能的自动化管理。iMC借助融合的资源管理能 力,将各种资源提供的能力抽象出来,建立统一的机制,实现基于业务的编排能力。
 
4、IT服务水平自动度量。根据ITIL信息技术基础架构库)规范要求,数据中心IT服务部门通过服务水平管理SLA)来保证其服务有效,建立服务健 康水平监督体系,来保证服务达到规定的健康水平等级,即使服务失败,也可以正确分析原因,帮助IT服务部门做出正确的应对决策。

首先,规模超大带来的人员、组织和效率的变化。以前万平米以内的数据中心,人工巡检一次2-4小时,现在数十万平米,需要更多的运维人员分布在不同的责任区,增加了管理的难度和成本。其次,电压等级提高,安全风险增加。以往运维人员接触的是低压,现在供电设备、发电机、冷机都是高压供电,维护安全要求提升。此外,规模集中,导致风险集中,事故影响更大。例如之前亚马逊的数据中心事故,导致了全球大面积的服务和应用中断,损失惨重,因此运维管理的压力超前。

(2)数据中心基础设施运维相关应急物资储备部门,要加强应急物资维护管理,根据储备物资的有效期和质量要求对储备物资进行保养和适时轮换,确保应急物资的可用性和完好率。

完善的安全管控策略所需要的要素包括:

  • 功能完整。数据中心基础设施运维应急预案中,应说明有关部门应履行的应急准备、应急响应职能和灾后恢复职能,说明为确保履行这些职能而应履行的支持性职能。
  • 应急过程完整。数据中心基础设施运维应急预案应包括应急管理工作中的预防、准备、响应、恢复四个阶段。
  • 适用范围完整。数据中心基础设施运维应急预案要阐明该预案的使用范围,即针对不同事故性质可能会对预案的适用范围进行扩展。

云计算最终的目标是达到系统的按需运营,运营系统能够根据用户请求执行服务的开通。任何一套管理系统,都不可能满足所有用户的需求,在云时代尤其如 此,这就要求用户在建设数据中心时具备开放的管理战略,IT管理系统具备开放的能力。iMC是一个开放架构的SOA平台,所有iMC相关产品都是在此统一 平台上开发的,并在此平台上封装网络服务并开放服务接口,第三方产品可以使用基于iMC 平台和开放的API接口实现对网络资源的调度。

(6)相互衔接性。各类针对各种场景的数据中心基础设施运维应急预案,应相互协调一致、相互兼容。

(3)缺乏高效的IT运维技术工具

(7)附则:包括名词术语和缩写语、预案的管理与更新、沟通与协作、制订与解释部门等内容。

1、配置合规检查

所有参演人员应做到听从指挥,严格按照操作流程执行操作,意外情况做到及时上报,并采取有效措施防止意外事件继续发展。

融合的基础设施管理包括:

(3)可操作性。应急预案应具有实用性和可操作性,即发生重大事故灾害时,有关应急组织、人员,可以按照应急预案的规定,迅速、有序、有效地开展应急救援行动,降低事故损失。

配置变更检测自动化,是指IT设备配置参数一旦发生变化,将触发变更流程转给相关技术人员进行确认,通过自动检测协助IT运维人员发现和维护配置;

(1)数据中心基础设施运维相关应急物资的日常维护工作,由数据中心应急物资储备部门负责,应参照各数据中心相关维护规程制定具体的应急物资维护细则并严格执行。

变革带来的思考

现场人员均按照演练计划中各类指令进行下一步操作。

对于企业来说,要特别关注两类自动化工具:一是IT运维监控和诊断优化工具;二是运维流程自动化工具。这两类工具主要应用于:

六、应急处理之应急演练

IT运维自动化管理建设时,首先需要建立故障和事件处理跟踪流程,利用表格工具等记录故障及其处理情况,以建立运维日志,并定期回顾从中辨识和发现问题的线索和根源。事实上许多实践也证明,建立每种事件的规范化处理和跟踪指南,可以减少IT运维操作的随意性和强化运维的执行力度,在很大程度上可降低故障发生的概率。同时,用户还应可以通过自助服务台、电话服务台等随时追踪该故障请求的处理状态。

【编辑推荐】

数据中心规模庞大,设备及系统众多,管理人员经常面临的问题就是大量重复设备配置的规范性、安全性问题。伴随着各种审计体系在级别和频度上的不断增 加,传统的通过人工方式检查设备规范性的审计方法,不仅效率低下,还会存在遗漏,已经无法适应云时代数据中心的安全管控需求。都说安全问题“三分技术,七 分管理”,但是想要把那“七分管理”iMC配置合规检查内置常用的策略,如NSA路由安全建议、PCI、Syslog功能、设备安全高级建议等,以满足用 户的日常检查管理。用户可以自定义合规策略,对网络设备进行配置检查。合规策略包括一个或多个检查规则,一个检查规则分为配置文件、接口、链路、聚合链 路、配置片段、脚本等不同类型,包含支持的厂商、设备系列、检查内容来源、规则内容等信息。用户可通过创建检查任务来检查设备是否符合合规策略,检查任务 包含待检查的合规策略、设备的信息等。检查任务执行完毕后,可以通过报表查看设备违背合规的信息。对于违背合规的设备,用户可以创建违规修复任务进行修 复,及时解决在数据中心环境中出现的配置问题,提高安全等级及各种法案法规的遵从度。

本文由必威发布于必威-运维,转载请注明出处:这种复杂性的操作管理严重影响机房运维人员的

相关阅读