打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
数据中心IT设备连接管理

DCIM 是连接数据中心IT和基础设施(Facility)管理的桥梁。准确细致的呈现IT设备与为其提供服务的基础设施之间的紧密连接状态构成了这个桥梁的基石。对于传统数据中心管理通常有多套独立的系统来管理基础设施监控,环控和IT设备等。这也使服务器,存储和强电PDU设施等不同类型的数据很少有交集,但他们之间却存在着紧密连接关系。


DCIM系统不仅仅是收集和汇总数据中心来自IT和基础设施的尽可能多的数据,更重要的是重组这些零散,无序的数据,并找到数据与数据之间的连接关系,把数据变成有用的信息。有效的管理和利用这些连接信息,使数据中心管理人员更加清楚了解设备之间的相互关系。相互关系的核心是量化两个数据值之间的数理关系。相互关系强是指当一个数据值增加时,另一个数据值也会随之增加。例如,当数据中心服务器,存储设备不断增加,会带来强电PDU,UPS的负荷不断增加,局部和整体温度不断上升等等。


建立在连接管理和相互关系引擎之上的分析,模拟和预测是DCIM的核心之一。因此,连接性信息的管理是体现相互关系和分析引擎的基础和关键。准确精细的连接性信息使数据中心的管理提升到一个全新的阶段。数据中心核心系统的管理人员不必再依靠猜测,而是凭借设备间准确细致的连接性,相互关系信息和强大的数据分析预测引擎来做最合适的判断决定。这也是DCIM与传统数据中心管理系统的核心区别之一。


IT设备的连接和管理体现在2个层面:


(1)IT设备之间以及和机电设备之间的物理端口连线。如电力线缆连接,网络线缆连接,KVM连接等。


(2)基于物理连接之上的对IT设备访问,操作与控制。如KVM远程维护,智能PDU的远程开关,以及和虚拟机管理平台的集成等。


1、IT设备物理连接管理


IT 设备间连接管理全面的呈现数据中心IT服务器,存储,网络(交换机,配线架,布线)等设备之间连接关系。它反映了IT设备间完整的端到端链路连接情况。


IT设备间连接管理的重要性体现在,管理人员可以更快速,清晰了解完整的设备端到端链路连接情况。端到端链路连接反映了3个方面的信息,第一,了解该IT设备在整个数据中心里具体物理位置,其次,IT设备连接到其他什么设备;最后,设备之间的连接媒介是什么(例如跳线,布线,光缆等等)。


通过连接管理可以从服务器NIC开始,沿着结构化布线直至端点服务器,对电缆线路进行跟踪/追溯,以跟踪各 HOP 的哪些端口被使用。此功能可在网络利用和管理方面提高效率。此外,通过能够跟踪以太网和光纤通道交换机的物理网络层,可在网络故障时加快事故调查速度,缩短平均修复时间(MTTR),进而实现成本节约。


完整的端到端连接,呈现了IT设备之间物理和逻辑的连接关系。设备之间的连接关系,构建在数据基础上。因此,精确的数据采集决定了IT设备之间的连接关系呈现的准确性。IT的设备数据来源有四种方式,第一,人为手动的输入;第二依靠电子表格批量导入;第三,自动化IT和基础设施设备硬件采集;第四,与第3方设备或软件数据系统集成。


自动化的IT和基础设施数据采集大大降低了人为手动输入的工作量,提高了数据准确度。ANSI/TIA-606B,ISO/IEC 14763-2:2012 等国际标准定义和推荐使用自动化基础设施管理 Automated InfrastructureManagement(AIM)系统。两个国际标准对自动化基础设施管理(AIM) 系统提出具体要求:


(1)利用自动化技术探测到网络跳线线缆的连接或断开,发送警报。


(2)实时自动化网络和配线架端口监测。


(3)自动化数据采集和自动化文档更新。


(4)使用电子工作单,推荐自动化流程化管理.


如下图所示,以智能布线系统为代表的自动化硬件管理系统通过与DCIM系统的集成,可实现了IT和基础设施设备连接管理的数据采集,一方面减少了手动输入的工作量,降低人为操作误差;另一方面采用自动,快速,实时采集数据,呈现IT 设备之间物理和逻辑的连接和动态变化关系。这大大提高了连接管理的数据准确度,提高管理效率。

                           

智能布线系统


同时IT设备与机电设备之间的连接关系的可视化和组态化,也有助于运维人员快速的发现问题和定位问题。并且可以实时的了解关键路径的运行状态。下图展示了从服务器-- PDU- ATS- UPS- 到发电机及市电接入的完整连接路径和拓扑。


电力系统拓扑示意图


2、IT设备的访问与控制


当前数据中心内部的IT环境通常很复杂,服务器、网络、存储等设备数量众多、品牌多样、管理接口各异。而IT设备作为数据中心基础设施管理的上层管理对象,如果没有统一的连接方式、缺少集中化的控制能力,那么在设备种类众多,且部署分散在数据中心各个机房的情况下,一旦设备出现故障,由于缺少Bios级别的连接能力或管理通道,维护人员需要花费大量时间进入机房内对设备进行紧急的故障处理或维护,显而易见这将明显延长了故障恢复时间,给数据中心业务的不间断运行带来了很大的隐患。此外未充分利用的IT设备也是引起数据中心能耗过度消耗的一个极大因素。


据研究报告统计,全世界数据中心约有15%的服务器没有被充分利用,这些未利用服务器带来了可以避免的高昂数据中心管理成本和能源消耗。Gartner报告显示一台物理服务器即使只有25%的处理能力在发挥作用,其能源消耗率仍然会达到其额定运转功率的80%。换而言之,如果能够发现未被充分利用的服务器,能够进行这些服务器的电源集中控制,甚至能够制定服务器合理的能耗控制策略,这将在很大程度上有效降低数据中心的基础设施管理成本和能源消耗。


因此,在DCIM解决方案中,实现可靠的IT设备连接能力,可以为数据中心的IT设备提供跨平台、跨系统的统一管理入口,将基础设施管理真正意义上扩展至IT层面,保证数据中心的物理安全性及IT服务器可用性。另外,在DCIM解决方案中实现服务器的集中能耗监测及能耗控制能力,可以带来显著的管理成本降低和能耗成本减少。因此,DCIM解决方案所提供的IT的控制能力将成为未来数据中心基础设施管理中不可或缺的手段。


从技术的角度,数据中心的IT设备连接管理可分为带内管理(in-band)和带外管理(out-of-band)两种管理模式。


所谓带内管理,是指网络的管理控制信息与用户网络的承载业务信息通过同一个逻辑信道传送;而在带外管理模式中,网络的管理控制信息与用户网络的承载业务信息在不同的逻辑信道传送。其中,带内管理分为网管系统和带内管理工具两类。


(1)常见的网管系统有:HPOpenview、CiscoCiscoWorks、IBMTivoli等系统。


(2)常见的带内管理工具有:Windows远程桌面、VNC软件、Telnet、SSH等工具。


(3)常见的带内管理能力:服务器操作系统层级控制能力。


这类的网管软件系统与工具都属于带内管理,它们必须通过业务网络来管理设备。如果无法通过业务网络访问被管理对象,那么带内管理就失效了。


而带外管理不仅能在日常维护中对IT基础设施进行集中控制和统一管理,而且网络中一旦出现故障节点,如:关键业务服务器操作系统没有响应、网络链路中断、网络设备出现故障,可以通过带外方式对故障设备进行故障排除,而不受业务网络连通性的影响。


(1)常见的带外管理硬件有:KVM 交换机、控制台服务器、服务器BMC芯片等。


(2)常见的带外管理能力:BIOS层级及以上控制能力、服务器远程开机、关机、重启等、服务器功耗监测与控制。


显而易见,集中、易用、安全的IT设备带外连接及管理能力是一个全面DCIM系统所应该具备的。对IT设备访问及管理应基于以下应用原则:


(1)基于服务器级别的能耗实时监测,更加精细,更加准确。如果精细化到每一个电源端口的的功耗监测,可以使用的机柜智能PDU进行功耗的读取,也可以通过IPMI协议通过服务器BMC来直接做到对于服务器级别功耗实时监测。


(2)实现带内管理的整合,带来统一管理入口。为了实现IT设备的统一管理,带内与带外管理相结合的方式无疑是DCIM管理系统更好的IT设备管理方式。在带外管理的基础之上,DCIM管理软件实现提供通过RDP, SSH, VNC等会话连接服务器、网络及存储设备,进行远程集中控制管理,将实现直接对数据中心所有IT设备进行有效管理和配置。这将大大降低了管理成本,提升了运维水平。


也可以将DCIM平台和KVM、SP以及串口管理等数据中心远程管控的平台相集成。比如当DCIM平台监测到某台服务器存在异常,可以直接在DCIM平台打开KVM的session,从而对该服务器进行操作。这样会大幅减少人员在不同平台之间切换,以及设备定位的时间,进一步提高人员和流程的效率。


(3)透过能耗监测与分析,有效判定数据中心分布的低负载服务器,群组级别服务器控制带来行之有效的能耗降低。


在一个投入运行的数据中心总会有一些服务器一直在开启状态,很长时间都没有任何业务负载,一直在消耗电力和制冷。据前文所述,一个数据中心的“僵尸服务器”的占比通常高达15%左右。利用服务器能耗分析,可以很容易的确定长期低负载服务器的信息,从而将这些服务器更加合理有效地加以利用。并且基于IPMI协议所实现的群组级别自动开关机能力,可以将没有业务的部分服务器一次性统一关机节省电能,并而在业务来临时再迅速开启投入运营,这样可以在不影响业务性能的情况下,最大限度的降低了能耗水平,节省了能耗成本。


(4)监测IT设备能耗,合理增加机柜密度。目前,数据中心内针对服务器上架到机柜,一般来说都是利用经验功率或者服务器铭牌功率为标准进行服务器的上架。假设一个42U的机柜额定电流为20A,如果预估2U服务器的经验功率为350瓦,则最多只能放置12个服务器,宝贵的U位空间资源被明显地浪费了。当DCIM软件可以监测并记录服务器的实时功耗,在监测一段时间后,发现每台服务器的功耗从来没有超过300瓦甚至更低,那么结合服务器功耗控制,数据中心管理者就可以安全、有依据、可靠地利用DCIM软件的实际分析结果来提高机柜的服务器部署密度,合理的进行能源和空间资源的优化,从而延长数据中心的使用寿命。


3、DCIM和虚拟管理平台的集成


如上所述,数据中心基础设施管理(DCIM)软件不但能够监测和报告供电和制冷系统的性能和容量,还可以追踪IT 设备和物理基础设施之间的各种关系。好的虚拟机管理需要了解物理和虚拟服务器所安装的机柜内的供电和制冷系统。这种了解是非常重要的,因为如果缺乏了解就不能确保虚拟机创建和迁移至具有足够和健康的供电和制冷资源的主机上。  VM 管理器(如VMware vSphere)和DCIM软件以及由两者之间集成产生的互动能够确保服务器和存储设备在需要的时间和地点得到供电和制冷。 


虚拟机在物理服务器之间的创建和迁移通常是为了获得足量的处理器,内存或者存储资源。而有效地管理系统可以使虚拟机的迁移依据实时的机柜级物理基础设施容量和健康程度。当DCIM软件与虚拟机管理器相集成,虚拟机就可以安全地且自动地迁移到有足够供电和制冷容量来处理额外负载的区域。反之,虚拟机在机柜间的迁移会造成电源和制冷方面的麻烦。例如,如果某个机柜突然断电、风机故障或者丧失冗余,虚拟机管理器应该得到告警,而处于危险状态的虚拟机可以迁移至数据中心其它地方安全的和健康的机柜。因此,数据中心基础设施软件与虚拟机管理器相集成是确保虚拟负载和物理主机受到保护的一项极为重要的功能。这样将会更易于保持服务等级,而数据中心人员也不会在监测供电和制冷基础设施上花费太多的时间。 


在供电和制冷容量被缩减或适度选型规划至虚拟化整合后的负载相匹配的时候,集成所扮演的角色就更加的重要。因为预留的容量越小,所能容纳虚拟机错误和失误的空间就越小。在负载不断快速变换的环境下保持高效的、度身的数据中心需要管理系统能与虚拟机管理器实时地自动配合工作。 


同时,在规划与虚拟机管理相关的IT 措施时也应该考虑供电和制冷系统。要实现这样的运行方式需要数据中心基础设施管理软件与虚拟机管理器相集成。根据供电和制冷容量、健康度和冗余度,措施规范应对其所接纳的应用或者虚拟机的范围和界限予以规定。虚拟机的创建和迁移都可能在很短时间内完成,而且越来越趋于自动化。这需要严格的管理以及行之有效的措施对机柜级的基础设施状态和容量进行监测。如果不这样,那么虚拟化技术为云计算带来的软件层面的容错性将不复存在。


呈不断上升趋势的是,数据中心管理软件自动地创建和移动虚拟机。这种独特的功能可以帮助虚拟化数据中心更具容错性。如果虚拟机或者主机崩溃导致软件应用的故障,其它的虚拟机能够很快地恢复工作负载,最小化用户的宕机时间。自动化的虚拟机创建和迁移在云计算中能够最大限度的提高运算能力的可扩展性。具有这种容错性以后,在高虚拟化的数据中心环境中对高冗余性(2N  或2(N 1))的供电和制冷系统的需求会有所降低。假设某台UPS的故障不会导致业务中断,那么就不需要为其配置备用的冗余UPS系统。原先规划建设2N冗余的供电和制冷系统,也许现在就可以考虑建设两个N 1的数据中心取而代之。建设两个500 kW 的N 1供电和制冷冗余的数据中心所需的投资比建设一个1 MW 的2N供电和制冷冗余的数据中心的成本低35%。高度虚拟化环境下的容错能力使降低物理基础设施的冗余度成为了一种切实的选择。在做出这种决定之前,IT 管理人员和设施管理人员应当全面的考虑如果物理基础设施故障或者不可用,其对业务连续性所可能产生的影响。这就意味着应该重新考虑和审视IT 管理系统和制度以确保它们在降低物理基础设施冗余的情况下,有能力提供所需的服务等级和容错能力。物理基础设施的冗余性与虚拟 IT 环境的容错性相匹配,也是正确规划选型的一种方式。这种方式的正确规划选型能够进一步减少能耗,投资成本和固定损耗,从而改善数据中心基础设施效率PUE。


(本文节选自《中国数据中心运维管理指针》,如需购买或转载请留下您的联系电话及邮箱发送留言至本公众号,将有工作人员与您联系)

ChinaDCC
微信ID:chinadcc
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
智简魔方DCIM与传统数据中心设施管理有什么区别
运维不得不知道的事 数据中心断电如何做
2011年存储数据中心十大发展的趋势_服务器 云计算 报道_数据中心_eNet硅谷动力服务器频道
dcim是什么意思?
机房DCIM系统
IDC:数据中心能耗问题成管理者关注焦点
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服