我愿意指出,存在一些最佳实践,对于顺利运维大型存储场(shops)来说是必要的,而对于小型的存储场也是有帮助的。有一些事情,是我在不同的公司工作时,总是在做的。这都是一些常识,我列在这里,因为我认为太有用了。
确保锁定并将上报路径及存储供应商的联系人形成文档,以便在紧急情况时知道联系谁以及如何联系。这意味着要要确保有一个每个人的电话及邮件地址的清单,清单上包括客户经理、系统工程师以及主要的支持联系人。以相反的顺序做同样的事情包括上报路径,存储团队成员、存储经理以及存储经理的电话号码以及邮件地址,以便供应商需要时能够方便地联系你的公司。
和供应商举办例行的运维会议,利用这些会议审查已开工的和最近完成的项目,以及这些项目的解决方案。对供应商要求的根本原因分析,要确保利用这个论坛进行,并由供应商进行验收。在这个论坛上,还要对产生的任何失效或可能会突然出现的运维趋势进行讨论。
确保你同意软件和固件的发行,以及后续发布的软件和固件路线图。一般而言,每年会有两次主要的软件发布。在我工作过的大型环境中,通常是一年一次。确保首先升级起主要作用的系统套件,以降低与升级有关的风险。升级后,领航系统运行正常并且熟悉了其操作,再随后升级其余的系统。除非升级出现了严重错误或问题,一般我会确保领航系统的发布要正常运行1-3个月月。
对于大型的存储舰队来说,在各个地点确保有充足的常用备件,是无论如何至关重要的。一旦发生部件损坏,就可以立刻更换,而不用等待从供应商处运来再替换。并不仅仅是像磁盘这样的关键部件,如果发生影响到相互连接的架子或存储节点的组件的话,数量就会很大。发现问题立即解决,总是好的。这也能够让你根据业务需要,以及数据中心工作人员在场的时候,安排维修,而不是根据备件何时到达现场的情况进行安排。
另外,能够确保过程顺畅的事情是根据维修合同而接收到的备件的返还。向供应商请求备件时,供应商会立即将备件发送给你,但假如一发现问题,而现场正好存有备件从而能够立即更换网站建设数据库失效组件的话,就太好了。不管怎么说,失效组件一旦从存储系统中取出,要确保对其进行跟踪,并将其返还给供应商。
本文地址://www.gogoparty.cc//article/3342.html