ABB
关注中国自动化产业发展的先行者!
CAIAC 2025
2025工业安全大会
OICT公益讲堂
当前位置:首页 >> 资讯 >> 行业资讯

资讯频道

服务器运维和巡检工作之我见
  • 作者:郑邦甲
  • 点击数:2846     发布时间:2021-06-26 10:59:33
  • 分享到:
服务器和相关设备的运维巡检工作是一项综合性很强的工作,需要服务器运维人员全身心投入,认真做好各方面的工作。需要关注服务器硬件及软件运维巡检的注意事项,在巡检过程中发现的故障和问题要及时解决。需要遵循公司为保障运维巡检有序进行而制定的规章制度。 服务器运维人员要做好巡检工作,还必须保持学习。
关键词: 服务器 , 运维 , 巡检

 摘要:服务器和相关设备的运维巡检工作是一项综合性很强的工作,需要服务器运维人员全身心投入,认真做好各方面的工作。需要关注服务器硬件及软件运维巡检的注意事项,在巡检过程中发现的故障和问题要及时解决。需要遵循公司为保障运维巡检有序进行而制定的规章制度。 服务器运维人员要做好巡检工作,还必须保持学习。

关键词:服务器;运维;巡检

 Abstract: In order to do a good job in the operation and maintenance  inspection of servers and related equipment, the server operation and  maintenance personnel need to do a good job in all aspects of the  work, which is a highly comprehensive work and requires wholehearted  devotion and conscientious completion. Attention should be paid to the  precautions of server hardware operation and maintenance inspection.  The faults and problems found in the inspection process should be solved  in time and the rules and regulations formulated by the unit to ensure the  orderly operation and maintenance inspection should be followed. And  for the sever operation and maintenance personnel, only through lifelong  learning can the inspection work be better completed.

Key words: Server; Operation and maintenance; Inspection

服务器巡检是一项非常重要的工作,是维护服务 器、是现代信息行业的基石,是一切基于其之上服务稳 定运行的基本保障。

作为一家为各个企业和一些合作单位提供服务器运维和巡检的计算机企业,公司有着齐全的计算机设备,多个机房分布在本市多处。这些都需要运维人员做好对这些服务器的运维和巡检相关的工作。企业离不开服务器,服务器离不开运维人员。现就服务器运 维巡检工作中的几项注意事项,试与同行进行探讨和 交流。

1 服务器硬件运维巡检的相关注意事项

服务器硬件是企业对外提供服务所必须的基础设施,如机房建筑结构上的等电位保护措施、防雷设施、 等电位连接设施、机房防雷装置、机器自身的防雷和防静电接地线等防雷装置,UPS冗余电源和机器自身的双电源甚至更多电源的冗余电源装置,精密空调和冷风通 道、散热风扇和导风条等冷却散热系统,环境监控系 统、视频监控系统,机房门禁系统和七氟丙烷气体灭火 系统等环境、监控、门禁和防火系统等。这些关联在一 起,以保证机房硬件设施的安全稳定。

服务器机房硬件运维和巡检十分重要。当运维人员进入机房以后,要及时观察机房环境。发现问题或故障要及时记录,并及时做出响应。

机房环境是否有故障以及故障情况,运维人员在巡检时要及时填入服务器巡检表格,以备今后查看和存档。

确认机房安全状态后,运维人员应及时巡检自己职责范围内的服务器、交换机、路由器等一系列硬件设施,观 察指示灯状况是否正常,是否有硬盘故障、网线故障、电 源故障等,是否有异响异味甚至其他危险征兆。

出入机房要用门禁卡来验证,必须做好门禁卡分发和管理的工作,门禁卡由公司专人负责。外来人员进入机房办事,必须由负责此项工作的运维人员带领进去并全程陪同,以保证人员和设备的安全,离职员工门禁卡权限应当及时注销。

在机房进行运维和巡检时,运维人员必须要预防触 电事故,尽可能地减少和避免热插拔和非正常关机等非正常操作,避免不遵守操作规程的做法和行为,将可能对服务器硬件造成的损伤和破坏降到最低。

硬件巡检看似简单重复,但必须有强烈的责任 心,专注地做好,丝毫不能懈怠,这样才能最大限度地 保证机房和服务器设施以及巡检人员自身的安全。

2 服务器软件方面巡检的注意事项

运维人员除了负责机房及服务器硬件设施的运维和巡检,还要远程连接到服务器上进行服务器软件设施等软件方面的运维和巡检。

服务器软件虽然没有实体,但它也在为用户提供服务。本公司的远程巡检原来是通过系统远程登录进行的,只要知道用户名和口令,运维人员就能够轻松登录上去,操作较为方便。但原先在公司以外的外网以及公司内部某些区域是直接用云桌面或VPN或跳板机来登录的,有一定安全风险。

近年来为保护关键公司的重要数据安全,国家加强了等级保护等措施。笔者所在公司作为重要国企, 对这方面的安全进行升级,统一采用堡垒机进行安全登录,实施任何远程运维操作,都必须通过堡垒机作为跳 板,而不是远程桌面直连。

堡垒机可以记录下每个用户登录的全部过程,以便在出现问题时进行追溯和理清责任。

运维人员进行在线或机房软件巡检时,应按规定进行,并及时做好记录。

巡检中发现问题,要第一时间和相关负责的同志以及相关领导同事进行沟通交流,如有必要,共同开会研究解决方案。

3 在巡检过程中发现的故障和问题要及时 处理

运维人员在进行服务器硬件设备和软件系统的巡 检时,不仅是为了巡检而巡检。更是要带着让系统更安全更稳定和保证系统安全稳定运行的目的去进行巡检。

运维人员在进入机房巡检时,应当全神贯注地注意每个细节。在远程进行服务器软件巡检时,应当注意软件系统的各个细节,如服务器的CPU使用率、内存使用率、磁盘空间使用率、各硬件温度等,一旦发现异常或超出阈值就要及时处理。

在公司的巡检工作过程中,笔者曾多次在第一时间发现服务器系统出现故障,并及时将其解决,以及联 系其他同事和领导讨论和启动应急预案解决问题。巡检工作过程中及时发现、及时响应,避免了公司的损失。

在巡检中发现问题,接下来解决这些问题。如发现的是简单的小问题,可以按照惯常的操作方法来解 决。如冗余电源和网线亮红灯插拔、机器死机故障重启等,及时做好故障处理记录。

当暂不能解决问题,就需要自行研究解决方法, 尝试排除故障,并且和相关同事或领导等人一起研讨解决方案,紧急处理,持续跟进,直到把问题彻底解决。 并记录解决此类问题的方法和过程,以为今后解决同类问题提供经验。

而当遇到超出常规的特殊故障,运维人员会动用应急预案及时进行处理和解决。应急预案规定了各个系统恢复响应所需的时间限额,在这范围内解决故障可以有效保证系统的正常运行,把故障造成的损失降到最低限度。

当运维人员需要和厂商、供货商,以及外单位人员等外部力量来解决问题时,则由运维人员或公司领导联系他们进行确认,说明问题或需求,并通过远程和机房现场连接测试以及现场测试等,对这些故障进行跟进处理。

服务器运维巡检操作如果涉及到对现有配置的修 改,在工作时间不得影响用户业务和发生重大事故,对于影响用户业务的操作应遵守如下运维操作纪律和规范:

三个禁止:

· 禁止白天对设备进行中断业务的操作;

· 禁止没有方案下进行中断业务的操作;

· 禁止没有通知上级领导私自进行中断业务的操作。

七个必须:

· 操作必须得到业务组长的确认;

· 操作前必须对当前配置进行记录或备份;

· 操作过程中必须确认操作的准确性;

· 操作后必须进行业务验证和相应测试;

· 操作后必须监控设备运行状态,存在新增告警或异常的需进行记录和分析原因;

· 操作后出现业务中断2小时以上且不能恢复业务的,必须上报领导说明情况;

· 操作后必须及时反馈并记录操作结果。

服务器巡检操作应准备充分,包含以下要求:

(1)稳定的网络环境:服务器巡检应尽量在公司内网进行,对于中断业务的操作,原则上不可通过 VPN进行远程操作;

(2)被批准的操作方案:对于重大操作影响或中断业务的,方案中应包括应急回退方案;

(3)登入设备的用户账号和权限:操作前需确保开通登入相关设备的用户账号和相应权限;

(4)进入机房的权限申请:如有必要,需提前向设备所属物业公司申请进入许可,进入时需携带相关证件;


(5)其他外部设备:根据业务需要应提前准备相关外设,包含不限于笔记本电脑、U盘、Console连接 线、USB-网口转换线、网线测试仪、网线和网线钳等。

除此之外,公司还根据客户需要在多个客户公司派驻了运维人员,并对托管机房的服务器进行巡检。

托管机房所在地常常远离日常工作地点,公司会定 期指派工程运维人员定期赶往这些机房进行巡检,由于 巡检是在不影响其他工作正常开展的情况下进行,这对外派运维人员的业务能力也有更高的要求。

外派的运维人员一旦遇到无法解决的非常规超常规 的问题,必须第一时间和公司其他运维人员以及领导联 系,共同解决问题。

运维巡检工作看似简单重复,实际上也会有突发情况。发现问题不但要及时解决,还要和其他人员共同解决,并做好各项记录。

凡事预则立,只有事先做好了应急预案,才能更好地解决突发问题。

处理巡检中发现的故障和问题,维护系统有序运 行,是运维人员的职责所在。

4 应当遵循公司制定的运维巡检工作相关的规章制度  

运维人员开展工作要遵循公司的规章制度。制定和遵循这些规章制度是为了更好、更有条理、更有序地完 成企业的工作。

公司已经制订的各项规章制度,有时也会根据业务的变化来进行修改。随着业务的发展,公司的客户数量不断增加,需要新增服务器、新增精密空调,增大精密空调的功率、配电柜的功率,以及增加机柜和机房的数量和容量。这些设备扩容时需要停止部分服务,业务暂时缩减,要拆除服务器或把服务器另做他用。在这些过程中有时需要帮客户搬迁机器,以及搬迁公司自己的机房机器,比如2018年的某企业服务器大搬迁,从吴泾地区搬到了上海金山石化区。

过程中牵涉到机器设备安全、数据安全、人员安全等一系列问题。服务器在搬迁过程中不能受到过大的震动,过大震动会导致硬盘损坏或内存条松动影响开机,甚至丢失用户数据。在搬迁之前要备份部分用户关键数据。 这一切都必须遵循公司的规章制度有序开展业务。

公司的机房设备增减以及机房扩容等牵涉到硬件安全、成本的计算、人员的管理等,这都需要一系列制度来进行保障。

服务器机房是一个庞大复杂的系统,它的稳定运行需要严格遵循规章制度的建设来规范人/物等各方面因素,从而推进这些工作的顺利和有序进行。

公司规章制度《信息系统运维管理办法》,其中包括信息系统运维支持组织和职责、信息安全管理、关键岗位管理、账户和权限管理、密码口令管理、网络和访问管理、配置和备份管理、资产安全和备件管理、安 全审计等。

5 运维人员要做好巡检工作,需要终身进 行学习

计算机行业变化发展很快,新技术、新方法、新 设备层出不穷,计算机硬件行业的快速发展,也带动了软件行业的快速发展。服务器领域各种设备每隔几年就会更新一代。由于服务器设备的寿命很长,持续使用时间很长,公司里既有老的服务器也随时会增加新的服务器,新老服务器之间协同工作可以达成性能和成本的最佳平衡。服务器运维人员为了做好运维工作,既需要掌握老服务器的运维知识,也需要掌握新服务器的运维知 识。

人的年龄在增长,随着终身学习知识和积累经验,运维人员进行运维工作的理论和实践经验只会越来越丰富,从而更好地进行运维工作,把公司的业务做得更好。

服务器运维人员做好巡检工作,需要关注服务器硬件运维巡检的注意事项,软件在巡检过程中发现的故障和问题要及时解决。需要遵循公司为保障运维巡检有序进行而制定的规章制度,还必须终身进行学习。

服务器运维和巡检看似很简单,但实际上却并不容易。维护服务器作为现代信息行业的基石,是一切基于其之上服务稳定运行的基本保障。

作者简介:

郑邦甲(1984-),男,江苏赣榆人,学士,现就职上海华谊信息技术有限公司,研究方向是计算机。

摘自《自动化博览》2021年5月刊

热点新闻

推荐产品

x
  • 在线反馈
1.我有以下需求:



2.详细的需求:
姓名:
单位:
电话:
邮件: